研究所紹介  

   

活動  

   

情報発信  

   

あいんしゅたいんページ  

   

データ駆動科学

詳細

データ駆動科学とは、ビッグデータから自然法則を解明する科学で、第4のパラダイムまた第4の科学と言われている。現在、データ駆動科学が勃興中で、私も勉強会を開いて徹底的に勉強している。極めて難しい数学の塊である。しかしここではそんな難しい数学の話をするわけではない。科学が新しい段階に入ったという話と、データ駆動科学が世界に及ぼす影響について話す。

第4の科学というからには第1,第2,第3の科学があるはずだ。それについて簡単に説明する。まず第1 の科学であるが、これは科学の発展の第一段階で経験科学といわれる段階だ。具体的には自然を実験や観測によって調べて、自然の奥底に潜む法則を見つける段階だ。

天文学と物理学の歴史を見ると分かりやすい。自然科学はギリシャ時代に始まった。惑星の運行を扱う天文学を例にとって説明する。惑星の運行に関してはいろんな説があったが、ローマ時代の西暦100年にエジプトのアレクサンドリアで生まれたプトレマイオスは、現在では天動説とよばれる説を完成させた。それによると世界の中心に地球があり、太陽や惑星は地球を中心として回っているという。プトレマイオスの天動説は現代的な観点から見れば間違っているが、プトレマイオスが観測を無視したわけではない。十分な観測の結果、天動説を作り上げたのだ。ちなみに私は高校生の時に図書館でプトレマイオスの書いた「アルマゲスト」という本を少しだけ読んだことがある。もちろん単なる好奇心で、そこから現在的な天文学の知識が得られるわけではない。

プトレマイオスの天動説は西欧で長い間支配的であったが、その説ではどうしても説明できないこともあった。ずっと後の15世紀になって、1473年にポーランドで生まれたコペルニクスは、天文観測と思索から世界の中心は地球ではなく太陽であるとする地動説を考えた。彼の説は死後に「天体の回転について」と題する本にまとめられた。これも個人的な話だが、私は東京の明星大学の図書館で「天体の回転について」の初版本を見せていただいたことがある。

その後16世紀の1546年にデンマークに生まれた天文学者のティコ・ブラーエは惑星の運動に関して、当時の技術としては最も精密な観測を行った。しかしそのデータをもとに、法則性を見出すことはできなかった。そこでティコ・ブラーエは、1571年生まれのドイツの天文学者であるヨハネス・ケプラーを助手に採用した。ケプラーは数学者としても有名であり、ティコのデータを解析できると考えたからである。しかしティコはケプラーを呼んでおきながら、自分の観測データは渡さなかった。ケプラーに手柄を独占されることを恐れたからであろう。

ところがティコは1601年にある事件で死亡した。宴会でトイレに行くのを我慢したので膀胱が破裂して死亡したという話である。しかし本当は宴会で調子が悪くなり、帰宅して自分の調合した薬を飲んで、その毒性で死亡したと考えられている。水銀中毒である。ティコは薬の研究もしていたのだ。

ケプラーはティコの集めたデータを、ティコの遺族を騙して手に入れた。そしてそのデータを解析して、惑星の運行に関するケプラーの三法則を発見した。しかしデータを手に入れるためにケプラーがティコを毒殺したという説もあり、本になっている。しかしそれも多分違うだろう。

1643年英国に生まれたアイザック・ニュートンはケプラーの法則について考えを巡らせて、現在ニュートンの運動方程式と呼ばれている物理学の基礎法則を導いた。また天体の間には重力とよばれる力で引き合っていることも発見した。ニュートンの運動方程式と、いわゆる万有引力の法則と呼ばれる重力の法則を組み合わせると、ケプラーの法則が見事に説明できるのである。ところでニュートンはその他にも微分積分学の基礎や光学の基礎も確立している。多分、今までに生きていた人の中で最も頭の良かった人だろう。

ニュートンが大学で学位をとった頃に、ヨーロッパでペストが大流行してケンブリッジ大学が閉鎖された。そのためにニュートンは1年半ほど故郷に帰り、そのときに重要な業績を上げている。当時のペストはヨーロッパの人口の3分の一も死亡したこともあり、現在のコロナを遥かに凌ぐ病気であった。

ちなみにコロナ禍で多くの大学が閉鎖されたり、講義がリモートでなされたりしている。それはそれでうまく利用すれば、科学の進歩にとって良いことかもしれない。大学の先生方も、対面講義が再開されているところは別として、リモート講義なら通勤の必要がないので、かえって研究に集中しやすいだろう。私もコロナのために勉強会はzoomで行っているが、結構効率的である。

まとめると第一の科学とは自然界を実験や観測で調べてデータを取り、そのデータを解析して自然法則を発見する段階の科学である。力学に関しては今述べたようなものだが、電磁気学に関しては1831年に英国で生まれたマクスウェルが電磁気学の基礎法則を発見した。量子力学では1887年オーストリア生まれのシュレディンガーがシュレディンガー方程式を発見している。これらはすべて物理学の基礎方程式である。

第一の科学の次は第二の科学である。これも物理学を引き合いに出せば、ニュートンたちが発見した基礎方程式を解く段階である。物理学なら理論物理学のことである。理論物理学では、数式を使って基礎方程式を解析的に解く。大学で習う力学だ。ニュートン以降、いろんな理論物理学者が活躍して惑星の運動を数式を用いて計算した。

「三体」という中国のSFがある。太陽から数光年離れた三重星系にある惑星で生まれた文明の話だ。そこに住む三体星人とよばれる宇宙人が高度な文明を持っている。彼らはある偶然で地球を発見して地球侵略を開始するという話である。しかし三重星系の運動は極めて複雑であり、数式を使って解析的に解くことはできない。だから三体星人の文明には、ティコ・ブラーエに相当する観測家はいたとしても、そのデータを使って基礎法則を解明するケプラーやニュートンに相当する科学者は生まれないのではないだろうか。あまりに複雑すぎるからだ。太陽系は幸いなことに、太陽の質量が惑星の質量に比べて圧倒的に大きい単独星であり、だから惑星の軌道運動が二体問題で処理できて、ケプラーの法則のような簡単な法則にまとめられたのだ。だからニュートンがニュートン力学を確立できたのだ。つまり三体星人には高度な科学技術文明は育たなかったと私は推測する。

第二の科学では第一の科学の段階で発見された基礎方程式を、数式を使って、手で解く段階である。つまり理論物理学である。ところが数式を直接解くことができるのは、比較的簡単な場合に限られる。一般的には解くことができない。そこでコンピュータを使って解く段階になる。基礎方程式をコンピュータを使って解くような科学の段階をシミュレーション科学と呼ぶ。これが第三の科学である。第三の科学はコンピュータの進歩とともに発展した。コンピュータが生まれたのは第二次大戦後の1946年であるが、シミュレーション科学が実用的になったのは1960年代からである。

これも個人的な話だが、私は1967年に京都大学大学院の博士課程に進学した。そして始めた研究は、コンピュータを使ってブラックホールができる過程を計算するというものであった。つまり私はシミュレーション科学の第一世代なのである。現在の科学は第一の実験・観測科学、第二の理論科学、第三のシミュレーション科学が併存する時代である。

さて問題の第4の科学であるデータ駆動科学について説明する。今までに述べた第1、2、3の科学では簡単な基礎方程式が存在している。そしてこれらが扱えるのは簡単なシステムである。ところが現在の科学では、もっと複雑なシステムを取り扱う必要がある。例えば気象、乱流、生態系、株価、コロナなどの疫病の伝播などである。これらのシステムを複雑系と呼ぶ。複雑系では、基礎方程式が分からないか存在しない場合すらある。気象や乱流の場合は基礎方程式は流体力学のナビエ・ストークス方程式である。しかしそれを実際に解くのは大変で、しかも正確な解がわかるわけではない。

株価などは日日変動するのだが、それは全くランダムなものではなく、なにか規則性があるはずだ。規則性があるから、それを見つけられれば、儲けることができる。もし全く乱雑なら株式投資は意味がない。しかし株価の変動を記述する方程式は知られていない。またコロナの場合もその基礎方程式はSIR方程式と言われているが、正確な予測は誰もできていない。

データ駆動科学とは、複雑系の膨大なデータを用いて、その背後にある法則性を発見するような科学である。観測データから規則性を発見するという意味では第一の科学と同じだが、第一の科学の場合のように簡単な方程式が見つかるとは限らない。株価の変動のように、そもそもその規則性を方程式の形に書けるかどうかも明らかではない。

気象の場合なら時々刻々の各地の気象データ、株価なら時々刻々の各社の株価変動、コロナなら各国とか各県の感染者や死者数の膨大なデータがある。その膨大なデータはビッグデータと呼ばれる。そのビックデータをコンピュータで解析して、その現象の背後にある方程式なり規則性を見つけるのがデータ駆動科学だ。たとえ方程式が見つからなくても、未来の予測をしたり、制御したりできれば良い。それがデータ駆動科学だ。今までの科学とは違う、第4の科学である。

ところで現在の段階では、株価の完全な予測やコロナの死者数の完全な予測はまだできていない。データ駆動科学の発展段階はまだ初歩的な段階である。しかし理論とコンピュータの急速な進歩により、あと10年もすればデータ駆動科学は長足の進歩を遂げるであろうと私は思う。コロナがその時代に発生していたら、世の中の動きももっと違ったものになっていたであろうと思う。

科学の発展段階を歴史的に概観して、3つに分類した。そして現在は第4の科学が生まれつつあることを述べた。実験・観測から自然の簡単な基礎法則を発見するのが第一の科学である。その基礎法則を用いて数学的な解を求めるのが第二の科学である。コンピュータを用いて基礎方程式を解くシミュレーション科学が第三の科学である。現在は第4の科学と言えるデータ駆動科学の勃興期である。膨大な観測データをコンピュータで処理して複雑系の法則を発見する研究である。

   
© NPO法人 知的人材ネットワーク・あいんしゅたいん (JEin). All Rights Reserved