


社会を変えるデータサイエンス第10回 大阪大学②


本記事は、社会を変えるデータサイエンス第10回 大阪大学①の続きの記事です。こちらも併せてご覧ください
偽の因果関係を見抜くための「交絡」分析
ベイジアンネットワークで因果関係を分析するときに、とても邪魔になるのが「交絡」という現象です。交絡とは、二つの変数の関係性を分析する際に、第三の要因(交絡因子)が両方の変数に影響を与えることで、本当の関係性が見えにくくなってしまうことを言います。例えば、「アイスの売上が増えると、水難事故も増える」という仮定の因果関係があったとします。実際に夏場にはその傾向が見られるかもしれませんが、そのとき見落としてはいけない交絡因子が「気温」です。気温が高ければアイスが売れ、海水浴に行く人も増えるので事故も増えますが、アイスの売れ行きと事故そのものには、直接の因果関係はないのです。 私はこの交絡がもたらす影響を、最小限にできる数理的なロジックを追求しています。最近、そのための研究材料としたのが料理の「レシピ」です。例えば「肉じゃが」は、しょうゆ、砂糖、油、みりんといったさまざまな調味料をどの順番で入れるかで、出来上がりが違ってきます。それは各調味料が互いに影響を与え合うからです。私の研究では各調味料を「変数」としてサイトに掲載された膨大なレシピのデータを分析し、最も「交絡」が少ないレシピを割り出しました。その結果、実際の肉じゃがの一番人気のレシピと同じレシピをデータ上で再現することができました。
数学がデータサイエンスには不可欠
残念なことですが、学生時代に知識を習得しておけば、社会で活躍できると考えている人が多いように思います。しかし、仕事で必要な知識というものは短いレンジで変化していきます。大学は、頭を良くするところです。
そして、そのための大事な勉強道具が数学です。公式と解き方を暗記して、問題を解くことが数学だと思っている人がいます。ただ、それは受験勉強の歪みからくるものです。大阪大学では「垂線の足の長さの公式を証明しなさい」という問題が文系でも出ています。また、大学の数学の教科書は、論理的な展開を理解しないと読めません。自ずと真偽を見極める能力、本質を見る能力がついてきます。しかも、そういう緻密な論理的思考は数式のないところでも生かされてきます。
インターネットの世の中、知識を得ることは簡単です。しかし、新聞・テレビも、大学の先生の言うことですら間違いが含まれています。2024年10月~11月の兵庫県知事の不信任決議とその後の選挙での再選が良い例です。むしろ、真偽を見極めることこそが本当の意味での知識獲得になります。
データサイエンスの仕事は、統計学の公式を知っているとか、ツールの使い方を知っているだけとかでは行き詰まります。それだけのことであればAIに仕事を奪われていきます。他人の見えない本質が見えてこそ、自分の存在感を実感することができます。それがデータサイエンスの仕事の魅力です。