社会を変えるデータサイエンス③
中吊り広告で見た「p値」の意
松嶋先生のお話にあった「考え方を学ぶ」ということについて、具体的な事例をご紹介したいと思います。最近、電車に乗っていたら、あるお茶の中吊り広告を目にしました。それには「このお茶を8週間飲み続けると、脂肪が低減する効果が認められました」という文章とともに、グラフが載っていました。私が気になったのは、グラフの下に小さな字で「p<0. 比較対象飲料と比較して有意差あり」と書かれていたことです。皆さんの中で高校数学Bの「統計的な推測」を学んだ方は、このpの意味がわかるかもしれません。
この数式のベースには、統計学における「仮説検定」という考え方があります。仮説検定というのは、ある仮説についてそれが確かそうか、疑わしいかを判断するための考え方になります。例えばコインを6回投げることを考えましょう。このとき6回とも全て裏が出たとするとどう思いますか?おや、これは裏が出やすいコインなのかな?と思うのではないでしょうか? 表と裏が50%の確率で出現すると仮定したとき、6回裏が出る確率は1・5625%ですが、この50%ずつの仮定が誤っていたのかな?と思うかもしれません。仮説検定ではこのようにある仮定の下で確率を計算しますが、この確率をp値と呼びます。]
統計学で世界の見え方が変わる
先ほどの、お茶の広告のグラフのp<0. という式は、このp 値が0・ より小さいですよという意味になります。正確には「このお茶と比較対象の飲料の効果が変わらないと仮定した場合、今回のデータが発生する確率は1%未満です」ということを意味しています。つまり「お茶に効果がないと仮定した場合には極めて低い確率で起きる現象が生じた」と言うことで、逆説的に「このお茶を飲み続けると脂肪が減少する」ということをアピールしているのです。この例以外でも、仮説検定では確率の低さの基準としてp値が0・ や0・ 以下かどうかを考えることが多いです。
統計学はデータサイエンスを理解するうえでとても重要な学びの一つですが、このように街中の広告一つとっても、統計学の知識を持つことで見え方が変わってきます。世界に対する新しい考え方を、データサイエンスによって身につけるとは、そういう意味です。
データを基に意思決定するのは人間
私は今、「データを圧縮する」ことを研究テーマの一つとしています。最近のAIは大量のデータを機械学習で読み込むことで飛躍的に進歩しましたが、それにともない世界中で扱われるデータ量がこの15年で100倍近くにも増えました。そのため元のデータをできるだけ損なわず、可能な限り小さくするデータ圧縮技術が必要とされているのです。データを圧縮するためには、基の大きなデータの中で、どこが大事で、どこがそれほど大事ではないかを判断する基準が必要です。その基準を最初に作るのは、AIではなく私たち人間です。
先ほどのお茶の例では、p<0. すなわち1%未満を確率の低さの基準と考える場合が多いとお話しました。それでは1・1 % はどうでしょう?確率は低くないのでしょうか? 本来は1%より上か下かという画一的な基準ではなく、分析者が問題に応じてp値を利用するべきですよね。データサイエンスやAIがどれだけ発展しようと、最後に物事を決めるのは私たち人間であることには変わりがありません。ただし、そのためには仕組みをある程度理解する必要があります。大学でそれらを学び、データサイエンスという強力な思考の道具を手に入れた皆さんは、きっと今後の人生を通じて、より良い意思決定をすることができるようになるでしょう。