なるほど、面白い質問ですね。できるだけ平易な言葉でご説明しましょう。
因果推論とは?予測モデルとはどう違うのか?
想像してみてください。あなたはスイカ農家で、毎年夏にスイカを育てています。 ある現象に気づきました。畑に肥料を多く与えるほど、スイカが大きく育つようだ、と。
この時、あなたの頭には2つの考えが浮かびます。
- 予測的思考:「うん、これまでの記録によると、肥料を10斤与えれば、スイカはだいたい8斤の重さになる。じゃあ来年12斤与えれば、スイカは10斤になると予測できるかな?」
- 因果的思考:「『肥料を与える』という行為は、『スイカが大きくなる』ことの本当の原因なのだろうか?もしかしたら、他の要因が原因なのではないか?例えば、肥料を多く与えた年は、たまたま日当たりや雨量も非常に良かった、とか?もし肥料を与えることが本当にスイカを大きくするのだと確信できるなら、どれくらい与えるのが最も効率的なのだろう?」
違いが分かりましたか?
- **予測モデル(Predictive Modeling)が関心を持つのは、「何が起こるか」(What)**です。それは、パターンや相関関係を見つけることで予測を行います。先ほどのように、「施肥量」と「スイカの重さ」に強い正の相関関係があることを発見すれば、一つの変数を使ってもう一つの変数を予測できるのです。
- **因果推論(Causal Inference)が関心を持つのは、「なぜか」(Why)**です。ある「行動」と「結果」の間に本当に「因果関係」があるのかどうかを明らかにしたいのです。それは、「もし私が何かをした(例えば、肥料を多く与えた)ら、その結果はそれによって変わるのか?」という問いに答えます。
根本的な違い:相関 vs. 因果
この2つの最も根本的な違いは、古典的な例で説明できます。それは、**「アイスクリームの売上」と「溺死者数」**です。
-
予測モデルの視点: データによると、毎年夏、アイスクリームの売上が高い時期には、溺死者数も増えます。これらには非常に強い正の相関関係があります。そのため、優れた予測モデルは、「今日のアイスクリームの売上に基づけば、明日の溺死者数はXX人に達すると予測できます!」と堂々と言い放つことができ、その予測はかなり正確である可能性が高いのです。
-
因果推論の視点: 因果推論は、本質的な問いを投げかけます。「まさか、アイスクリームを食べることが人々の溺死を引き起こしているのか?」答えは明らかにノーです。 それは、「背後に隠された」共通の原因を探します。私たちはそれを**「交絡因子」(Confounder)と呼びます。この例では、その因子は「暑い天気」**です。
- 暑い天気 → より多くの人がアイスクリームを買う
- 暑い天気 → より多くの人が泳ぎに行く → 溺死のリスクが増加する
つまり、アイスクリームの売上と溺死者数は「たまたま」同時に発生しているだけで、どちらも同じ原因(暑い天気)によって引き起こされていますが、それらの間に因果関係はありません。もし私たちが溺死率を下げるためにアイスクリームの販売を禁止するという単純な考えに陥れば、それは全く無意味なことでしょう。
まとめ
特徴 | 予測モデリング (Predictive Modeling) | 因果推論 (Causal Inference) |
---|---|---|
核心目標 | 未来を予測し、変数間の相関性を見つける | 過去を説明し、変数間の因果性を見つける |
答える問い | 「もしXが起こったら、Yはどうなる可能性が高いか?」 | 「もし私がXに介入したら、Yはどう変化するか?」 |
典型例 | 株価予測、天気予報、レコメンデーションシステム | 新薬の効能評価、マーケティング活動の効果分析、公共政策の策定 |
焦点 | モデルの精度がどれくらい高いか | 結論の信頼性と現実世界への示唆 |
思考方法 | 相関関係は因果関係ではない(しかし、予測が正確であればそれで良い) | 交絡因子を排除し、真の因果関係を見つける必要がある |
端的に言えば、予測モデルは経験豊富なベテラン株トレーダーのようなものです。彼は様々な指標(ローソク足、出来高)に基づいて明日の株価の騰落を推測できますが、その理由までは必ずしも知りません。一方、因果推論は経済学者のようです。彼は「利下げ」という行動が株価の上昇を直接引き起こしたのかどうかを明らかにしたいのです。
機械学習や人工知能の分野では、私たちは長らく予測を得意としてきました。しかし現在、医療、経済、きめ細やかな運用といった、ますます多くの場面で、「何が起こるか」だけでなく「なぜそれが起こるか」を知ることが求められています。これが、因果推論がますます重要になっている理由です。