ええ、このとても興味深いトピックについて、一緒に見ていきましょう。
シンプソンのパラドックスとは?
簡単に言うと、**シンプソンのパラドックス(Simpson's Paradox)**とは、グループ化されたデータを見たときに、個々のグループそれぞれがある傾向を示しているにもかかわらず、それらをすべて合わせて見ると、その傾向が消えたり、完全に逆転したりする現象のことです。
少しややこしく聞こえるかもしれませんね?でもご心配なく、これは思っているよりもずっとよくあることです。データが起こす手品のようなもので、個々の部分の真実をはっきりと見ていても、全体として結合された「真実」が私たちを欺くことがあるのです。
一つの古典的な例:腎臓結石の治療
腎臓結石の治療を行っている2つの病院(または2つの治療法)があるとして、それぞれを治療法Aと治療法Bと呼びましょう。これらが統計した治癒率を、以下の総データとして見てみましょう。
治療法 | 総患者数 | 治癒患者数 | 総治癒率 |
---|---|---|---|
治療法A | 350 | 273 | 78% |
治療法B | 350 | 289 | 83% |
この集計表だけを見ると、あなたは間違いなくこう結論づけるでしょう。「治療法Bの方が優れている!」と。その治癒率(83%)は治療法A(78%)よりも明らかに高いからです。
しかし、もしデータを細分化して見てみたらどうなるでしょうか?
腎臓結石には大小があり、治療の難易度も異なります。そこで、患者を「小結石」と「大結石」の2つのグループに分け、再度治癒率を見てみましょう。
1. 小結石グループ
治療法 | 総患者数 | 治癒患者数 | 治癒率 |
---|---|---|---|
治療法A | 87 | 81 | 93% |
治療法B | 270 | 234 | 87% |
ご覧ください、驚くべきことが起こりました!「小結石」という比較的簡単な症例の治療においては、治療法A(93%)の効果が治療法B(87%)よりも実ははるかに優れているのです。
2. 大結石グループ
治療法 | 総患者数 | 治癒患者数 | 治癒率 |
---|---|---|---|
治療法A | 263 | 192 | 73% |
治療法B | 80 | 55 | 69% |
「大結石」という難しい症例の治療においても、治療法A(73%)の効果は依然として治療法B(69%)よりも優れています。
パラドックスの正体は?—— 潜在変数
さて、疑問が生じます。
- 治療法Aは小結石の治療において、Bよりも優れていました。
- 治療法Aは大結石の治療においても、Bよりも優れていました。
- しかし、なぜデータを合わせると、治療法Bの全体的な治癒率の方が高くなるのでしょうか?
これこそがシンプソンのパラドックスの核心です。原因は、データグループの不均衡にあり、その背後には「潜在変数(Lurking Variable)」が作用しているのです。
この例では、その潜在変数が**「結石の大きさ」**(あるいは「症例の難易度」)です。
元のデータの人数配分を見てみましょう。
- 治療法A:大結石の患者(263人)を大量に受け入れており、これらの症例は元々治癒率が低いものです。小結石の患者はごく少数(87人)しか担当していません。
- 治療法B:主に小結石の患者(270人)を治療しており、これらの症例は元々治癒率が高いものです。大結石の患者はごく少数(80人)しか担当していません。
簡単に言えば、治療法Aは「難しい症例」ばかりを引き受けており、一方の治療法Bはほとんどが「簡単な症例」を扱っていたのです。
これは、あるトップレベルのバスケットボールチーム(治療法A)がほとんどの時間、強豪チームと試合をし、一方の普通のチーム(治療法B)がほとんどの時間、弱小チームと試合をしているようなものです。シーズン終了時に総勝率だけを見れば、普通のチームの方が高くなる可能性は十分にあります。しかし、だからといって普通のチームがトップレベルのチームよりも強いと言えるでしょうか?明らかに言えません。
治療法Bの高い全体の成功率は、それがより「成功しやすい」患者を治療したことによるものであり、治療法B自体がより効果的であったからではありません。この「症例の難易度」という要因が隠され、全体データだけを見たときに、私たちは誤った結論を導き出してしまったのです。
私たちが学べること:落とし穴を避けるには?
シンプソンのパラドックスが私たちに与える最大の教訓は、**特に統計データを見る際には、「見たままが真実とは限らない」**ということです。
- 全体データを盲信しない:集計データを見たときには、「このデータはさらに細分化できるか?異なる集団や状況が含まれていないか?」と問いかけてみましょう。
- 潜在変数を探す:データを分析する際には、常識や専門知識と照らし合わせ、見過ごされているかもしれないが、結果に影響を与える極めて重要な要因が存在しないかを考えてみましょう。例えば、異なる専攻の合格率を分析する際には、応募者の平均成績を考慮する必要がありますし、薬の効果を分析する際には、患者の年齢や病状の重症度などを考慮する必要があります。
- グループごとの比較が鍵:二つの事柄(例えば二つの方法、二つの集団)を比較する際には、「同じ種類のものを比較している」ことを確認しましょう。「リンゴ」と「ミカン」を混ぜて合計だけを出すのではなく、それぞれを分けて比較することが重要です。
要するに、シンプソンのパラドックスは、データ分析が単なる計算ではなく、洞察であるということを私たちに教えてくれます。次に驚くべき統計的結論を目にしたときには、すぐに飛びつかず、データの裏にもう一つの物語が隠されていないか、少し立ち止まって考えてみましょう。