kmpen148のいろいろ

日常生活の雑感を書き出しています。備忘録的役割。

「確率」や「割合」ってすごい便利だけども

確率や割合って、事象を捉えるのに非常に便利ですよね。

「99%の人が高評価!」「売上が昨年に比べて3割も上がった!」などなど。


私も大学時代にレポートや論文を書く際、根拠を示す1つとしてよく使っていました。
「6割以上の被験者が「良い」という評価を下しているため、今回の実践は一定の効果があったと考えられる」みたいに……。

ただ、便利は便利なのですが、数字のマジックじゃないですけれど、使用する際にも、逆に自分が情報として受信する際にも注意しないといけないなぁ、とは常々感じています。
というのも、大学時代の指導教授に口酸っぱく言われていたからなんですけどね。

その受け売りに近い感じにはなってしまいますが、確率や割合で示されたデータを見掛けた際には、一旦立ち止まって、その数値が出た背景までしっかりと読み解く必要があると思っています。


野球の話になってしまいますが、簡単な例を挙げてみます。

1年間の成績が以下の2選手がいたとします。

① A選手  打率.500
② B選手  打率.250


どちらの選手が結果を残しているでしょうか。どちらの選手が高評価でしょうか。

ここに出ている数値だけを見ると、「そりゃ5割も打っているA選手の方が結果を残しているし、評価も高いでしょ」となるかもしれません(例が極端すぎてならないですかね?)。


では、以下の数字を足したらどうなるでしょう。

① A選手  打率.500 2打数1安打
② B選手  打率.250 300打数75安打


この場合、必ずしもA選手の方が結果を残しているとは言えないのではないでしょうか。


では、これならどうでしょう。

① A選手  打率.500 200打数100安打
② B選手  打率.250 100打数25安打


今度は逆に、「うわ、A選手気持ち悪っ!!」と高評価になるかもしれません。
200打数もあるのにその半分を安打にするのはプロでもさすがに無理なレベルですからね。


ここまでは私の趣味全開の例でしたので、もう少し体系的に書かれた記事を…。

近年、確かに「3組に1組が離婚する時代」なんて言葉よく聞きますよね。つい先日も、何の番組だったか忘れましたが(確かお昼のワイドショーだったような)、同じようなフレーズを耳にしました。

離婚される夫婦にはその夫婦なりの事情があり、おそらくその夫婦にとって最善策を選んだ結果なのだろうから周りがとやかく言う問題でもないとは思うので、何をそんなに煽っているのかよく分からないのですが、メディアはこぞって取り上げますよね。

「3組に1組が離婚する時代だー!」って。いや、ほんと、余計なお世話の何物でもないと思うのですが、それは置いといて。


この記事ではその「3組に1組が離婚」という情報を「フェイク」とばっさり言い切っており、その理由が説明されています。

すいません、詳しくはそちらをご覧いただきたいのですが、「3組に1組が離婚」と言えてしまうようなそれっぽい数値があるけど、実は政府が定義する離婚率は別の計算方法であって、決して3組に1組という結果は出ないということです。


こういった例から、私としては確率や割合を取り扱うときに大切なことは次の2点が挙げられるのかなー、と。

(1)母数の「数」の適切さ
(2)母数の「設定」の適切さ

簡単に書いておきます。

(1)母数の「数」の適切さ

打率の例にもあったように、同じ50%(5割)でも、その結果が出るために調査した全体数(母数)は一体どれくらいなのかを注視するということです。

同じ50%でも、2人中1人の結果なのか、500人中250人の結果なのかによって説得力が変わってきます。


とは言っても、調査そのものに時間がかかる場合や論文など期限が決められている場合、母数をどの範囲まで広げればいいかという見極めも必要になってきます。

果たして5,000人の集団に調査を行うのか、1,000人の集団に調査を行うのか、はたまた100人でいいのか……この辺は説明したい内容にもよって妥当性が異なるとは思うので、ただ単に数が多ければいいという問題でもないですかね。

(2)母数の「設定」の適切さ

これはまさに先ほどの離婚率の話に繋がるのですが、Books&Appsさんの記事で説明されていたように、その確率を出したそもそもの条件が怪しいと説得力を失う、ともすれば知らぬ間に「フェイク」を作り上げることになってしまいます。

(1)では全体数に注目しましたが、その対象者は示されている結果の条件に合致しているかを注視する必要があるということです。


極端な例ですが、「集団Aの20%は猫を飼っている」という結果が示されているのに、母数の中に集団Bまで含まれていた場合、対象者の条件に合致していませんよね。

論文では大抵母数の説明も書かれているはずなので条件に合致しているかどうかは割と見極めやすいんですけど、テレビとかではその辺の説明がごっそり抜け落ちていて、いきなり「3組に1組が離婚している!」みたいないかにもなデータが提示されることが往々にしてある気がするんですよ。その数字どこから出してきたの?みたいな。


ということで、以上の2点が個人的には結構大切だと思っています。実際に論文を書いているときもこの辺は常に気にしていました。

このようなことを注意して用いれば、非常に説得力のあるデータを作ることもできるので、確率や割合とはうまく付き合いたいものです。


今回はこんな感じです。