私の世代では、大学受験までは、常に、偏差値で、人格までもが判断される時代でした。
偏差値とはとの問いに即答できるような人は、少ないのではないでしょうか?
偏差値とは、ドラゴンボールで言うところの、セルの完全体です。
この完全体になるまでのプロセスを知らないと、意味がありません。
以前の統計学で説明していますが、さらに突っ込んで説明をしたいと思います。
ちなみに、セルを見ていと、Excelを思い出すのはわたしだけでしょうか?
目次
偏差値について考える
こんにちは。伊川(@naonaoke)です。
前回も言いましたが、偏差値は、大砲の命中率を計るために、作られた数値です。
データベースも、もともとは、軍事用語です。
公式も、難しいですし、データ分析ツールを利用しても、一発で算出されません。
しかし、この偏差値ができる過程を理解すると、より、偏差値の理解度が深まります。
本来でしたら、統計学チックに、物の生産工程等のデータを利用するといいと思います。
でも、申し訳ありません。
今回も、サンプルデータが、競馬のデータです。
このブログはこんな人にお勧め
- 統計学を勉強いている人
- Excelの統計関数を勉強している人
- 偏差値の仕組みを知りたい人
このブログを、読み終わるころには・・・・
偏差値がどのように、算出されているかを理解できます。漠然と母集団(全体)の中の、位置を確認するだけではありません。
後半では、少しだけ、競馬のもうけ話も紹介します。
標準正規分布とは
あるデータが正規分布に従うと仮定できる場合、このデータを標準化することで「標準正規分布表」を用いて確率を求めることができます。
ここが少し問題なのですが、競馬のデータなので、綺麗な正規分布にはなりません。
なので、この標準正規分布を利用するのは、そもそも、競馬には無理なのかもしれません。
しかし、思考プロセスは利用できますので、暇つぶしに読んで、出来れば、動画もご視聴していただければと思います。
SP指数_4の偏差値を求める 作業手順 その1 データを標準化する
SP指数_4の数値でが、0は除きます。
個別の数値(この場合は、54)から、平均を引きます。
その数値を標準偏差で割ります。
-0.872192309という値が出ました。
この計算をすべての個数において実行します。
そうすると、データは、0か1に分かれます。
12行目に、-3.599146482という数字もありますが、それは無視してください。
これが公式になります。
なぜ、標準化作業が必要なのかというと、データを比較しやすくするためです。
もっとも、この数字の羅列でも、決して見やすいわけではありません。
SP指数_4の偏差値を求める 作業手順 その2 更にデータを見やすくする
これで、標準化した値がみやすくなり、全体の位置も確認しやすくなります。
SP指数_4の偏差値を求める 作業手順 その3
68%-95%-99.7%の法則
この列を標準化したことにより、0か、1に分類されました。
これはヒストグラムを見ると、明らかです。
少なくとも、データの幅は、-3~3まので間に集中しているはずです。
横軸の目盛が、-2~2の間は、95%の確率で、赤の中に納まる
横軸の目盛が、-3~3の間は、97.5%の確率で、赤の中に納まる
これが、68%-95%-99.7%の法則です。
この白い面積は、例外ということになります。
製品でいうなら、この白い部分は不良品です。
ということは、2.5%の馬を予想から対象外にすることができるでしょう。
このようにフィルターで、30頭の馬を無条件で消すことができます。
統計学 番外編 統計学の用語
μ(ミュー)は平均の時に使われます。
語源は、meanです。meanには、訳すると意味ですが、平均という日本語訳もできます。
しかし、「m」という記号は数列の添え字や最大(max)、最小(min)を表す際に頻繁に使われるので、差別化を図りギリシャ文字の「μ」が使われています。
但し、色々な説もあります。
ここでまた1つ疑問が出てきます。平均値をExcelで出力する際にAVERAGE関数を使います。いわれてみれば英単語のAverage(アベレージ)も平均を意味します。
実はAverageには平均以外も、平凡な、標準的なという意味があり、統計学の世界では、代表値というニュアンスで使われます。
つまり、「Average」の方が広い意味があり「Mean」と「Average」は、正確には異なる用語として使い分けられています。
ここがポイント
いわゆる偏差値は、偏差値の前の段階である、標準化をさらに見やすくしたものでした。つまり、この偏差値は、世間様の判断を払拭できるような、エビデンスになります。偏差値が良いだけで、人間性まで判断できないでしょう。しかし、数値化することによって、客観的に判断できるようになるのも、事実です。
まとめ
少しだけ、競馬の話もしましたが、偏差値という統計を使って、穴馬を見つけることができました。
統計は、面白いでしょ?
今回も最後まで読んでいただきありがとうございました。
今回のサンプルファイルは、ありません。
わからない事を延々と考えるのは、無駄です。
- なんで作動かないの?
- もうやだ!VBAなんか嫌い!
- ネットで調べても情報がない!
必ず作動するコードが、ここにあります。