pickup
【Excel データ分析ツール】標準正規分布を作成してみる

私の世代では、大学受験までは、常に、偏差値で、人格までもが判断される時代でした。

偏差値とはとの問いに即答できるような人は、少ないのではないでしょうか?

偏差値とは、ドラゴンボールで言うところの、セルの完全体です。


この完全体になるまでのプロセスを知らないと、意味がありません。

以前の統計学で説明していますが、さらに突っ込んで説明をしたいと思います。

ちなみに、セルを見ていと、Excelを思い出すのはわたしだけでしょうか?

目次

偏差値について考える

こんにちは。伊川(@naonaoke)です。

前回も言いましたが、偏差値は、大砲の命中率を計るために、作られた数値です。

データベースも、もともとは、軍事用語です。

公式も、難しいですし、データ分析ツールを利用しても、一発で算出されません。

しかし、この偏差値ができる過程を理解すると、より、偏差値の理解度が深まります。

本来でしたら、統計学チックに、物の生産工程等のデータを利用するといいと思います。

でも、申し訳ありません。

今回も、サンプルデータが、競馬のデータです。

このブログはこんな人にお勧め

今回のテーマ
  • 統計学を勉強いている人
  • Excelの統計関数を勉強している人
  • 偏差値の仕組みを知りたい人

このブログを、読み終わるころには・・・・

偏差値がどのように、算出されているかを理解できます。漠然と母集団(全体)の中の、位置を確認するだけではありません。

後半では、少しだけ、競馬のもうけ話も紹介します。

標準正規分布とは

あるデータが正規分布に従うと仮定できる場合、このデータを標準化することで「標準正規分布表」を用いて確率を求めることができます。

ここが少し問題なのですが、競馬のデータなので、綺麗な正規分布にはなりません。

なので、この標準正規分布を利用するのは、そもそも、競馬には無理なのかもしれません。

しかし、思考プロセスは利用できますので、暇つぶしに読んで、出来れば、動画もご視聴していただければと思います。

SP指数_4の偏差値を求める 作業手順 その1 データを標準化する

SP指数_4の数値でが、0は除きます。



スポンサーリンク
A列の平均と標準偏差を求めます。


個別の数値(この場合は、54)から、平均を引きます。

その数値を標準偏差で割ります。

-0.872192309という値が出ました。

この計算をすべての個数において実行します。


そうすると、データは、0か1に分かれます。

12行目に、-3.599146482という数字もありますが、それは無視してください。


これが公式になります。

なぜ、標準化作業が必要なのかというと、データを比較しやすくするためです。

もっとも、この数字の羅列でも、決して見やすいわけではありません。

SP指数_4の偏差値を求める 作業手順 その2 更にデータを見やすくする



スポンサーリンク
これが偏差値の公式になります。

これで、標準化した値がみやすくなり、全体の位置も確認しやすくなります。

 

 


SP指数_4の偏差値を求める 作業手順 その3 
68%-95%-99.7%の法則

この列を標準化したことにより、0か、1に分類されました。

これはヒストグラムを見ると、明らかです。

少なくとも、データの幅は、-3~3まので間に集中しているはずです。


68%-95%-99.7%の法則
横軸の目盛が、-1~1の間は、68%の確率で、赤の中に納まる
横軸の目盛が、-2~2の間は、95%の確率で、赤の中に納まる
横軸の目盛が、-3~3の間は、97.5%の確率で、赤の中に納まる

これが、68%-95%-99.7%の法則です。


この白い面積は、例外ということになります。

製品でいうなら、この白い部分は不良品です。

ということは、2.5%の馬を予想から対象外にすることができるでしょう。


このようにフィルターで、30頭の馬を無条件で消すことができます。

統計学 番外編 統計学の用語

μ(ミュー)は平均の時に使われます。

語源は、meanです。meanには、訳すると意味ですが、平均という日本語訳もできます。

しかし、「m」という記号は数列の添え字や最大(max)、最小(min)を表す際に頻繁に使われるので、差別化を図りギリシャ文字の「μ」が使われています。

但し、色々な説もあります。

ここでまた1つ疑問が出てきます。平均値をExcelで出力する際にAVERAGE関数を使います。いわれてみれば英単語のAverage(アベレージ)も平均を意味します。

実はAverageには平均以外も、平凡な、標準的なという意味があり、統計学の世界では、代表値というニュアンスで使われます。

つまり、「Average」の方が広い意味があり「Mean」と「Average」は、正確には異なる用語として使い分けられています。

ここがポイント

ここがポイント
Function8.png
いわゆる偏差値は、偏差値の前の段階である、標準化をさらに見やすくしたものでした。つまり、この偏差値は、世間様の判断を払拭できるような、エビデンスになります。偏差値が良いだけで、人間性まで判断できないでしょう。しかし、数値化することによって、客観的に判断できるようになるのも、事実です。
動画とブログでわかりやすくExcelとACCESSを紹介しています

まとめ

少しだけ、競馬の話もしましたが、偏差値という統計を使って、穴馬を見つけることができました。

統計は、面白いでしょ?

今回も最後まで読んでいただきありがとうございました。

今回のサンプルファイルは、ありません。

サンプルファイルを購入希望の方はココをクリック
毎日の業務が、3時間短縮できます

わからない事を延々と考えるのは、無駄です。

  • なんで作動かないの?
  • もうやだ!VBAなんか嫌い!
  • ネットで調べても情報がない!

必ず作動するコードが、ここにあります。

スポンサーリンク

Twitterでフォローしよう

おすすめの記事