目次
BIGデータを小さくする
ACCESSは、データベースですね。
このデータベースを扱うにあたり、統計学が必須になります。
統計学で利用する関数は、Excelにほぼ、搭載されている気がします。
データの正規化
こんにちは。伊川(@naonaoke)です。
今回のテーマは、データを見やすくするという意味での正規化です。
但し、単純に、データを正規化するのではなく、いつものように、競馬を題材にしたいと思います。
春のG1開催中です。
少しでも、儲けていただけたらと思います。
このブログはこんな人にお勧め
- 競馬で、統計学を利用したい人
- データベースを、勉強している人
- 競馬で勝ちたい人
このブログを、読み終わるころには・・・・
この、方法は、知っていると得をします
そんなに、難しくないので、Excelを、使ってカンタンに計算できます。
データの正規化によって得られるもの
しかし、桜花賞の直前で、極ウマプレミアムが、リニューアルされて、コンピ指数が取りこめなくなったのには、驚きでしたね。
事前に表示形式を、告知してほしいですね。
では、リニューアルされた、コンピ指数を利用して、少し、統計学を利用して、どこまで検討するのかをやってみましょう。
着目すべきは、C列とD列ですね。
コンピ指数という、馬の能力値と、馬の能力順位が表示されています。
その部分を漠然と見ても、面白くありませんね。
データの正規化 作業手順 その1 コンピ指数を立てに並べて計算をする
AVERAGE関数 平均を算出
STDEV.P関数 標準偏差を算出
STANDARDIZE関数 元データを正規化する
正規化とは平均を0にして分散を1にする加工です。
そして、分散1とは、平均±1に多くのデータが集まるという意味です。ここでは平均を0にしているので、平均±1(-1~1の間の数値)なら標準的な数値と考えることができ、平均±1より小さかったり(-1より小さい)、大きかったりしたら(1より大きい)異常値とみなすことができます。
-1~1の間に入っている赤いセルは「標準的」といえる。
1よりかなり大きい1番、7番は「標準よりかなりよい」といえる。
-1以下は、対象外となる。
このレースは、11番、13番、4番で決まりました。
馬連 5,340円
3連複 20,170円
3連単 129,610円
2023年の中山記念です。
データの正規化 作業手順 その2 データが全てではない
このデータを、確認しますと、-1以下の馬は、4頭でした。
2着は、10番、エエヤンでした。
ココが肝心ですね。
今回は、競馬を題材にしましたが、データが全てではないという事ですね。
統計の枠から、外れても、遊び心で、10番を買う余裕があるかという事です。
ちなみに10番は、別の理論で、GETできましたけどね。
ここがポイント
統計学とは、大きなものから、サンプルを取り、そこから、未来図を読み取ります。競馬に関しては、この方法は、漠然としていますので、効果は、はっきり言って薄いです。しかし、検討する内容の関しては、明らかになるのではないでしょうか?
まとめ
漠然と教科書を眺めても、統計学は、理解できませんね。
みなさんも、身近なものを、統計を利用してあそんでみてください
今回のサンプルファイルは、ありません。
わからない事を延々と考えるのは、無駄です。
- なんで作動かないの?
- もうやだ!VBAなんか嫌い!
- ネットで調べても情報がない!
必ず作動するコードが、ここにあります。