データマイニング#1を受講して
はじめに
豊田教授の授業はこれで3つ目か。最初のベーシックは取らなかったけど、その後のデータマーケティングと、ビジネスデータ分析(アドバンスト)を受けた。そして、今回はよりステップアップするデータマイニングだ。残念ながら本日の二回目は参加できないけど、これからの講義が楽しみだ。
非負と離散データ
最初に話があったのは「非負」データだった。つまり、販売数とか、来客数とかは、普通はマイナスにはならない。0を含む整数だ。これを非負と呼ぶ。離散データは、非連続なデータだ。整数も離散データだ。
単峰と複峰
データマイニングの醍醐味は、あまり認識されていないけど価値のあることを見つけることだ。一般には、データには傾向がある。単峰とは、そのピークが一つのものだ。しかし、データによっては2つ以上のピークがある。これを複峰と呼ぶ。そして、この複峰を見つけた時は快感だ。だって、その理由を紐解くときっと何か原因がある。お宝の匂いがする。
分布の種類
(1) 正規分布
少し学生時代に習ったことをおさらいした。一般的なのは、正規分布だ。これは平均値と標準偏差値を与えると決まる。正規分布が2つというと、正規分布の加法性を思い出す。しかし、勘違いしていた。別に、2つの正規分布を足すと別の正規分布になるわけではない。2つの異なる母集団からそれぞれ一つづつサンプルを選び、その合計値を計算すると、その合計値の分布も正規分布になるというものだ。似て非なる考えだ。
出典:ブンさんの家宝じゃないよ、分散の加法性! (3/4) - MONOist(モノイスト)
(2) 二項分布
二項分布とはコインの表裏のように1か0しかない事象の統計的な分布だ。それぞれの確率は50%ずつだけど、例えばそのコインを何度も何度も投げて面が出る確率を調べると、下の図のようになる。赤は5回、青は10回、緑は20回投げた時の分布だ。試行回数が増えると極大値が右方向にずれて、そのばらつきも大きくなる。
出典:[Excel] BINOM.DIST:二項分布 (Binomial Distribution)
(3) ポアソン分布
ポアソン分布とは、定数λ>0に対して、確率変数xが下の式を満たすとき、確率変数xは母数λのポアソン分布に従うという。ポアソン分布は、一定期間の中で発生する事象の数などを示すのに適している。
出典:13-3. ポアソン分布 | 統計学の時間 | 統計WEB
データマイニングと実験データ分析
何か仮説を持って実験したり、アンケートを撮ったりして、その仮説が正しいのかどうかを検証する。つまり、データを創造して、仮説を検証する。一方、データマイニングは、ビッグデータがあるので、そこから何か知見を見つけて欲しい。何か面白い傾向がないか分析して欲しい。そんな風にデータがまずあって、そこから宝探しをする。そんな違いがある。
宝探し
ビッグデータからお宝を探す有効な方法はデンドログラムだ。決定ツリーともいう。与えられたデータから決定ツリーを分析する。それぞれの要素の相関関係を調べてどの要因が支配的かを分析する。そんなことが重要だ。
まとめ
データマイニングは、お宝発見のための手法だ。又、今回は理解度が不足するため補足説明やコメントを割愛して、7つのキーワードと参考画面と出典を以下の参考に示す。本日が第二回目だけど、都合により出席できないのが残念だ。なかなか奥が深いけど面白いと思う。
(参考)
1) チャンス発見学
出典:www.panda.sys.t.u-tokyo.ac.jp
2) AIC(赤池情報基準)
出典:https://www.slideshare.net/tomokimatsumoto37/waicwbic
3) ランダムフォレスト
出典:https://kizuna0808.wp.xdomain.jp/statistics/438
4)スモールデータ分析
出典:https://www.juse.or.jp/departmental/point02/05.html
5) 質的比較分析(QCA)
出典:https://www.citation.co.jp/topicshtml/質的指標を用いた映像ソフトの要素分析/
6) CiNii
出典:CiNii Articles - 日本の論文をさがす - 国立情報学研究所
7) 特許情報の活用
出典:https://www.jpo.go.jp/resources/shingikai/sangyo-kouzou/shousai/chizai_bunkakai/document/10-shiryou/05.pdf