LuckyOceanのブログ

新米技術士の成長ブログ

データマイング#4を受講して

はじめに
データマイニングの講義も7回中の4回目なので、ちょうど折り返しだ。早い。様々なことを知り、ツールの革新の速さに驚くばかりだ。

cristal ball
シミュレーションソフトといえば、Oracleが提供する「Crystal Ball」が筆頭だ。様々なリスクのシミュレーションやモデリングに基づく予測や最適化が可能だ。しかし、普通に契約するとライセンスが19.8万円に年間サポートが4.4万円と高額だ。学生や教職員はアカデミック版を購入することが可能だが、ライセンスが15.4万円、年間サポートが3.3万円(税込)と結構なお値段だ。
f:id:hiroshi-kizaki:20191203221126j:plain
 出典:Crystal Ball | Applications | Oracle

シミュレーションの有効性と限界
高額なソフトを購入しなくても、エクセルでランダム関数を使えば、最低限のシミュレーションは可能だ。例えば、ビジネスプランを立てて、単年度黒字は3年後、累積解消は5年ごとかと言ったビジネスプランを立てても、それは絵に書いたもちだ。ベストシナリオとワーストシナリオを計算するのも良い。しかし、世の中は不確実な時代だ。いくつかの不確定要素を乱数でシミュレーションすれば、赤字に転落する可能性や、運用資金として確保すべき金額を計算するすることも可能だし、安心して意思決定ができるだろう。
f:id:hiroshi-kizaki:20191203222509p:plain
 出典:www4.kke.co.jp

サイコロの振り方に依存
シミュレーションをすれば完璧かといえばそうでもない。シミュレーションをするときには、やはりある前提を設定する。不確実性をモデル化する。例えば、それが正規分布なら平均と標準偏差を設定する。一様分布なら範囲を設定する。そのような前提条件の設定に答えが左右されるので注意が必要だ。
f:id:hiroshi-kizaki:20191203222736j:plain
 出典:http://www.aero.jaxa.jp/research/basic/issac/

マーケットバスケット分析
有名なのは、おむつとビールだ。これはマーケットバスケット分析で見つけられた事例で、1992年にOsco Dragsのデータを分析して発見されたと言われている。これは極端な例だけど、トマトを買う人はレタスも買うかもしれない。じゃがいもを買う人はニンジンを買うかもしれない。ある事象Aとある事象Bが同時に起きることを共起性というが、これを分析する手法をマーケットバスケット分析と呼んでいる。
f:id:hiroshi-kizaki:20191203223059j:plain
 出典:商品分析の手法(ABC分析、アソシエーション分析) | データ分析基礎知識

非対称の原則
ある商品Aを買う人は別の商品Bを同時に買う確率は高くても、逆は低いかもしれない。つまり、先の例でいえば、おむつを買う人はビールを買うかもしれないが、ビールを買う人がおむつを買う確率は低いかもしれない。これを非対称の原則という。

メッシュ型分析
自分が大好きなデンドログラムは分類法だ。データに基づいてツリー型に分類してくれる優れものだ。しかし、今日のマーケットバスケット分析は、メッシュ型だ。商品分析でも、アンケート調査でも、要素の傾向を分析することができる。あらかじめ原因系の要素か、結果系の要素かを指定する必要がない。処理の結果として、原因系の要素が強いとか、結果系の要素が強いことが判明する。結果として因果関係も透けて見える。しかし、大事なことはその結果を人間が見て判断することだ。

サポートとコンフィデンスとリフト
マーケットバスケット分析では、重要な指標が3つある。まず支持度(=サポート)だ。これはある商品と別の商品を一緒に購入する確率だ。確率の低いレアケースなのか、頻繁に発生するケースかを判断できる。次が信頼度(=コンフィデンス)だ。これは商品Aを購入した人がどの程度の確率で商品Bを購入しているかという比率だ。100%が良いとはいえない。コーンフレークと牛乳とか、当たり前の組み合わせの可能性もある。最後はリフトだ。これは信頼度を人気度で割った物だ。つまり全体の中で商品Bが購入される比率(分母)と商品Aを買った人が商品Bを購入する比率(分子)だ。1.5は普通で、2ぐらいが適正だが、これもケースによる。
f:id:hiroshi-kizaki:20191203224434j:plain
 出典:商品分析の手法(ABC分析、アソシエーション分析) | データ分析基礎知識

Rでの注意点
RやRStudioでマーケットバスケット分析をしようとするとデータの前処理が必要だ。一般にデータはCSVだが、これをテキストデータに変換する必要があるようだ。また、data.frame形式や、list形式のデータを「matrix」型に変換する必要がある。このあたりのお作法には少し慣れが必要かもしれない。
 出典:https://www.gixo.jp/blog/3920/

チェリーピッカー
特売の時に、特売品のみを購入する客のことを、マーケティングの世界ではチェリーピッカーと呼ぶ。これはマーケティングを考える人にとっては悩ましい存在だ。しかし、最近なら購買履歴を見て、特売品のみを購入する人にはクーポン券を配らないなんてことも可能かもしれない。ただ、個人的には、あまり意識しないでおおらかに商売したい派だ。

得意技
マーケティングの世界での生きていくには、やあり得意技を磨くのが効率的だし、効果的だという。自分ならデンドログラムだろうか。まだまだ、得意技と言えるまでになっていない。そのような得意技を作った後に、別の技を広げていくのが良いのかもしれない。

まとめ
豊田先生の授業はなかなかヘビーだ。ブログにまとめようとしても、理解度の低いところがいっぱいありすぎて、大変だ(涙)。

以上

最後まで読んでいただきありがとうございました。