LuckyOceanのブログ

新米技術士の成長ブログ

ビジネスデータ分析#5を受講して(目指せデータサイエンティスト)

はじめに
豊田教授によるビジネスデータ分析(アドバンス)の講義も既に5回目だ。残りは後2回目だ。豊田教授が基本と繰り返す、分類、縮約、要約、関係性を一通り習った。Rの操作も大分慣れてきた気がする。しかし、それは用意してもらったRのスクリプトとデータを用いた演習だ。応用力を身につけるには、自分でデータを用意して、自分でデータを分析して、成果を出す必要がある。豊田教授はこれをレシピと呼ぶ。そして、レシピを自分で作れるレシピライターを目指してほしいと生徒に奮起を促す。

あやめによる分類の演習
この講義は、データサイエンティストを目指すものではないが、データ分析を習うときの鉄板ねたの一つがあやめによる分析だ。Rにはそのデータが保存されているので、データ分析をするには最適だ。アヤメ(Iris)にはSetosa(セトサ)と、Versicolor(バージカラー)とVirginica(バージニカ)の3種類がある。がく辺や花弁の長さと幅という4つの特徴量からの分析だ。しかし、このアヤメはそもそも3種類ということもあり、学習あり分析が可能だ。下の図は分析したデンドログラムだ。
f:id:hiroshi-kizaki:20191022234602p:plain
 出典:https://www.codexa.net/basic-exploratory-data-analysis-with-python/

朝野熙彦教授
豊田教授が尊敬するというのが朝野熙彦中央大学大学院教授だ。豊田教授曰く、朝野教授は分類は始まりだという。つまり、分類というのは恣意的な部分が入る。したがって、あくまで仮説だ。そして、この仮説が適切かどうかを縮約や要約や関係付けで検証していくことが重要だ。
f:id:hiroshi-kizaki:20191022234922p:plain
 出典:マーケティングを成功に導くリサーチ | Macromill

ハードクラスタリングとソフトクラスタリング
クラスター分析する上で、あるデータが一つのクラスターにのみ所属するものをハードクラスタリングという。逆に、あるデータが複数のクラスターに所属するものをソフトクラスタリングという。後者の場合には、例えば、F1には66%、F2には30%、F3には4%といった比率を示すこともある。ソフトクラスタリングには、C-meansや混合分布モデルによるクラスタリングなどある。
f:id:hiroshi-kizaki:20191022235343p:plain
 出典:https://alpha.mixi.co.jp/entry/2009/10755/

決定木
決定ツリーとか決定木と呼ばれる。決定理論のためのグラフだ。あらかじめ設定した前提条件に基づいて、トップダウン方式でもっとも顕著な変化点を抽出することができる。なかなかこれは便利そうだ。タイタニックでの生存者の分析もデータサイエンティストの学びとしては有名だ。下の図は、その分析結果だ。最初の分岐は性別だ。そして、女性のうち生存を分けたのは乗船のクラスだ。ファーストクラスとセカンドクラスの女性はほとんどが救済されたが、3級では残念ながら4割ほどしか救出されたなかった。一方、男性の場合には子供かどうかだ。そして、ファーストクラスとセカンドクラスの子供は全員救出されたことがわかる。
f:id:hiroshi-kizaki:20191023000954p:plain

k-means法とc-means法
因子数を与えてそのドットとの距離から分類を計算するk-means法はわかりやすいし、計算処理も比較的簡単だ。課題は再現性だ。再現性を確保するには、ランダムの設定を同じにするか、ドットの値を与件とする必要がある。一方、c-means法はファジーな分類方法だ。先の説明で言うソフトクラスタリングの手法だ。

5年後、10年後を目指す
豊田教授が強調するのは、小手先のテクニックを学ぶのではなく、データサイエンスを目指してほしいと言う点だ。例えば、何を導きたいか、どのようなデータを集めるか、どのように処理するか。この3つのうちの2つを明確にできれば、残る一つを明確にすることができる。そして、データ分析の場合には次の2つのケースがある。
1) 与えられたビッグデータからデータを分析して、知見を抽出する。このケースは特に既存のデータがある場合に、そのデータを活用して事業に役立つ知見を得たいと言うもの。
2) 抽出したい知見を得るためにデータを揃えて分析する。このニーズは多い。答えがまずあって、それを裏付けるデータの収集とその分析を求められることもある。しかし、本来はデータドリブンであるべきだ。

最終課題
次回が第6回なので、最終回は再来週の7月5日だ。この日が締め切りではないが、これまで習ったことをベースにデータ分析にトライしてその結果をレポートすると言う内容だった。

まとめ
Rの操作は少しずつ慣れてきたが、まだ自分のものになったわけではない。分析したいテーマに沿ったデータを集めて、分析のレシピを作って分析したい。分析レシピのストックを積み重ねることで、データ分析の鉄人を目指したい。

以上

最後まで読んでいただきありがとうございました。