LuckyOceanのブログ

新米技術士の成長ブログ

データマイニング#3を受講して

はじめに
今日の授業はRを用いながらも決定木分析やランダムフォレスト分析、回帰分析などの特徴や使い分けについて教えてもらった。なかなか理解が追いつかない部分もあるが、面白い。

回帰分析
ある変数Xとある変数Yの関係を分析する。一般にxを原因系、Yを結果系とすることが多い。下の図は広告費と売上の関係だ。これ以外にも、例えば、為替レートをX、利益をYとする。円高で利益が増加するのは輸入型産業で、円安で利益が増加するのは輸出型産業と言われる。そんな関係を数値を用いて分析できる。データマイニングでは基本的な技だろう。
f:id:hiroshi-kizaki:20191126220751p:plain
 出典:重回帰分析とは|市場調査ならインテージ

決定木分析
RStudioを用いると複数の要素の組み合わせから分類分けをしてくれる。単に分類するのではなく、ある要素群と別の要素群の相関関係まで分析してくれる。ただ、問題はこの決定木を用いて幾つのグループに分類するのかは決めてあげる必要がある。
f:id:hiroshi-kizaki:20191126221333p:plain
 出典:https://www.slideshare.net/mitsuoshimohata/ss-35949886

ランダムフォレスト分析
先週の二回目の授業は、残念ながら出席できなかったけど、ランダムフォレスト分析がメインのトピックだった。ランダムフォレスト分析は、スモールデータ分析にも適している。どういうことかといえば、例えば、20の要素と100のデータがあったとする。これを単純に20x100のデータとして分析するのではなく、ランダムに抽出した10x50のデータで決定木を作り、また別の抽出データで決定木を作る。たくさんの木を抽出するので森=フォレストとなる。そして、複数の決定木の傾向からどの要素が重要かの傾向を把握することができる。個々の木に囚われるのではなく、大きな目で森を見る感じだろうか。
f:id:hiroshi-kizaki:20191126221709p:plain
 出典:https://toukei-lab.com/ランダムフォレスト

ディープラーニング
今回のデータマイニングの授業では対象外だ。しかし、データを分析するという意味では、決定木とディープラーニングの間にランダムフォレストが位置するようだ。ディープラーニングは深層学習とも呼ぶ。レイヤー構造にして、抽象度を高めて特徴点を抽出し、今度は逆に抽象度を下げて、現実の世界の戻っていく。この手法の良さは、教師ありに加えて、教師なしの学習ができることだ。しかし、教師なしの学習では失敗例もあるようだ。まあ、そりゃそうだろう。
f:id:hiroshi-kizaki:20191126222414j:plain
 出典:https://www.itmedia.co.jp/enterprise/articles/1708/30/news005.html

複雑系をシンプル系にして、深掘りする
複雑なデータを分析する場合に、闇雲に回帰分析をしても、大変だ。分析する方も大変だけど、その結果を聞く方も難解となる。そうではなくて、例えば、まず最初にランダムフォレストでデータの全体像を把握する。そのあとで、重要な要素に絞り込んで決定木分析したり、さらに回帰分析する。ビジネスの世界で知りたいことは、それほど複雑ではない。例えば、円高に触れた時に利益は確保できるのか。どんな企業が円安でも生き残っているのか。そんな時に、最初からモデルを決め付けるのではなく、ランダムフォレストの手法を使って大雑把な分析をする。その結果は想定通りかもしれないし、もしかすると想定外のパラメータが出てくるかもしれない。そんな特徴点を回帰分析や決定木分析で詳細に分析する。そんなアプローチはわかりやすいだろう。

シミュレーション
ある変数Xと別の変数Yの関係を回帰分析等である程度見えてきたとする。いわゆるモデルかだ。しかし、変数なので固定ではない。変動する。でも、その変動パターンが正規分布なのか、二項分布なのか、一様分布なのかが分かれば、平均値や標準偏差が分かれば、その前提でシミュレーションが可能だ。例えば、企業の利益を最大にしたい時にも、為替レートによって部材の仕入れ価格が変わるだろう。原油の価格も変われば、燃料費も変わるだろう。天候によって商品の売れ行きも変わるかもしれない。そんな変数を乱数を用いて変動させることができれば、期待できる利益の平均値や標準偏差を分析することも可能だ。
f:id:hiroshi-kizaki:20191126223207p:plain
 出典:https://www.agent-grow.com/self20percent/2017/12/21/神ツール-excel-は当然シミュレーションだって出来る/

シナリオの比較分析
さらに言えば、MBA修論で何かプロジェクトを考える場合には、複数のシナリオを設定するのが良い。いわゆるハイリスクタイプとローリスクタイプを用意した場合に、調査結果に基づいてモデル化して、乱数を用いてシミュレーションをすれば、それぞれのシナリオの期待利益の平均値や、標準偏差がわかる。さらに言えば、赤字になる確率や、キャッシュフローがマイナスになる確率なども分析できる。ここまで分析すれば、リスクを踏まえたビジネスモデルと評価できるのではないだろうか。

まとめ
授業では、これ以外にもいろいろ教わったが、今日のブログはこれぐらいにしておきます。明日はゴルフです。早く寝なければ。。。

以上

最後まで読んでいただきありがとうございました。