LuckyOceanのブログ

新米技術士の成長ブログ

ビジネスデータ分析(ベーシック)#5を受講して

はじめに
実は、昨日は21時にベッドに入って目が覚めたのが6時だったので、9時間も寝ていたことになる。途中目が覚めることもあったが、睡眠時間は十分だ。ということで、今日の授業で習ったことを忘れないうちにブログにまとめることで頭の整理をしたいと思った。

直接効果と間接効果
無糖でコーヒを飲む人は肥満になるかといえば、これは無関係である。しかし、コーヒーを飲む人のうち一定に比率で砂糖をいれる。そして、砂糖の摂取量と肥満とは直接的な関係がある。したがって、コーヒーを飲む人と肥満との関係も間接的ではあるが、一定の関係にはあると言える
f:id:hiroshi-kizaki:20200713214700p:plain
 出典:媒介分析について

パス回帰
ある事象と別の事象の関係をパスと呼ばれる矢印とパス係数と呼ばれる数字で表したものをパス図という。このような関係を分析するのがパス回帰分析だ。例えば、下の図であれば、重症度と因果関係のあるのはTCが1.239、TGが-0.549なので、TGよりTCの方がより強い因果関係があり、TGとTCの間にも0.753という強い相関関係があることを示す。
f:id:hiroshi-kizaki:20200713215057p:plain
 出典:統計学入門−第7章

AMOS(エイモス)
統計解析ソフトとしては、IBM社のSPSSソフトウェアが有名だ。SPSSは、統計解析ソフトウェアのSPSS Statistics、共分散構造分析ソフトウェアのSPSS Amos、データマイニングソフトウェアのSPSS Modelerから構成されている。特に、2つ目のAmosはパス解析の分析ソフトであり、パス図を描きながら共分散構造を解析できる点が優れている。
f:id:hiroshi-kizaki:20200713215832p:plain
 出典:Amosによるパス解析の実行

政府CIO
会社にはCIOが任命されることが増えている。CIOとはChief Information Officerの略で、企業の情報戦略における最高責任者だ。日本では、政府CIOが任命されている。初代の政府CIOは非常勤だったが、2013年からは内閣情報通信政策監が常勤かつ専任として設置された。政府CIOのポータルは、意外とデータが充実していた。新型コロナに関するデータもなかなか公開されていないと憤慨していたが、ここにはいろいろなデータが開示されている。知らないことは罪だ。
f:id:hiroshi-kizaki:20200713220407p:plain
 出典:https://cio.go.jp

Googleの詳細検索
何かをネットで検索して調べることをググるという。しかし、Googleで例えば、検索と入力して検索すると、下の図のような画面が表示される。個人的には、ここで画像を選ぶことが多い。画像を見れば、そのファイルが訴求したいことがビジュアルに理解できるからだ。それ以外にも「設定」キーを押下して、選択オプションを押下すると、キーワードに含めるもの、含めないものの設定や、ファイル形式の指定などもできる。これは便利だ。
f:id:hiroshi-kizaki:20200713221255p:plain
 出典:Google

ダミー変数の活用
重回帰分析は、基本的に量的なデータを分析する手法だ。しかし、そこに質的データが含まれている時にはダミー変数を活用する方法がある。例えば、男性と女性であれば、男性を1、女性を0とする男性ダミー変数を設定する。銘柄Aと銘柄Bを区別して分析したいときには銘柄Aなら1、銘柄Bなら0という銘柄Aダミー変数を設定する。そして、このダミー変数を含めて回帰分析することで、例えば男性の場合の切片と傾き、女性の場合の切片と傾きを分析することが可能だ。
f:id:hiroshi-kizaki:20200713221753p:plain
 出典:https://xica.net/magellan/marketing-idea/stats/abou-dummy-variable/

交互作用
肥料と収穫との間には正の相関関係が確認できる。しかし、その特製は土壌Aの場合と土壌Bの場合で異なる可能性がある。しかも、単に傾きが違うだけではなく、伸び率が異なるケースもある。つまり、これは、肥料と土壌の組み合わせで相乗効果が生じていることになる。このような交互作用による効果のことを「交互作用効果」と言う。
f:id:hiroshi-kizaki:20200713222544p:plain
出典:30-4. 交互作用とは | 統計学の時間 | 統計WEB

二元配置分散分析
接着剤の接着強度を測定した。接着剤の量によっても変わるし、A社の製品かB社の製品かによっても異なる。しかし、これを繰り返しのない二元配置の分散分析で処理すると、接着剤の強度と接着剤の量との関係のP値は0.007と有意であるが、A社とB社の間には差異はあるが、P値が0.136なので、有意であるともいえない状況ということが明確になる。これはすごい。
f:id:hiroshi-kizaki:20200713223837p:plain
f:id:hiroshi-kizaki:20200713223825p:plain
 出典:https://kenkou888.com/category13/対応無し_二元配置の分散分析.html

多元配置分析
2元配置分散分析だけでも十分にお腹いっぱいなのだが、2元ができるなら3元もあるか?4元もあるか?と疑問が生じる。一般に、因子の数が3位上の実験計画法を総称して多元配置法と言い、その分析を多元配置分析と呼ぶ。ただ、例えば6因子の事象で、各因子が3つの選択肢(3水準という)をとると、三の6乗、つまり729となる。取り得る組み合わせの数が指数的に増大するため、試験の組み合わせが増えるだけではなく、その分析も複雑になるので注意が必要だ。
f:id:hiroshi-kizaki:20200713224502p:plain
 出典:(株)日科技研:多元配置分散分析とは(実験計画法)|製品案内

シナジーとアナジー
A社とB社の合併は1+1=2ではない。1タス1を3にするのだといったりする。これをシナジー効果という。A社とB社の良いところを作用しあって相乗的に高い効果を上げることをいう。世の中そう簡単ではない。シナジー効果をあげられない出毛でなく、1+1が1.5にしかならないこともある。これをアナジー効果(Anergy Effect)という。これは例えば企業合併で言えば、事業領域が違いすぎたり、経営者の思想が違いすぎたり、情報システムが違いすぎると、合併のための費用が嵩むわりに効果が発揮できなかったりする。M&Aを考える時には、肝に銘じるべきだ。

木構造接近法
ビジネスデータ分析(ベーシック)の枠を超えるが、複数の要因の構造的な関係を調べる方法として、樹木構造接近法がある。さらに、下の論文にあるように複数の分類回帰樹木法(CART)
を調和を図り、複数の樹木の接近を図ることで予測ごさを減らす工夫がなされている。バギング法や、ブースティング法、ランダムフォレスト法などだ。特に、最後のランダムフォレスト法は興味深い。
f:id:hiroshi-kizaki:20200713225857p:plain
 出典:https://www.jstage.jst.go.jp/article/jscssymo/22/0/22_29/_pdf/-char/ja

まとめ
早くもビジネスデータ分析(ベーシック)の5回目が終了した。残りはあと2回だ。後半の豊田先生の授業はほぼ受講しているので、豊田先生の講義を受けられるのも残りわずかと思うと寂しいなあ。聴講生として受講できないかなあとも思う。

以上

最後まで読んでいただきありがとうございました。