LuckyOceanのブログ

新米技術士の成長ブログ

ビジネスデータ分析(ベーシック)を受講して

はじめに
ビジネスデータを分析する時に特に効果があるのは重回帰分析だ。豊田先生も今日の授業は特に大事だと力説されていたが、その通りだと思う。

統計分析手法の概要
これまでの授業ではt検定の説明が多かった。これはある集団と別の手段の平均値に有意差があるかどうかを検証する方法だ。分散に有意差があるかどうかはF検定などを用いる。今日からは、複数の変数と変数の間の関係性を分析する手法だ。代表的なものは相関分析だが、これは基本1対1だ。そうではなく、複数の原因変数とある結果変数の間の関係性を分析するのが重回帰分析などだ。これは便利。
f:id:hiroshi-kizaki:20200706214854p:plain
 出典:https://www.nli-research.co.jp/report/detail/id=61928?site=nli

回帰分析
ある原因系の変数xと結果系の変数yの関係を調べる基本的な方法は散布図を描いてみることだ。それに直線を当てはめるのか、指数関数のような曲線を当てはめるのかは変数の特性によるだろう。ただ、簡単なのはやはり直線に当てはめる方法だ。本来指数関数を当てはめるべき場合にも対数に変換すれば直線となるかもしれない。
f:id:hiroshi-kizaki:20200706213001p:plain
 出典:https://bellcurve.jp/statistics/course/9700.html

重回帰分析
原因系変数が一つなら単回帰分析だし、複数なら重回帰分析だ。そして、重回帰分析の目的はやはりモデル化だと思う。例えば、ある店舗の売り上げは、広告ひと売り場面積と従業員数で求まるとすれば、それぞれの変数の最適値を求めたり、最適な組み合わせを計算することも可能だ。目標とする売り上げを実現するためには、どの程度の広告費を打つのが良いのか、売り場面積を確保するのが良いのか、どの程度の従業員を確保すべきか。そういった戦略的な分析にある程度もっともらしい答えを示してくれるからだ。
f:id:hiroshi-kizaki:20200706213757p:plain
 出典:https://www.intage.co.jp/glossary/402/

マルチコ
多変量解析をする時に注意すべきはマルチコだ。マルチコとは、multi-collinearityの略だ。原因系の変数がそれぞれ独立であれば、重回帰分析はシンプルだ。先の広告費と売り場面積と従業員数はほぼ独立変数だろう。ほぼとしたのは、売り場面積が広いとやはりそれなりの従業員も必要となる。また、下の図のように価格と値引き率は微妙だし、定価と販売価格とか、売場面積と家賃などは直接的な関係がある。このような変数間の関係性が強いと、重回帰分析は複雑になる。つまり、重回帰分析はそれぞれの変数は独立という前提なので、独立でないとその影響が発生してしまうためだ。数学的に言えば、偏微分で議論しているのであって、微分ではないということだ。
f:id:hiroshi-kizaki:20200706214313p:plain
 出典:https://watlab-blog.com/2019/12/09/multiple-regression/

直接効果と間接効果
例えばゲームの勝ち数は体重と食事量と稽古量で決まると考えて計算すると下の図のようになる。体重と勝ち数の0.26や稽古量と勝ち数の040は直接効果だ。しかし、一方で、食事量と体重との間にも強い相関関係がある。体重と稽古量にも相関関係がある。これを間接効果という。重回帰分析では、残念ながら直接効果しかわからない。間接効果を調べるのであれば単回帰分析で確認する必要がある。
f:id:hiroshi-kizaki:20200706220022p:plain
 出典:https://istat.co.jp/ta_commentary/covariance_structure_02

A/B分析
講義の中でサラッと触れられていた。なんとなく気になったので調べると、A/B分析とはWebサイトやバナー広告などを最適化するためのテスト手法だった。これはある特定の要素の組み合わせとしてAパターンとBパターンを作成し、ランダムに適用することでその効果を比較検証する方法だ。これは複数のパターンを組み合わせる多変量テストにも適用される。
f:id:hiroshi-kizaki:20200706221034p:plain
 出典:https://www.innovation.co.jp/urumo/split_testing/

Rによる分析
例えば、体重と慎重とウェストにはそれぞれ正の相関関係がありそうだ。それぞれをエクセルで散布図で描いたり、重回帰分析する方法もあるが、Rを使えば下のような複数のデータの散布図の一括表示などが簡単にできる。やはりRは便利だ。
f:id:hiroshi-kizaki:20200706222013p:plain
 出典:データ解析・マイニングとR言語

実験計画法
講義の中で実験計画法という言葉が軽く触れられた。誰も深く突っ込まなかったが、これは数学的にエレガントなだけではなく、実際に試験を繰り返す時にも最小限で効率的に実施することができる秀逸な方法だ。試験をする時には、因子と水準を明確にする。例えば、性別なら通常は2水準だ。じゃんけんなら3水準だ。試験の組み合わせを直交表を用いて組み合わせの最適化をするが、そのパターンには下の図に示すようにいくつかの系がある。個人的にはL9が凄いと思う。どこが凄いかと言えば、3水準系の因子が4つある場合、総当たりなら81通りの組み合わせを試験する必要があるが、それがたったの9回で済む。品質工学では2水準系のときはL12を、3水準系のときはL12もしくはL36を使うことが多いようだ。
f:id:hiroshi-kizaki:20200706223101p:plain
 出典:http://www.ark-web.jp/sandbox/wiki/254.html

交絡因子
原因系の変数と結果系の変数の関係を調べたいが、そこに交じり絡む因子がある。それを交絡因子という。例えば、下の図で言えば飲酒が交絡因子だ。なぜ、交絡因子かと言えば、飲酒と肺癌の関係があるかと言うと直感的にはないと思うが、統計処理をすると見かけ上の関連が生じる。なぜかと言えば、お酒を飲む人はタバコを吸う人が多い。タバコを吸う人は肺癌になりやすい。したがって、お酒を飲む人は肺癌になりやすい。このような交絡因子は色々な局面で発生する。これを見抜くことができるかどうかはデータサイエンティストのセンスにかかっていると言える。
f:id:hiroshi-kizaki:20200706224225p:plain
 出典:http://www.jeic-emf.jp/explanation/1029.html

新谷歩(しんたにあゆみ)
豊田先生が統計の理解を深めるなら新谷歩さんの図書やYouTubeがお勧めという。調べると、奈良女の数学科を卒業後、米国Yale大学等で医療統計学を学んだ統計の専門家だった。説明も明瞭だ。例えば、ある新薬に効果があったことを証明する場合にどのような仮説を立てるか。もし、効果があるという仮説を証明しようとするとあらゆるケースの臨床データが必要だ。しかし、効果がないという仮説であれば、1つでも実証できれば証明できる。なので、何かを証明したい時には、それの逆の仮説を設定する。つまり、これが帰無仮説だ。そして、それをp値が小さい場合は帰無仮説を棄却できるので、対立仮説を支持できることになる。しかし、p値が例えば5%より大きくても、それは帰無仮説を証明したことではなく、帰無仮説を棄却できないというのが正確な表現だという。確かにわかりやすい。
f:id:hiroshi-kizaki:20200706225357p:plain
 出典:https://www.youtube.com/watch?v=8Pt2tCN_eFE

まとめ
2020年度の授業の講義をブログにすることが少なかった。これはなぜかと言えば、オンライン講義が終わるとすぐにリラックスして、ビールでも飲んでしまうからだ。通学していた頃であれば、大学から最寄駅まで歩く間になんとなく頭の整理をして、電車に乗っている間にブログを7割がた作り、そのあと少し頑張って完成させるパターンだった。通勤や通学がなくなり、楽になったのだからブログにもっと時間を避けそうなものだけど、現実は違う。これはなぜなのだろう。急ぎの仕事は忙しい人に頼むのが良いというのに似ているかもしれない。

以上

最後まで読んで頂きありがとうございました。