ビジネスデータ分析#1を受講して
はじめに
昨日は定時に帰って学校に向かった。定時前に仕事が降ってきそうな雰囲気があったので、ちょっと場所とタイミングをずらしてかわした(笑)。平日の夜の授業は久しぶりだったけど、面白かった。
データに蓄積されている知見を引き出す
何かを調べようとアンケートをとっても、そこで集めたデータから何かの知見を引き出すことが重要だ。そのためには、お客様の似た者を集めて分類したり、ある事象と別の事象の関係性を明確にする。
コンセプトとデータ
例えばスマホに夢中になると成績が下がるという仮説がある。本当だろうか。数値化しないものはコンセプト(概念)であり、これを数値化するとデータになる。数値化して測定できないものはマネジメントできない。望ましい方向に持っていくには、何が原因で何が結果かという因果関係を理解する必要がある。
因果関係と相関関係
安全管理のセミナーで小ネタとして使うのに血圧の問題がある。血圧が高い人は死亡率が高い。だから血圧を下げなければいけない。一見、論理的に聞こえるが本当だろうか。調べると、この二つは因果関係ではなく、単なる相関関係だった。因果関係は年齢で、結果が血圧と死亡率だ。つまり、高齢になると血圧が上がる。高齢になると死亡率が高まる。なので、血圧が高い人は死亡率が高い。同じ年代で見ると、下の図にあるように、血圧と死亡率関連性は低い。
出典:相関関係と因果関係 - LuckyOceanのブログ
関係性と要約と分類と縮約
因果関係や相関関係のような関係性を分析するのが一つ。次にわかりやすいのは要約だ。これはある測定データの平均や合計やばらつき具合を数値化することだ。シンプル化することで複雑な事象の本質を理解しようというアプローチだ。データ分析で重要なのは、これ以外に分類と縮約がある。
縮約
縮約(しゅくやく)とは、一般ではあまり使われない用語だ。データの特徴を要約するような意味だろうか。例えば、2つの変数から回帰直線を求めることは縮約の代表的な手法だろう。二次元のデータを一次元のデータにマッピングする方法もある。モデルを単純化することで予測の精度を高めます。
出典:Stat r 9_principal
分類
類似度を調べて似た者を集める手法だ。下の図のようなデンドログラム(樹形図)で整理する方法もあるし、散布図で二次元的にマッピングする方法もある。いわゆる深層学習の自己学習もこの分類の手法を活用し、応用したものだと言える。
出典:https://www.trunktools.jp/services/analysis/cluster.html
共分散構想解析(SEM)
あるコンセプトと別のコンセプトの関係性を分析する手法として有効なのが、共分散構造分析だ。SEM(構造方程式モデル)ともいうい。線形モデルでは回帰分析や因子分析が有効だが、SEMでは下図のようにコンセプトとコンセプトの関係性を分析したり、そのコンセプトを数値化したデータとのパス分析を統合ぎしている。
出典:共分散構造分析(SEM)|マーケティングリサーチのマクロミル
コンセプトモデリング
何かデータを分析したいときは、まずコンセプトをモデル化することが重要だ。抽象的なコンセプトと他のコンセプトの関係性を考える。原因と結果なのか、従属関係なのか。そして、それをデータで実証する。コンセプトモデリングをスキップして、データとデータの関係性を分析していると、途中からないをやっているのかわからなくなることがある。そうではなく、まず何を調べたいのか。なぜそのように考えたのか。本当にそうなのかといったコンセプトを整理して、そのうえでデータで検証する。そんなステップを踏むことが重要だ。
出典:100614 構造方程式モデリング基本の「き」
因果関係を逆にしてみる
面白い発見をする時は、因果関係を逆にする方法があるという。雨が降りそうだから傘を持つのか。傘を持っていると雨が降るのか。楽しいから笑うのか、笑うから楽しいのか。お金があるから幸せなのか、幸せだからお金があるのか。お腹が空くから食事をするのか、食事をするからお腹が減るのか。原因と結果を逆にしてみると面白い発見がいろいろあるかもしれない。
まとめ
今回は、久しぶりに豊田先生の授業を受けた。後半はRとR Studioの説明だった。入門編はもう何度も聞いているので、さすがに理解度が高まっているが、まだまだ使いこなせるレベルにはない。引き続き研鑽が必要だ。
以上
最後まで読んでいただきありがとうございました。
拝