LuckyOceanのブログ

新米技術士の成長ブログ

ビジネスデータ分析#2

はじめに
今日は豊田裕貴先生のビジネスデータ分析の2回目だ。今日のテーマは似た者をまとめて、因子関係を分析する方法だ。エクセルでもかなりのことができるが、現時点ではR(Rstudio)を使えば簡単なシナリオを実行するだけで分析できる。Rを理解している人はまだまだ少ないので、Rのセミナーとかすると儲かるという言葉も魅力的だ。真面目に取り組むか(笑)。

相関関係と類似性分析

今日のテーマはある事象を示すデータがある場合に、その因果関係を分析することだ。もしくは、ある因果関係を仮説として設定して、例えばアンケートをとり、その結果を元に仮説を検証する。仮説があっている方が良さそうだけど、必ずしもそうではない。仮説と違うことを調査の結果判明したとしたら、それも価値のあることだ。

因子番号と固有値
ある事象の因果関係を分析した場合に、原因となる因子が何個あるのかを判断するための手法の一つが因子のスクリープロットだ。結論のみを示すと、例えばある事象に対する因子分析を行なって、その因子の番号と固有値の関係が下の図のようになったとする。この場合には因子1での固有値は9なので非常に意味がある。因子2の固有値も3なので意味がある。因子の番号が3でも同様に1.7ぐらいなので意味があるけど、因子の4ぐらいになると固有値は1になるので、意味があるかどうかは微妙。通常、固有値が1と基準として、重要な意味のある紳士の数を決める。それが因子のスクリープロットの目的だ。
f:id:hiroshi-kizaki:20191001222038p:plain
 出典:http://www.f.waseda.jp/oshio.at/edu/data_c/03/02.html

Rの因子分析関数
Rでは数多くの関数を利用可能だ。あまりに量が多いので、全てを実装したくなるが、そうすると処理が遅くなるので、必要な関数のみを都度インストールするのが賢いやり方だという。例えば、Rには最尤法による因子分析の関数として、「factanal」が実装されている。factanal(x,factors,rotation,scores,…)のような感じだ。ここで、因数のxはデータセット。factors は求める因子の数だ。
 出典:Rと因子分析

Rの勧め
専修大学の小杉考司教授(当時は山口大学講師)と山口大学押江隆准教授による2013年のセミナー資料を下に引用する。非常によくまとまっている。Rのことを理解しようと思う人には入門用資料としてはわかりやすいし、かなり高度なことにも言及しているので、中上級者にも役に立つのではないだろうか。
 出典:http://psycho.edu.yamaguchi-u.ac.jp/wordpress/wp-content/uploads/2014/01/R_tutorial20131.pdf

便利なpcychパッケージ
最近の心理学の分析に必須なためだろうか、心理学を英語で言えばPcychology(サイコロジー)というが、Rのパッケージで有名なものにpcych(サイケ)がある。pcychのコマンドを使えば、難しい相関分析も簡単にできるとしたらこれは嬉しい。
f:id:hiroshi-kizaki:20191001235537p:plain
f:id:hiroshi-kizaki:20191001235546p:plain
 出典:Rを使った分析(相関分析) | 外国語教育研究ハンドブック

平行分析
因子分析を行う上で因子数をどのように決めるかは一つの重要ポイントだ。基本的には、固有値が1以上の因子を活用するガットマン基準がデフォルトだろうか。もしくはスクリープロットから視覚的に判断する方法もある。最近は、より新しい基準として、MAP基準や情報量規準(BIC)、平行分析などがある。MAP(Minimum Average Partial)基準とは、最も効率的に相関行列を説明できる因子数とするもの。情報量規準に基づく方法とはVSS関数を用いて、最も情報量規準が小さい因子数を採用するもの。平行分析(Parallel Analysis)とは、乱数から生成したデータの固有値よりも大きな固有値の因子を意味のあるものとする方法だ。fa.parallel関数を用いるものだ。しかし、どれにも長短がある。MAPと平行分析が一致すればそれを採用するといった方法も推奨されている。
f:id:hiroshi-kizaki:20191002000354p:plain
 出典:Rで因子分析 商用ソフトで実行できない因子分析のあれこれ

VarimaxとPromax
下の図の左は6つの変数がばらついている状態だ。縦軸と横軸の2つの因子があって、それぞれのポジションが明確だ。これをVarimaxによる手法だ。一方、図の右は、2つのグループの主軸が縦軸と横軸になるようにVarimaxの分布図を回転したものだ。さらに、それらの軸の直交性を堅持せず、実際のプロットデータに基づいて軸を形成する方法があり、これをPromaxという。ほとんどの場合には、Promaxの手法が有利だという。Varimaxのメリットは人間にとって分かりやすいという点ぐらいだろうか。
f:id:hiroshi-kizaki:20191002000912p:plain
 出典:バリマックス回転 | 日経リサーチ

アルファー係数法
一貫性による信頼性を追求する方法であり、内部一貫法ともいう。一口で説明するのは難しいが、あるテストを2つに分ける方法が折半法だが、この分け方の全てについてρを計算し、それを平均する方法だ。ここで得られるα(アルファー)をクロンバックの係数という。具体的な計算式は次の通りだ。
f:id:hiroshi-kizaki:20191002001930p:plain
f:id:hiroshi-kizaki:20191002001940p:plain
 出典:妥当性と信頼性

まとめ
今日の運勢は悪くないはずだった。しかし、駅の階段を降りているときに、電車が来ている気配があり、急いでダッシュしようとした時に、プチッ。左足のふくらはぎの筋肉が切れた音だった。何年か前にゴルフ場で一度肉離れを体験しているが、その同じ感覚だった。とは言え、打ち合わせもあったので、普段通り出社して、普段通り打ち合わせして、普段通り授業を受けた。しかし、まともに歩けないのは辛い。明日は病院に行って診断してもらおう。

以上

最後まで読んでいただきありがとうございました。