LuckyOceanのブログ

新米技術士の成長ブログ

ビジネスデータ分析#4を受講して

はじめに
ビジネスデータ分析#4を受講した。今回の講義のメインのテーマは分類だ。分類の意味を整理して、Rで実践して見た。分類は数学的には簡単だと豊田教授は最初に説明したが、なかなか奥が深いし、面白いと思う。

国際分類学

冗談半分と言いながら国際分類学会に誘われた。一緒にドイツに行かないか。ただし、渡航費は自腹(笑)。30代の頃は2-3ヶ月に一度海外出張していた。ITU-Tの国際学会や衛星通信運用者のグローバル会議の日本代表として参加したこともある(えへん)。でも、学会や国際学会の経験はない。正直少し興味がある。HPを見ると、12月に北九州国際会議場で開催が予定されている。ふぐを食べに行こう♪と懇親会までセットされている。確かに楽しそうな学会だ。
f:id:hiroshi-kizaki:20191015221333p:plain
f:id:hiroshi-kizaki:20191015221345p:plain
 出典:日本分類学会

階層型クラスター型
クラスター分析とは、似た者を集めて分類する方法だ。ぶどうの房のような形なので、クラスターと呼ぶ。クラスター分析には、階層クラスター分析と非階層クラスター分析がある。階層クラスター分析とは、階層型の代表はウォード法だが、それ以外に最短距離法や最長距離法、群平均法などがある。それぞれに計算方法が違う。主にウォード法が使われるというので、どういう時にはウォード法を使わないのかと質問すると、集落に別れていない場合、ランダムに万遍な分布する場合には向いないという。確かに、一見ランダムに見えるデータから傾向を見つけるのが目的だが、そもそもその傾向がない場合は辛いだろう。
f:id:hiroshi-kizaki:20191015221457p:plain
 出典:クラスター分析|マーケティングリサーチのマクロミル

非階層型クラスタ
代表的な手法はK-means法(k平均法)だ。これはまず階数kを決める。4とか。5とか。そして、乱数を使って、5つの初期値が決まり、その初期値に近いデータを集める。これが最初のステップ1だ。次に集まったデータから平均を求める。これが次のステップ2。そして、平均値のデータを中心にこれに近いデータを集める。この3番目のステップは実はステップ1と同じだ。このようにステップ1とステップ2を何度も繰り返すとデータが収斂するという手法だ。面白い。
f:id:hiroshi-kizaki:20191015222513j:plain
 出典:バイオインフォマティクスによる遺伝子発現解析

教師信号ありとなし
人工知能で有名になった深層学習にも教師ありと教師なしがある。質問するとほぼ考え方は同じようなものだという。階層型クラスターの代表はウォード法だろう。データをありのままに分析して、積み上げて、似た者を集めて、集めて、トーナメント戦のようにまとめていく。そして、その結果としてのデンドログラムを見て、人間は解釈する。しかし、コンピュータは単にデータとデータの距離を計算するだけだ。

事前解釈と事後解釈
大切なことは仮説設定力だと思う。例えば、よく使うのが血圧と死亡率だ。血圧が高いと死亡率が高い。それはその通りだ。しかし、これは単なる相関関係であって因果関係ではない。何が原因かと言えば年齢だ。高齢になると血圧が上がるし、恒例になると死亡率が高まる。しかし、ある年代で見ると、血圧と死亡率の関係は低い。血圧が高いのもやばいけど、低い方が死亡率の増加が急峻だ。こういったことはあまり報道されない。
f:id:hiroshi-kizaki:20191015233820p:plain
 出典:相関関係と因果関係 - LuckyOceanのブログ

散布図の目的
例えば、高い相関関係を持つ要因A1と要因A2をクラスター分析してもあまり良い結果は出ない。A1とA2に相関関係が強いのであれば、それらをまとめて要因Aを見つける。また、それとできるだけ相関関係の低いBに集約して、AとBをクラスター分析する。もしくはビールの好みとワインの好みを調査した場合には、ビールの好みをクラスター分析して、ワインの好みをクラスター分析して、そしてのその両者をクロス集計して相関関係の有無を検証する。色々と深掘りする技はありそうだ。

ハードクラスターとソフトクラスタ
いわゆるウォード法はハードクラスターという。一方、ハードクラスターでは解析しにくいものにも対応できるのがソフトクラスターだ。例えば、下のデータのように明らかに2つの相関関係が組み合わされたデータはハードクラスターではうまくいかなくても、ソフトクラスターでは右と左に分けて、それぞれのクラスター分析をできる。また、ハードクラスターでは一つのデータはいずれかの群衆に属するという前提だが、別に複数の群衆にぞくしてもいいんじゃないというファジークラスターもあるという。つまり、自分の4割はA、3割はB、残る3割はCに属するというようなマルチラベルの考え方だ。面白い。
f:id:hiroshi-kizaki:20191015234900p:plain
 出典:実践:Soft K-means法 | teqニカルブログ

GGPLOTS2
レイヤー化の技術を活用して綺麗なプロットが可能なのがGGPlots2だ。GGPlots2では授業ではあまり扱わないようだがRの機能の延長として学べるだろうか。非常に見栄えが良いので、独学でも良いので、ちょっと使ってみたい。
www.youtube.com

まとめ
ビジネスデータ分析では、理解することと活用することが大事だ。前者の理解するは、理屈や手法やノウハウを理解することだ。一方、活用するには実戦しかない。授業ではR及びRStudioを活用している。考え方を理解して、Rstudioで実践することができれば、これからのデータ分析の大きな力になるだろう。がんばろう。

以上

最後まで読んで頂きありがとうございました。