LuckyOceanのブログ

新米技術士の成長ブログ

Rを使いこなす基礎練習(その3:クラスター分析)

はじめに
データ分析の基本は分類、関係、縮約、要約の4つだ。このうちの分類はいわゆる似た者集めだ。しかし、注意すべきはこの分類結果は、分類の仕方によって異なる。手法によっても異なるし、何個に分類するかによって答えは全く異なる。その意味では、分類は仮説であるとされている。大切なことは分類結果を前提として分析を行い、妥当性を検証することだ。また、分類の仕方では、最近のITの進化に伴って教師なし分類手法が進化してきた。これは人工知能における機械学習や深層学習の成果による部分がありそうだ。

クラスター分析(階層型)
一見バラバラに見えるデータをまとめていくアルゴリズムは複数ある。もっとも直感的に理解しやすいのは、データとデータの距離が違いものをまとめていく最短距離法だろう。例えば、下の図のようなデータで、AとBが近く、CとDが近い。Eは少し離れているというものを階層クラスターで描いたものをデンドログラムという。個人的にはデンドログラムという響きや恣意的な要素なく、教師なしで自動分類してくれるこの考え方は好きだ。
f:id:hiroshi-kizaki:20191106182614j:plain
 出典:クラスター分析の手法②(階層クラスター分析) | データ分析基礎知識

デンドログラム(Dendrogram)
日本語で言えば樹形図だ。デンドログラムは木を意味する古代ギリシャ語のデンドロン(δένδρον)と数学的な図形を意味するグラマンマ(γράμμα)の造語だ。ちなみに、英語のtopをギリシャ語で翻訳するとブロウザ(μπλουζα)だった。ということは、Tree Topはデンドロブロウザか(笑)。LuckyOceanもギリシャ語にするとティケロス・オケアノス(Τυχερός ωκεανός)だった。
f:id:hiroshi-kizaki:20191106184536p:plain
 出典:http://www.ivis.co.jp/text/20180411.pdf

クラスター分析(kmeans)
デンドログラムは、樹形図として見える化してくれるので、わかりやすい。因子数も任意に決めることができる。しかし、欠点はその処理が複雑なことだ。データ数が少ないうちは良いけど、ビッグデータになると指数関数的に処理時間が長くなり、実用的とは言えなくなる。そのため、データ量が多くても、効率的にグループ分けしてくれる方法がk-means法によるクラスター分析だ。これは、次の手順でクラスタリングを行う。1)まず任意の数の初期値を設定する。2)その初期値との距離でサンプルデータをグループ化する。3)グループかされたデータの重心の位置を計算する。4)新しい重心に基づいて2)の処理を行う。5)新たにグループかされたデータの重心を再計算する。この4)と5)は基本的に2)と3)と同義であるため、これを何回繰り返すかでデータが決まる。時系列分析する場合には、あえて繰り返し数を1回にしたり、初期値を固定した離する。詳しくは出典で引用したYouTubeの画像がわかりやすいかもしれない。
f:id:hiroshi-kizaki:20191106185041p:plain
 出典:www.youtube.com

ファジーc-means法
クラスター分析を行う場合に、それぞれのデータは必ずどれが一つのグループに属しているという前提に立つのが従来の考え方だ。しかし、ファジーc-means法では、確率論的にグループAに属する確率PAとグループBに属する確率PBという前提があってもいいんじゃないという考え方だ。数式は少し難解に見えるかもしれないが、選択できないことだってあるよねというゆるい考え方は好きだ。
f:id:hiroshi-kizaki:20191106190637p:plain
f:id:hiroshi-kizaki:20191106190647p:plain
 出典:Fuzzy c-means clustering algorithm - Data Clustering Algorithms

Rの復習(ケース1)
(1) データの読み取る。

brand<- read.csv("brand.csv",row.names = 1)

#brandという名前のCSVデータを読み取る。

(2) 先頭6行を表示する。

head(brand)

# headで先頭6行を表示し、データが正しいことを確認

(3) サブセットを作成する。

brand.data1<- brand[,c(1,2)]

# Case1 二つのブランド(Brand1,2)で階層クラスター分析を行う
# サブセットの作成
# 階層クラスター分析では、距離を計算するために、分類に用いるデータのみを
# サブセット(部分データ)として作成する。
# brand[,c(1,2)]はbrandからすべての行と、1,2列を抜き出すというコマンド
# [行,列]で、何も入れないと“すべて”、数字を入れると“その数字の行または列”を抽出
# 数字の指定は、c( )の括弧の中に、カンマ区切りで入れるのが基本

(4) 先頭6行を表示する。

head(brand.data1)

#headで先頭6行を表示し、データが正しいことを確認

(5) 散布図にプロットして、ラベルを描く。

plot(brand.data1$Brand1,brand.data1$Brand2,xlim=c(0, 20),ylim=c(0, 20))
text(brand.data1$Brand1,brand.data1$Brand2,xlim=c(0, 20),ylim=c(0, 20),
labels=rownames(brand.data1))

# ラベル付き散布図で全体傾向を確認する
# plotは(量的変数,量的変数)で散布図を描く。xlimは横軸の範囲、ylimは縦軸の範囲を指定
# textは散布図の点の代わりにラベルを描く。labelsで指定する。

(6) プロットを小さくする。

plot(brand.data1$Brand1,brand.data1$Brand2,xlim=c(0, 20),ylim=c(0, 20), cex=0.5)
text(brand.data1$Brand1,brand.data1$Brand2,xlim=c(0, 20),ylim=c(0, 20),
labels=rownames(brand.data1))

# plotの点を小さくするには、cexで点の大きさを指定する。

(7) プロットを非表示にして、ラベルのみ表示とする。

plot(brand.data1$Brand1,brand.data1$Brand2,xlim=c(0, 20),ylim=c(0, 20), type = "n")
text(brand.data1$Brand1,brand.data1$Brand2,xlim=c(0, 20),ylim=c(0, 20),
labels=rownames(brand.data1))

# plotの点をなし(表示させない)には、type = "n"とする。

(8) dist関数で距離を計算する。

brand.data1.d<-dist(brand.data1)
brand.data1.d

# 似たもの集めをするために対象間(20人)の距離を求める
# dist関数によって行列の形で距離が求まる

(9) ウォード法で計算する。

hc1<-hclust(brand.data1.d,method="ward.D2")

# 階層型クラスター分析をウォード法にておこない、デンドログラムを出力する
# hclust関数で計算する
# メソッドはウォード法とするが、ward.D2になることに注意
# ward.Dはバグがあるので使わない(古いテキストなどはward.Dになっている)

(10) デンドログラムを表示する。

plot(hc1,hang=-1,main="ウォード法")

# デンドログラムを出力する
# mainは図のタイトル、hangはデンドログラム下部の揃わせ方に関連

Rの復習(ケース2)
# Case2 議論:3つのブランドでクラスター分析を行い2つの場合と比較する
(1) 所属グループの変数を作る。

brand.data2<- brand[,c(1,2,3)]

# デンドログラムを元にクラスター数を決定し、所属グループという変数を作る
# Brand1から3のデータを抽出し、保存
# brand[,c(1,2,3)]はbrandからすべての行と1,2,3列を抜き出すというコマンド

(2) データを表示する。

head(brand.data2)

# headで先頭6行を表示し、データが正しいことを確認

(3) dist関数で距離を計算する。

brand.data2.d<-dist(brand.data2)

# 似たもの集めをするために距離を求める:dist関数

(4) ウォード法でデンドログラムを出力する。

hc2<-hclust(brand.data2.d,method="ward.D2")
plot(hc2,hang=-1,main="ウォード法:Brand1&2&3")

# 階層型クラスター分析をウォード法にておこない、デンドログラムを出力する

Rの復習(所属セグメントの特定)
(1) 幾つで区切るかを指定する。

plot(hc2,hang=-1,main="ウォード法:Brand1&2&3")
rect.hclust(hc2, k = 4)

#所属セグメントの特定

(2) プロットする。

plot(hc2,hang=-1,main="ウォード法:Brand1&2&3")
rect.hclust(hc2, k = 3)

#デンドログラムを見ていくつに区切るかを決めたら、その所属セグメントを求める
#いくつに区切るか(k=で指定)を見やすくするためにrect.hclustを使うと便利
#ここではk=4として、4つに区切る。

(3) 標準出力位置に戻す。

par(mfrow=c(1,1))

# 標準出力の1行1列に戻しておく

(4) cutreeを用いる。

cutree(hc2,k=4)

# cutreeを用いて、所属セグメントを求める
# 今回は4セグメントとして分析してみる

(5) as.factorとして保存する。

group_3br_4seg<-as.factor(cutree(hc2,k=4))

# 保存する際に、数値で保存すると質的変数にならないので
# as.factorを使って(factor:因子・選択肢)として保存する。

(6) 4つのグループに再編する。

group_3br_4seg

# 中身を見ると、Levelsがあることが分かる

(7) 列を統合する。

brand<-cbind(brand,group_3br_4seg)

# 元のデータにこの所属セグメントを追加する
# cbindとは、column(列)方向のデータのバインド(統合)するためのコマンド
# こうすることで、元の「brand」というデータの一番右に「group」という列が追加される

(8) 先頭6行を表示する。

head(brand)

# headで先頭6行を表示し、データに所属セグメントが追加されていることを確認

(9) 分類したグループの特徴を確認する。

ave.table_3br_4seg<-cbind(
tapply(brand$Brand1,brand$group_3br_4seg,mean),
tapply(brand$Brand2,brand$group_3br_4seg,mean),
tapply(brand$Brand3,brand$group_3br_4seg,mean)
)

ave.table_3br_4seg

# 分類したグループの特徴を確認する
# tapplyとは、ある変数を、何かの基準で集計するときに使うコマンド
# tapply(集計したい変数,集計基準,集計方法)

(10) 行と列に名前をつける。

colnames(ave.table_3br_4seg)<-c("Brand1","Brand2","Brand3")
rownames(ave.table_3br_4seg)<-c("Segment1","Segment2","Segment3","Segment4")

# colname、rownameはデータの行と列に名前をつけるコマンド

(11) 表示を小数点以下2桁で丸める。

round(ave.table_3br_4seg,2)

# roundは、小数点以下を四捨五入するコマンド

(12) レーダーチャートを描く。

library(plotrix)

radial.plot(ave.table_3br_4seg, rp.type ="p", labels = colnames(ave.table_3br_4seg),
lty = 1:3, lwd = 3)
legend("topright", legend = rownames(ave.table_3br_4seg), col = 1 : 3, lty = 1:3 )

# レーダーチャートを描いて傾向を把握する
# plotrixライブラリーを用いると便利
# 以下、installは、頭の#を外して一回だけ行う
# install.packages("plotrix")

(13) 分類したグループを棒グラフで表示する。

par(mfrow=c(1,2))
plot(brand$sex,brand$group_3br_4seg, main="性別と所属セグメント")
plot(brand$age,brand$group_3br_4seg, main="年代2択と所属セグメント")

# 分類したグループをy(結果系)として分析する
# 100%積み上げ棒グラフで確認する
# par(mfrow=c(1,2))の場合、1行2列で出力

(14) クロス集計する。

table1<-table(brand$sex,brand$group_3br_4seg)
table2<-table(brand$age,brand$group_3br_4seg)

# クロス集計表で確認する

(15) 結果を表示する。

table1
table2

 ふ〜!これぐらいにしておこう。

 以上

Rを使いこなすための基礎練習(その2:因子分析)

はじめに
今回はビジネスデータ分析(advance)の2回目の講義で習った因子分析について復習したい。資料を見返すと確かにそんな説明を受けたことは覚えているが、思い出す速度よりも忘れる速度の方が速いことを痛感する(笑)。

因子分析
因子分析(factor analysis)とは、ある事象と別の事象の関係性を分析する手法だ。つまり、何が原因で何が結果かを調べるのが目的だ。例えばチョコが好きな人とナッツが好きな人がいる。チョコナッツは二人とも好きかもしれない。チョコチップはチョコ好きだけが好きかもしれない。本当は原因があって結果があるが、得られたデータは原因ではなく結果かもしれないので、そのデータから原因を類推する。しかし、幸せだから笑顔なのか、笑顔だから幸せなのか。原因と結果は逆転することもあるし、わざと逆転することで新しい事実が見えたりもする。因子分析は奥が深い。
f:id:hiroshi-kizaki:20191106151059p:plain
 出典:https://www.macromill.com/service/data_analysis/factor-analysis.html

固有値
固有値とは、意味のある因子の数だ。収集したデータが仮に10種類のデータだったとしても、その中には相互に依存する因子があるかもしれない。しかし、この因子数を決めるのは必然ではなく、仮説だ。つまり、2個にするのか、4個にするのか、6個にするのかは仮説でしかない。大切なことはその仮説を検証することだ。しかし、仮置きでも、因子数を決めるにはステップと概念がある。

1)基準
・カイザー・ガットマン基準:固有値が1以上の因子を採用する
・スクリー法:固有値の大きさをプロットし、推移がなだらかになる前までを抽出する
f:id:hiroshi-kizaki:20191106153111p:plain
 出典;http://cogpsy.educ.kyoto-u.ac.jp/personal/Kusumi/datasem06/minemoto.pdf

2) 分析のステップ
・ステップ1:相関行列から類似性を判断する。
・ステップ2:類似性からまとめられる束(因子)の数を判断する=因子数の決定
・ステップ3:その束にどのブランド(変数)が束ねられるかを判断する=負荷量
・ステップ4:新しく束ねれた変数:因子を解釈する=負荷量の活用
・ステップ5:因子で対象を評価し直す=因子得点の計算
f:id:hiroshi-kizaki:20191106152129p:plain
 出典:因子分析の主要な結果を解釈する - Minitab

因子負荷量
今、自分が関心を持っている類人猿分類についても、その特徴は様々だ。どれがゴリラだ、チンパンジーだと断言しているが、実際はそれほど単純なものではない。様々な質問に対する答えを多変量分析して、因子数が4となるところで因子負荷量等を決めることになる。もしかしたら因子は5つかもしれないし、6つかもしれない。現在、questant!で調査を依頼しているが楽しみだ。因子負荷量とは、因子分析において得られた共通因子が観測因子に与える影響の強さを示し、観測変数と因子得点との相関係数に相当する。因子負荷量の絶対値が大きいほど、強い影響力を有することを示す。なお、マイナス値で相関が高いということは、例えば甘いものが好きな人は辛いものが苦手な可能性が高いがそのようなケースだと言える。
f:id:hiroshi-kizaki:20191106153249p:plain
 出典:http://wwwhum.meijo-u.ac.jp/labs/hh002/spss/inventory/factorana02.html

スクリープロット
これは例えば求人に応募してきた人に対してアンケートをした結果だ。どのような点を重視しているかという質問に対しては、3つの因子に分類できそうだ。第一の因子では、将来性や出世や給与、保険等の基本的な待遇を重視していることがわかる。そりゃそうだろう。第二の因子では、勤務時間や休日を気にしている。これはオフとオンを明確に区別したいという気持ちだ。これもわかる。第三の因子は雰囲気だ。ヒアリングにはないけど人間関係が良好かどうかと言ったことを気にするのもよくわかる。こんな風に多くの要因を少数の因子(ファクター)で統括できるのは有益だ。なお、下の写真の#Promotion Var#は寄与率だ。その下の#Cumulative Var#は累積寄与率のことだ。
f:id:hiroshi-kizaki:20191106160223p:plain
 出典:https://opens.co.jp/blog/statistics/1/

バイプロット
因子分析した結果を見える化するにはどうすれば良いのでしょうか?Rのbiplot()関数を使うと簡単に作成できます。例えば、スナック菓子の食感をアンケートで調査します。そして、その結果をMR1とMR2の二次元でマッピングします。MR1は、まろやかとか、クリーミーと言った食感に対応しています。MR2は油っぽい、ベタつく(逆はサクサク感)の傾向に対応しています。スナック菓子は主に、スイーツ系のものが中心から右側にあり、揚げ物系が中心から上、サクサクけいが中心より下にあります。注目すべきは、投入する商品をこのマップのどこに位置付けるかです。あえて、既存の商品と競争するポジションにおく戦略もあるし、ブルーオーシャンを狙う戦略もある。しかし、ブルーオーシャンには、2つの種類があるので注意が必要だ。つまり、本当はそこにニーズがあるのだけど誰もそれに気付いていないケースと、そこにはニーズがそもそもないケースだ。仮にまろやかの反対が激辛としたら、新しい市場を開拓する余地があるのかもしれない。そんなことを考えるヒントを与えてくれるのがバイプロットだ。
f:id:hiroshi-kizaki:20191106161056p:plain
 出典:http://imaimamu.com/archives/1728

Rの解説
(1) アイスの好みのデータを読み込む
 
ice.data1<- read.csv("ice4.csv",fileEncoding="cp932",row.names = 1)

# CSVファイルを読みこむ
# row.names=1として、1列目の値を行(row)の名前にする

(2) データの抽出(アイスの部分のみ抽出する)

head(ice.data1)
fa.ice.data1<-ice.data1[,2:5]

# データの抽出

(3) 相関関係の分析

cor.ice<-cor(fa.ice.data1)
round(cor.ice,2)
write.csv(cor.ice,"アイス4種の相関分析結果.csv",fileEncoding = "cp932")

# 相関行列を確認してみる
# mac用 write.csv(cor.ice,"アイス4種の相関分析結果.csv",fileEncoding="cp932")
#小数点以下二桁とする。
#csvファイルに出力する。
f:id:hiroshi-kizaki:20191106162528p:plain

(4) 固有値の計算

eigen.ice<-eigen(cor.ice)$values
eigen.ice
plot(eigen.ice, type="b", main="スクリーンプロット",xlab="因子番号",ylab="固有値")

#固有値の確認
#固有値1以上の基準の意味を理解する
#有意な因子は2と判断する。
f:id:hiroshi-kizaki:20191106162811p:plain

(5) 回転手法(最尤法)

# 因子分析を行う:最尤法(ml)+回転なし

fa.ice.out<- fa(r=fa.ice.data1, nfactors=2,rotate="none",fm="ml",scores=T)
fa.ice.out
write.csv(fa.ice.out$loadings,"アイスの因子負荷量回転なし.csv")

f:id:hiroshi-kizaki:20191106164627p:plain

(6) 因子特典
# 因子得点
fa.ice.out$scores
write.csv(fa.ice.score,"アイスの因子得点.csv")

(7) psychの利用
# 専門パッケージ:psychの利用

library("psych")
library("GPArotation")

# 平行分析を行う:因子数決定のため
# 数回実行時、結果の安定性を確認する

fa.parallel(fa.data2,fm="ml")

#因子分析(回転なし)
fa1<-fa(fa.data2,nfactors=2,rotate="none",fm="ml")
print(fa1)
write.csv(fa1$loadings,"人事データの因子負荷量回転なし.csv")

#因子分析(バリマックス回転)
fa2<-fa(fa.data2,nfactors=2,rotate="varimax",fm="ml")
print(fa2)
write.csv(fa2$loadings,"人事データの因子負荷量varimax回転.csv")

#因子分析(プロマックス回転)
fa3<-fa(fa.data2,nfactors=2,rotate="promax",fm="ml")
print(fa3)
write.csv(fa3$loadings,"人事データの因子負荷量promax回転.csv")

#因子分析:因子得点
fa1$scores
fa2$scores
fa3$scores
write.csv(fa3$scores,"因子得点プロマックス.csv")

#バイプロットの描画
par(mfrow=c(1,2))
# biplot(点, ベクトル)
biplot(fa2$scores,fa2$loadings, cex=0.5, main="Varimax")
abline(h=0, v=0)

# biplot(点, ベクトル)
biplot(fa3$scores,fa3$loadings, cex=0.5, main="promax")
abline(h=0, v=0)

 ふ〜!

 なかなか奥が深い。

 以上

Rを使いこなすための基礎練習(復習その1)

1. はじめに
ビジネスデータ分析(アドバンス)の講義の目的はRやRStudio(以下、Rという)を使いこなすことが目的ではない。ビジネスを行う上で必要なデータや有用なデータを見つけ出し、創り出し、活用するためのセンスを磨くことだ。しかし、実行的には膨大なデータやアンケートの結果を集計しようとすると、エクセルでは限界がある。Rを活用することができれば、実行キーを押下するだけで処理が進む。特に、同じような処理を何度も実行する場合にはRの威力は絶大だ。また、よく使うRをパッケージ化することも可能だ。豊田教授も英語が障壁ではあるが、パッケージ化を目指したいと言われている。ここでは、授業のなかで説明のあったRの基本的な使い方やコマンドをレビューしてみたい。課題にトライしたけど、基礎を理解できていないことを痛感して、このブログに戻ってきました(汗)。

2. Rのインストールと基本的操作(初回の講義)
2.1 Rのインストール

まずRを使ったことのない人にとっては、Rのインストールから学必要がある。Rをインストールする場合には、次のURLをまずアクセスする。そして、左上のDownload CRANをクリックして、地域=日本を選択して、パソコンのOSに基づくファイルをダウンロードする。自分はMacBookAirなので、「Download R for (Mac) OS X」を選択して、ダウンロードする。そんな流れだ。
R: The R Project for Statistical Computing

2.2 RStudioのインストール
RをインストールしていないとRStudioはインストールできない。しかし、すでにRをインストールすればRStudioのインストールは比較的簡単だ。ダウンロードのサイトをクリックすると、コースを聞かれる。初心者の場合には迷わずフリーのコースだろう。フリーでも侮れない。すごい機能が使える。
qiita.com

2.3 RStudioの操作
練習するには、何かサンプルデータがあると良い。データはcsvファイルが基本だ。RStudioは下の写真のように画面が4つに分かれている。左上がソースエディターだ。つまり、Rのスクリプトやファイルを編集するエリアです。左下はコンソールです。Rを操作した結果が表示されます。右上は環境です。Rで読み込んだデータを選択すると、左上にその詳細の内容が表示されます。右下はファイルやPlots、Packages、Help、Historyなどがあります。例えば、ファイルをクリックするとそのファイルが開きます。Plotsを選択するとグラフなどが表示されますし、遡れます。Packagesをクリックすると拡張パッケージを活用できて便利です。
f:id:hiroshi-kizaki:20191106135227p:plain

2.4 ソースエディターでの操作
コメントもしくはコメント業を書き込む
ソースエディターはスクリプトを各場所です。でも、スクリプトだけを書いていても、それが何を目的としてどのような処理をしたのか不明です。そのため、行の先頭に#(半角のシャープ)を入れるとその行はコメント行となります。また、行の途中に#を入れるとそこから先(右側)はコメントとなります。これは結構便利です。

2.5 RStudioを使うための準備運動
(1) set working directory

 まず行うことは、処理したフィルの保存場所をしてすることだ。Rの場合には、メニューのファイルから"ディレクトリの変更"を選択する。RStudioの場合には、メニューSessionから"set working directory"を選択し、"Choose Directory"でアクセスするファイルの保存場所を指定する。これは重要かつ基本だ。

(2) File → File reopen with Encoding → show all encodingsにチェック → cp932を選択
 Windowsの人は不要なようだけど、AppleMac系を利用している人はおまじないが2つ必要だ。最初のおまじないは、Fileのメニューで"File reopen with Encoding"を選択して、プロンプトが表示されたら"show all"を選択して、その後で"CP932"を選ぶ。これで文字化けがなくなるはずだ。

(3) fileEncoding="cp932"
 MacBookAir等のApple系のPCで処理するときには、もう一つのおまじないが必要だ。それは、"read"コメントを利用するときに、末尾に,fileEncoding="cp932"を付記する。これでMac系でも大丈夫だ。
 Winの場合:ena.data<-read.csv("enagy.csv)
 Macの場合:ena.data<-read.csv("enagy.csv",fileEncoding="cp932")

(4) コメント
 スクリプトの先頭に#を付記するとその行はコメント業とみなされる。また、行の途中で#を付記するとそこから右はコメントとみなされる。これは便利だ。スクリプトとコメントを区別するために、今後コメントには#をつけることにしよう。

(5) データの読み込み

dat1<-read.csv("data1_1.csv") #WInの場合
dat1<-read.csv("data1_1.csv", fileEncoding = "cp932") #Macの場合

#例えば、data1_1.csvというファイルの内容をdat1に読み込む場合には、次のようなスクリプトとなる。

(6) 簡単なコマンド=スクリプト

 dat1

#単純に"dat1#というスクリプトを実践すると、単純にdat1に保存した内容が表示される。

(7) headとtail

head(dat1,n)
tail(dat1,n)

#単純にdat1とすると、全てのデータが一気に表示される。
#そうではなくて、先頭業n行のみとか、末尾行n行のみを表示したい場合には、
#n行のみのデータが表示される。これは便利だ。

(8) plot

 plot(dat1$date, dat1$売上個数)

#時系列のデータをグラフにプロットする。例えば、次のようにすると折れ線グラフを
#表示してくれる。

(9) 折れ線グラフのオプション設定

  plot(dat1$date, dat1$売上個数,
main="売上の推移", xlab="date", ylab="売上個数",
type="b", col=1, pch=1, cex=0.5, lwd=1, lty=1)

#例えば、下のような折れ線グラフは次のスクリプトで表示される。
#mainはタイトルだ。xlabは横軸名、ylabは縦軸名だ。type="b"は、点と線のプロット。
#colは色、pchは点の形、cexは点の大きさ、lwdは線の太さだ。
#ltyは線の種類を指定するオプションだ。
 f:id:hiroshi-kizaki:20191106142029p:plain

(10) 補助線を引く

 売上個数の平均<-mean(dat1$売上個数)
 abline(h=売上個数の平均, col=2)
 plot(dat1$価格, dat1$売上個数,
  main="価格と売上個数の関係", xlab="価格", ylab="売上個数")

#例えば、平均的な売上個数の補助線を引きたいなら次のスクリプトだ。
#売り上げ個数の平均に
# ablineで補助線を追記出来る hは水平線の位置、vは垂直線の位置

f:id:hiroshi-kizaki:20191106142522p:plain

(11) 散布図

 plot(dat1$価格, dat1$売上個数,
main="価格と売上個数の関係", xlab="価格", ylab="売上個数")

 回帰分析の結果<-lm(dat1$売上個数~dat1$価格)
 summary(回帰分析の結果)
 abline(回帰分析の結果,col=2)

#散布図を描くにはどうするのか。例えば、価格と売上個数の関係を確認する。
#上のスクリプトで回帰直線まで描いてくれる。
f:id:hiroshi-kizaki:20191106143432p:plain

#左下のコンソールには次のような表示がある。
#これはどういう意味だろう。最低(Min)が-33.3、最大(Ma)が54.5とある。
#Residualsとは統計用語で残渣の意味だ。
#Coefficientsは統計用語で変動係数だ。
#Interceptは切片。開基直線はy=a+bxとすると切片はaで、傾きがbだ。
#これらの意味は次の図の通り。
f:id:hiroshi-kizaki:20191106144448p:plain
 出典:https://to-kei.net/r-beginner/r-3/

#ふ〜!

#こんな調子で7回分の講義を振り返ることができるのだろうか(涙)。
#とりあえず、初回はこんなところで区切りとしたい。

以上

コミュマネ論#6(講義+ゲスト講師+記者会見)

はじめに
コミュマネ論(コミュニケーションマネジメント論)の講義も早くも6回目だ。今回の授業は浦上早苗教授による講義と、ゲストスピーカの坂下彩花さんによる講義、そして、記者会見だ。それぞれ書き始めるとキリがないが、できるだけ端的にまとめたい。

1.講義
1.1 メディアに露出するメリットとデメリット

メディアに出すメリットはなんだろう。知名度やブランドの向上とか、信頼性の担保、採用効果などがある。商品の知名度が上がって売り上げが増加するような直接的なメリットだけではなく、新卒学生の採用にも効果がある。しかし、メリットがあると同時にデメリットもある。どんなデメリットがあるのだろう。
f:id:hiroshi-kizaki:20191031234643j:plain
 出典:https://wakarukoto.com/?p=12362

在庫切れ
全英女子オープンで劇的に優勝した渋野日向子が哀王していた「タラタラするんじゃねえよ」がバカ売れした。これは製造元の意図とは関係なく、一気にブレイクした事例だけど、短期的には在庫切れを起こすなどの事態が生じた。ちなみに、この駄菓子を製造している会社は渋野日向子のスポンサーではなく、スポンサー企業が駄菓子好きの渋野のためにこの駄菓子を大量に買い込んでイギリスに持ち込んだらしい。
f:id:hiroshi-kizaki:20191031235028j:plain
 出典:https://kusanomido.com/study/life/food/34557/

福男の不倫
2019年の福男を選ぶ西宮の西宮神社で「一番福」となったのは広島の消防士だった。スポーツマンでイケメンだ。しかし、とんだ落とし穴があった。それは、この福男は結婚していたが、それを秘密にして交際を求めていた女性がテレビをみた。これはだめだ。その女性は怒りのままにLINEのやりとりを公表した。これが真実かフェイクかはわからないが、普段から素行を善良にする必要がある。
f:id:hiroshi-kizaki:20191031235624j:plain
 出典:https://kogusoku.com/archives/13789

専門分野を持つ記者や編集者が狙い目
これはゲストスピーカーの講演でも同様の発言があったが、記者や編集者とのネットワークを構成し、その人が得意とする分野やトピックを理解し、自分が持っているトピックにニュースバリューがあるかを吟味し、うまく料理してくれる記者や編集者にアプローチすることはWIN-WINとなる。専門分野を持つのは年代的には30歳代だ。入社してすぐは高校野球や警察事件ものを担当し、4-5年立つと県庁とか省庁系を担当して、30最大で専門分野を極めるようになる。そんな記者のキャリヤプランも理解しておきたい。

コンテンツを見る目的は2つ
ブログやSNSをアクセスする目的には2つあるという。一つは、暇つぶしだ。もう一つは目的を持った情報収集だ。したがって、ブログやTwitterやFBなどのSNSでコンテンツを展開する場合には、それを見るひとの目的を想像する必要がある。暇つぶしの場合には、あまり長いと読んでくれない。情報収集が目的の場合にも、あまり長いと嫌がられる。も少し読みたいと思うぐらいでまとめるのが良い。しかし、これはなかなか耳に痛い (苦笑)。

追い風を活用するか時流を創るか
時流に乗ったトピックは強い。そして、そういう追い風をうまく活用するのが基本だが、一歩踏み出して、そのような時流を作り出すことができれば先行者利益を享受することも可能だ。その場合には、キーフレーズやキャッチフレーズが重要だ。

2. ローカルワークスの広報担当
浦上先生のTwitterの最初の投稿は最新ではない。ローカルワークスの取材記事が最初だ。そして、これが本当に面白い。平均年齢30際の若い会社に還暦をすぎた大工を採用した。そして、それが若い社員やクライアントとの間に良い意味での化学反応を起こした。今回のそのローカルワークスで広報業務を担当する坂下彩花さんがゲストスピーカーの講師として登場された。下の写真の真ん中が還暦をすぎた大工の新人社員なべ、左下が坂下さん、右下が営業担当の三善さんだ。三善さんとなべさんは喧嘩をするほど仲が良いらしい。
f:id:hiroshi-kizaki:20191101001246j:plain
 出典:https://www.businessinsider.jp/post-197698

坂下彩花さん
FBに掲載されている略歴では、東洋英和女学院大学を卒業後、株式会社Genovaにて営業を担当された。そのあと建設業系のマッチングビジネスを提供するローカルワークスに転職された。広報を主に担当してちょうど1年ほどだという。人事の仕事も兼ねることが多く、兼業の知見もローカルワークスでは許容され、推奨されている。写真の通り素敵な女性だが、本人曰く「踊って殴れる広報女子」だという。ダンスは好きで練習されている。ボクシングも嗜む。そして広報担当として活躍されている。
f:id:hiroshi-kizaki:20191101002015p:plain
 出典:https://www.facebook.com/ayaka.sakashita.3?epa=SEARCH_BOX

解体屋ゲン
週刊漫画に連載されている人気コミックの一つが解体屋ゲンだ。これにもLOCAL WORKSの人気大工も坂下彩花さんも登場したようだ。解体屋ゲンにローカルワークスのナベさんが登場するのは構図として面白い。キャラがそれぞれ立っている。最初はすぐには思い出せなかったが、土建屋の現場をほのぼのと描くコミックだ。自分の建設業界の業務を兼務しているので、興味深く読んだ記憶が蘇ってきた(笑)。
f:id:hiroshi-kizaki:20191101003621j:plain
 出典:amazon

5つのステップ
講義の最初にハッシュタグの宣言があった。「#コミュマネ」で投稿すると、受講生の投稿が簡単にレビューできる。これは便利だ。坂下先生は、実績、媒体、戦略、企画、効果の5つのステップで自らの経験談を論理的にうまく整理して講演いただいた。2016年に入社して当初は営業だったけど、広報を希望者の募集があり、立候補した。広報の活動はまだ1年強だが、やり手だ。大切なことはやはりリサーチだ。記者の得意分野を調べ、記者の経歴や記事を調べる。そして、この記者ならきっとこの記事をうまく料理してくれそうだと思う人にアプローチする。それがうまく行った時の快感は最高だろう。

3. 記者会見
今回は、ディズニースタジオと大和自動車交通がコラボして、スターウォーズのスカイーウォーカーの夜明けをフィーチャしたタクシーを都内で期間限定で提供するというイベントのプレスだ。これに対して、記者の立場で記事を書くのが今回の課題だ。どうしよう。明日中だ。。やばい。

まとめ
コミュマネ論もこれが6回目だ。来週は最後だがんばろう。

健康経営を考える。投資効果は3倍?!

はじめに
今日の技術イノベーションの授業はゲストスピーカーによる講演だった。講演者は、授業を担当する玄場公規教授と共に、経営戦略としての「健康経営」を著した株式会社VOYAGEの新井卓二代表取締役(以下、新井社長)だ。健康経営と言われても経営を健康?とはてなの人もいるかもしれない。きっかけは電通の高橋まつりさんの自殺を契機とするブラック企業経営問題への対応だった。しかも、それが対処療法的なものではなく、社員の健康に対して投資すると、経営面では3倍の効果を得るという驚きの結果だった。そのため、大手も中小も競って健康経営を旗揚げしようとしている。なお、このブログは講義メモではない。講義の中のキーワードをもとにネットで裏を取りながら独自にまとめたので、至らぬ点は自分の責だ。
f:id:hiroshi-kizaki:20191027121707j:plain
 出典:合同フォレスト株式会社

VOYAGE新井社長
日本では珍しい産学連携型の起業家だ。つまり、大阪大学で博士課程まで進み、その研究成果を生かして起業する。そして、その実際のビジネスで得られたデータを元に学会で発表する。学会で発表した成果をエビデンスとしてビジネスを改善する。そんなポートフォリオワーカーだ。肩書も代表取締役と大学の特任教授、日本ヘルスケア協会の副部会長などだ。それらが新井卓二さんの中で産学連携されている感じだ。
f:id:hiroshi-kizaki:20191027120501p:plain
 出典:https://suke10.com/article/11962

VOYAGE起業
新井社長さんがVOYAGEを起業しようと決意されたきっかけは何だったのだろう。色々とMBAで学んだことをベースにビジネスを研究していて、ブラック企業への対応や健康経営の重要性などに関心を持ち、企業派遣型リラクゼーションにビジネスチャンスがありそうだと臭覚が働いたのだろうか。役員は新井卓二さんと後藤由利子の2名、セラピストは11名という企業だ。健康経営優良法人2019や健康優良企業、スポーツエールカンパニーなどに認定されている。女性の感性とアイデアとホスピタリティを新井卓二代表がうまくマネジメントしている感じがする。
f:id:hiroshi-kizaki:20191027122742p:plain
 出典:salon.voyage.tokyo.jp

タイムマシン経営
海外で成功しているビジネスモデルをいち早く日本で展開することで先行者利益を得る経営手法だ。ソフトバンク創業者の孫正義命名したとされる。海外でリラクゼーションビジネスが成功しているのを見て、日本でも勝負できるのではないかと着想された。そして、展示会などで展開しても10年前は笑われた。しかし、風向きが変わってきた。以前は国会試験に合格した「あん摩マッサージ指圧師」による施術が主だったが、最近ではそれ以外に各種整体やクイックマッサージ、リフレクソロジーなども加わっている。当時は法律的な問題を懸念するため大手企業は参入していなかった。
f:id:hiroshi-kizaki:20191027123355j:plain
 出典:https://j-net21.smrj.go.jp/startup/guide/service/service05.html

駅前から社内へ
ラクゼーション店といえば合法的なもの非合法的なもの。日本人が経営しているもの、外人が経営しているもの。いろいろある。駅前店ではサロンREFLEなどが店舗を広げている。そこにまともに参入してもビジネスとして勝つことは難しい。そこで新井社長は考えた。駅前は古いタッチングポイントだ。これからはオフィスとか、自宅だろう。例えば、買い物でも以前は百貨店に出かけたものがスーパーになり、コンビニになり、最近では宅配が広がっている。企業でも、オフィスグリコなど企業内に入り込むビジネスモデルが成功している。リラクゼーションもオフィスの中に設置すればいいじゃないか。
f:id:hiroshi-kizaki:20191027124345j:plain
 出典:https://salon.syumatsu.biz

ブラック企業との契約
電通の事件をきっかけに学生はブラック企業を敬遠するようになった。誰もがホワイト企業で働きたいと思う。そのためブラックとレッテル貼された企業は懸命に環境や体制を改善するようになった。ソフトウェア開発のSCSKは2009年に社員の過剰労働の実態を経営者が直視し、これではダメだと2012年には残業半減運動を進めた。2013年にはスマートワークチャレンジも進め、現在はホワイト企業の代表例になっている。そんなふうに企業風土や環境を改善しようと考えるブラックな一流企業は多い。そこに目をつけた新井社長の着眼点は素晴らしい。しかも、契約にあたっては、ヤバイ企業とは契約しない。何か問題が生じたらすぐに契約を解除するそんな条項も必須とした。だって、そこで働くセラピストが安全に安心して働けるようにすることはVOYAGEがブラックにならないための必須条件だ。

VOYAGEのこだわり
セラピストとして働きたいという女性は多いが、多くの店舗では夜間や休日の需要が多く、とても家庭との両立ができない。そのため、VOYAGEでは、契約企業での勤務にあたっては最大週40時間、残業ゼロを徹底している。契約した企業では、残業時間の多い社員に対して、勤務中にリラクゼーションルームの活用を奨励する。基本予約制でひとり30分として、1日5時間で10名の施術が可能だ。これを200日すれば2000人だ。セラピストは1000人を施術すれば上級者と言われるようだが、VOYAGEのセラピストは経験を積んで一気に上級者に駆け上がる。

定量的な測定
新井社長はセラピストではない。誰が上手なのか。顧客が満足したのか。品質は満足しているか。そんなことをどのように把握して管理するのだろう。学会でも発表できるように一般医療機器に拘った。採用されたのは、脈波系のアルテットだ。下の図のような簡単な装置に指を挿入して脈波を測定する。これを施術前と施術後に実施し、その結果を分析する。上手なセラピストとそうではないセラピストでは効果の違いを定量的に分析できるのがミソだ。セラピスト自身もフィードバックを受けて改善しようという気持ちになる。利用者から見ても、いつも一定の品質を担保されていれば安心だ。
f:id:hiroshi-kizaki:20191027130345p:plain
 出典:血管年齢 アルテット
f:id:hiroshi-kizaki:20191027130249p:plain
 出典:http://www.kekkan-nenrei.com/image/data/seirigaku_memo.pdf

トークと施術
優秀なセラピストとそうでないセラピストの違いは何か。当然、施術の上手下手はある。上手なセラピストは全身の筋肉を使うので1日に十人しても大丈夫だという。しかし、利用者の満足度をあげたり、脈波の効果が高いセラピストはトークが上手だ。しかし、トークといっても明石家さんまのようにお笑いのトークがうまいのではない。どちらかといえば聞き上手だ。マッサージの利用者の話す内容の多くは愚痴だ。それをうまく聞いて、受け止めて、優しく解してあげる。ちなみに社員が退職するときには、転職が決まったとか、起業するとかの名目を上げるが、実際にはほぼ人間関係の問題に悩み、苦しんだ末の結論だ。特に上司との反りが合わないという愚痴は圧倒的に多いようだ。

産業カウンセラー
VOYAGEではセラピストに対して、産業カウンセラーの資格取得を奨励し、補助もしているようだ。素晴らしい。産業カウンセラーは下の図のようにメンタルヘルスの対策支援や、キャリア形成支援、職場の人間関係の改善などの業務を行う。しかし、産業カウンセラーのみでは十分な収入を得ることはできない。しかし、セラピストx産業カウンセラーならどうだろう。他のセラピストとの差別化が図れるし、何よりVOYAGEのクライアントである企業にとっても嬉しい付加価値だろう。実際、健康診断をなかなか受けない社員もリラクゼーションは利用する。そのためセラピストと産業医で連携して、リラクゼーション受けにきたタイミングで健康診断も受けるように説得するようなこともあるようだ。また、企業から見ても、過労死が懸念されるような社員を放置するのではなく、セラピストを通じてストレスの軽減を図ることができる。また、そのような履歴を残しておけば万一に事態にもエビデンスになる。
f:id:hiroshi-kizaki:20191027131429p:plain
 出典:http://www.do-counselor.jp/about01/

VOYAGEの店舗
会社派遣のリラクゼーションは基本、平日の月曜日から木曜日の昼間だ。そして、これを補完するのが新宿御苑の店舗だ。ここは基本金曜日の夕方と土曜日と日曜日の昼間時間だ。普段は企業派遣で腕を上げているので、品質は担保されている。OZMALLのリラクサロンの2018年度上期ランキングで2位になり、それを見て、店舗に訪れる人が増えたようだ。また、企業でリラクゼーションルームを確保できない場合に、社員に優待券を渡す例もあるようだ。OZMALLのサイトで検索すると確かに口コミランキングは4.91と高評価だ。
f:id:hiroshi-kizaki:20191027133550p:plain
 出典:【オズモール】心ときめく“おでかけ体験”を一緒に - OZmall

マッサージチェアとの競合
講演後に質疑応答があり、生徒から質問があった。最近のマッサージチェアの進化はすごい。これらの普及は今後の脅威になり得るか。新井社長からの回答は、機械化できるものは機械化すべきだと思うし、マッサージチェアで満足するニーズはそれでいい。しかし、VOYAGEは施術だけで勝負しているわけではなく利用者とのコミュニケーションを大切にしている。産業コンサルタントを奨励しているのもこの一環だ。したがって、マッサージチェアで淘汰されるのは、そのような差別化がなく、単なる施術の店かもしれない。また、マッサージチェアも導入して数年すると衛生上の問題もあり、使われなくなることもあるとの説明だった。ただ、AIが発達して、コミュニケーションロボットの機能がどんどん改善すると、AI搭載型のマッサージチェアは脅威になるかもしれないと思った。
f:id:hiroshi-kizaki:20191027133929j:plain
 出典:https://tokusengai.com/_ct/17296144

メンバー管理は月額1万円(AWS)
ラクゼーションの店舗に通うとメンバーズカードとかをもらうことがある。でも、どんどんたまるし、整理すると肝心の時に使えなかったりする。VOYAGEは、スマホでメンバー管理をしている。アマゾンのAWSを活用していて、月額料金も1万円ほどだという。これからの店舗管理やカスタマー管理はクラウドでやるのがオススメだろう。

南雲吉則先生
新井社長が感銘を受けた人物の一人に南雲吉則医師がいる。南雲医師の専門は乳腺で、乳腺専門の南雲クリニックの院長だが、どちらかといえば、アンチエージングで有名だろう。自身も40代半ばまではメタボ体質だったが、独自の健康法を開発して、アンチエージングに成功した。2015年には、第1回プラチナエイジ授賞式でプラチナエイジストを受賞している。新井社長が市場ゼロの状態で起業したが、2年間は倒産の危機にも瀕して、職場に寝泊りするような状況も続いた。しかし、南雲先生の昆布茶やゴボウ茶からブランディングを考えて、なんとか頑張ったらしい。
f:id:hiroshi-kizaki:20191027134934p:plain
 出典:奇跡の62歳!南雲吉則先生インタビュー (テレ東プラス)

経済産業省厚生労働省
厚生労働省は2017年5月に長時間労働などで指導された企業のリスト、いわゆるブラックリストに基づいて334社を発表した。長時間労働労働安全衛生法違反などで指導、送検された334件だ。一方、経済産業省は、健康経営優良法人認定制度を立ち上げた。一時期は厚労省経産省で軋轢もあったようだが今ではうまく連携しているらしい。なぜかといえば、キーパーソンの江崎禎英さんは、経済産業省厚労省の調整官を兼ねている。江崎さんは、岐阜県出身で1989年に東京大学卒業後、当時の通商産業省に入省された。省庁の壁を越えて奔走し、2017年からは経産省調整官と内閣官房健康・医療戦略室次長を兼務されている。『社会は変えられる』とTwitterでも投稿されている。天通合氣道師範でもある。すごい。
  出典:健康経営優良法人認定制度(METI/経済産業省)

健康経営企業2019
自分は監理技術者として、建設業の監理技術者の仕事もしている。安全管理に対する費用対投資効果は2.7倍とされている。健康経営でも同じような指標がある。つまり、社員の健康のための費用対投資効果は3倍から10倍だという。有名なのはジョンソンアンドジョンソンの事例で3倍だ。つまり、安全管理や社員の健康のための投資は、最優先の投資分野ということになる。

プレゼンティーイズム
この用語は初めて聞いた。プレゼンティーイズム(Presenteeism)と、アブセンティーイズム(Absenteeism)は対語だ。つまり、何らかの体調不良のために欠勤することをアブセンティーイズムという。これはわかりやすい。しかし、最近の課題は、出勤していても、本来の性能を発揮できないプレゼンティーイズムだ。一般には20%程度の性能が低下しているという。そして、問題なのは、その要因が水面下でわかりにくい点だ。実はMBAのプロジェクトで研究したいテーマとして、脳波で従業員の勤務パフォーマンスを調べられないかと検討したことがある。これはずばり、プレゼンティーイズムの定量評価だ。ある先生に相談したら、今やっていることと、これと両方やったら(笑)と軽く言われた。まあ、そういうわけにも行かないだろう。
f:id:hiroshi-kizaki:20191027142457p:plain
 出典:http://activesleep.net/data/

健康経営へのアプローチ
自分が就職する前は、二日酔いでも風邪でもまずは這ってでも会社にこいというような風潮だった。しかし、最近では、無理して出社しても性能が発揮できない。全米では年間約1500億ドルの損失が出ているというが日本ではどうか。このような社員のプレゼンティーイズムによる損害を最小限にする方法の一つが健康経営へのアプローチだ。興味のある方は、冒頭の図書がオススメだ。自分も購入して、新井社長と玄場教授のサインまでもらった(笑)。

まとめ
健康経営は自分が勤務している会社でも標榜しているが、まだ上位ランキングには入っていない。大企業のエントリーは先週締め切ったということなので、次の発表が楽しみだ。社員の健康を守るための投資も、安全管理を守るための投資も費用対効果が3倍と高いことは、経営者がそれに対する投資を加速しようとし易いだろう。そして、本当にホワイトな企業集団が日本中に増えるようにしたい。しかし、足元を見ると現実と理想の乖離にも苦慮する日々が続く。

以上

最後まで読んでいただきありがとうございました。

ビジネスデータ分析#5を受講して(目指せデータサイエンティスト)

はじめに
豊田教授によるビジネスデータ分析(アドバンス)の講義も既に5回目だ。残りは後2回目だ。豊田教授が基本と繰り返す、分類、縮約、要約、関係性を一通り習った。Rの操作も大分慣れてきた気がする。しかし、それは用意してもらったRのスクリプトとデータを用いた演習だ。応用力を身につけるには、自分でデータを用意して、自分でデータを分析して、成果を出す必要がある。豊田教授はこれをレシピと呼ぶ。そして、レシピを自分で作れるレシピライターを目指してほしいと生徒に奮起を促す。

あやめによる分類の演習
この講義は、データサイエンティストを目指すものではないが、データ分析を習うときの鉄板ねたの一つがあやめによる分析だ。Rにはそのデータが保存されているので、データ分析をするには最適だ。アヤメ(Iris)にはSetosa(セトサ)と、Versicolor(バージカラー)とVirginica(バージニカ)の3種類がある。がく辺や花弁の長さと幅という4つの特徴量からの分析だ。しかし、このアヤメはそもそも3種類ということもあり、学習あり分析が可能だ。下の図は分析したデンドログラムだ。
f:id:hiroshi-kizaki:20191022234602p:plain
 出典:https://www.codexa.net/basic-exploratory-data-analysis-with-python/

朝野熙彦教授
豊田教授が尊敬するというのが朝野熙彦中央大学大学院教授だ。豊田教授曰く、朝野教授は分類は始まりだという。つまり、分類というのは恣意的な部分が入る。したがって、あくまで仮説だ。そして、この仮説が適切かどうかを縮約や要約や関係付けで検証していくことが重要だ。
f:id:hiroshi-kizaki:20191022234922p:plain
 出典:マーケティングを成功に導くリサーチ | Macromill

ハードクラスタリングとソフトクラスタリング
クラスター分析する上で、あるデータが一つのクラスターにのみ所属するものをハードクラスタリングという。逆に、あるデータが複数のクラスターに所属するものをソフトクラスタリングという。後者の場合には、例えば、F1には66%、F2には30%、F3には4%といった比率を示すこともある。ソフトクラスタリングには、C-meansや混合分布モデルによるクラスタリングなどある。
f:id:hiroshi-kizaki:20191022235343p:plain
 出典:https://alpha.mixi.co.jp/entry/2009/10755/

決定木
決定ツリーとか決定木と呼ばれる。決定理論のためのグラフだ。あらかじめ設定した前提条件に基づいて、トップダウン方式でもっとも顕著な変化点を抽出することができる。なかなかこれは便利そうだ。タイタニックでの生存者の分析もデータサイエンティストの学びとしては有名だ。下の図は、その分析結果だ。最初の分岐は性別だ。そして、女性のうち生存を分けたのは乗船のクラスだ。ファーストクラスとセカンドクラスの女性はほとんどが救済されたが、3級では残念ながら4割ほどしか救出されたなかった。一方、男性の場合には子供かどうかだ。そして、ファーストクラスとセカンドクラスの子供は全員救出されたことがわかる。
f:id:hiroshi-kizaki:20191023000954p:plain

k-means法とc-means法
因子数を与えてそのドットとの距離から分類を計算するk-means法はわかりやすいし、計算処理も比較的簡単だ。課題は再現性だ。再現性を確保するには、ランダムの設定を同じにするか、ドットの値を与件とする必要がある。一方、c-means法はファジーな分類方法だ。先の説明で言うソフトクラスタリングの手法だ。

5年後、10年後を目指す
豊田教授が強調するのは、小手先のテクニックを学ぶのではなく、データサイエンスを目指してほしいと言う点だ。例えば、何を導きたいか、どのようなデータを集めるか、どのように処理するか。この3つのうちの2つを明確にできれば、残る一つを明確にすることができる。そして、データ分析の場合には次の2つのケースがある。
1) 与えられたビッグデータからデータを分析して、知見を抽出する。このケースは特に既存のデータがある場合に、そのデータを活用して事業に役立つ知見を得たいと言うもの。
2) 抽出したい知見を得るためにデータを揃えて分析する。このニーズは多い。答えがまずあって、それを裏付けるデータの収集とその分析を求められることもある。しかし、本来はデータドリブンであるべきだ。

最終課題
次回が第6回なので、最終回は再来週の7月5日だ。この日が締め切りではないが、これまで習ったことをベースにデータ分析にトライしてその結果をレポートすると言う内容だった。

まとめ
Rの操作は少しずつ慣れてきたが、まだ自分のものになったわけではない。分析したいテーマに沿ったデータを集めて、分析のレシピを作って分析したい。分析レシピのストックを積み重ねることで、データ分析の鉄人を目指したい。

以上

最後まで読んでいただきありがとうございました。

地域貢献#4を受講して(類人猿に学ぶ)

はじめに
大久保あかね先生の授業はやはり面白い。何が面白いのかというといつも予想外の話題がある。発想が豊かだ。基本的に前向きで明るい。自分も同じタイプだけどそれぞれが格段に素晴らしい。授業もまとまっているようでまとまっていないけど、まとまっていないようでまとまっている。カオスの中に秩序がある(笑)。

課題&レポート
前回の熱海実習が大きなイベントだった。その時に登壇頂いた3名の誰かでも良いし、2回目の講義で取り上げたいろどりの横石知二さんや気仙沼でニットビジネスを立ち上げた御手洗瑞子さんの事例でも良い。誰でも良いので、その活動をフレームワークに当てはめてMBAらしく分析して欲しい。これがグループワークの課題だ。来週はこのグループワークのための討議が主たる内容で、6回目にそれぞれのグループから発表する。そして、そこで質疑応答や指摘を行い合う。最終レポートはそれぞれのグループ発表の内容をベースにして、A4一枚程度のレポートを提出する。これが個人ワークだ。3つのグループに編成して、熱海で登壇頂いた3名をそれぞれ割り振った。自分たちのグループは市来広一郎さんだ。ネタは多くて書きやすいはずだけど、フレームワークに載せるのは結構難しそうだ。

興味深いキーワード
今回の講義でも興味深い内容が色々あった。そのすべてを紹介するのは難しいので、4つに絞って、ネットで裏を取りながら、まとめてみた。

1) GSG(Global Social Impact Investment Steering Group)
2013年6月に英首相デーヴィッド・キャメロンの呼びかけで社会的インパクト投資タスクフォースが創設された。イニシャルを取るとGSIISGだが、これだと長いので、略してGSGだ。GSGは国ごとに国内諮問委員会を組織化する。日本の国内諮問委員会は、三菱総合研究所小宮山宏理事長を委員長とした委員会が中心に活動している。2016年9月には、「日本における社会的インパクト投資の現状2016」が公開されている。
f:id:hiroshi-kizaki:20191021174911p:plain
 出典:https://gsgii.org

2) 神社のコンサルタント
MBAの卒業生で神社のコンサルタントを目指し、神社のことを研究した人がいたという。神社において祭儀や社務を行う人を神職という。神職になるには、いくつかの方法がある。神職養成講習会に参加する方法や皇學館大学國學院大學に入学して勉強する方法がある。後者では「正階」を授与され、さらに必要な実習を経て「明階」が授与される。神職の階位は5つある。それぞれ神道で徳目とする「浄明正直」に由来する。浄階は、階位の最高位。明階は勅裁を要する伊勢神宮の大宮司以外ならどこの神社の宮司にもなれる。正階は一般的な禰宜及び宮司代務者になれる。他に権正階があり、最後は一般神社の禰宜権禰宜になれる直階だ。先の卒業生は国学院大学に入学して明階になったという。すごい。江戸時代までは女性の職掌も存在したが、明治政府の宗教政策により女性神職はいなくなった。戦後の男女同権思想と神社の後継者問題から現在では女性神職が認められているようだ。

3) 寄付と寄進
一般的には、寄付という。特に、災害時の際に被災地の方を救済するための寄付に応じた人も多いだろう。義援金も寄付の一つだ。学校や図書館などへの寄付は寄贈という。また、神社や宗教施設への寄付は寄進という。神社のお賽銭も寄進の一つだ。江戸時代には、太刀や甲冑、弓矢なども寄進したようだ。そして、賽銭箱に寄進することは、神様に何かをお願いするためのものではなく、自らの汚れを清めて頂くことへの感謝の気持ちだという。調べると、お賽銭の起源はおひねりであった。おひねりとは、米を紙に包んでお供えする。その意味は天照大御神が授けた貴重な食糧(=米)に対する感謝の気持ちを示すもの。お賽銭には、神様に対する感謝の気持ちや、祓いの意味がある。なお、お賽銭の平均は50円とされていて、明治神宮の参拝者数はお賽銭の金額を50円で割った数字らしい。お賽銭には、115円が良いという説もある。いいごえんからのの語呂合わせだ。
 出典:お賽銭について | 神社本庁

4) まちづくり
都会と田舎でまちづくりは異なる。都会では、イベントを開催した入り、コミュニティを活性化して住民同士の交流を図ることだ。形だけコミュニティカフェを作ってもダメだ。都会ではカルチャースクールが活発だが、これもまちづくりのひとつかもしれない。一方の田舎では、最大の課題はやはり少子高齢化だ。なので、中山間の地域づくりが重要だ。中山間地域とは、平野と山間地の間の地域だ。日本の国土面積の約7割を占めるという。
f:id:hiroshi-kizaki:20191021182008j:plain
 出典:http://www.yamaguchi-chusankan.jp/category/genki.html

類人猿に学ぶ
突然、先生から2つの質問を受けた。一つは勝ち負けにこだわるかどうか?もう一つは他人から感情が分かりやすいと言われるかどうか?皆さんはどうでしょうか?そして、それぞれで同じ回答をした生徒が集まり、「絶対成功するプランがある。でも、7割の役員が反対する。経営者としてどうするか?」と言ったことを議論して発表した。面白い。ネットで調べると、少し質問が違うけど同じような意味だ。
f:id:hiroshi-kizaki:20191021182644p:plain
f:id:hiroshi-kizaki:20191021182718p:plain
 出典:https://www.super-every.co.jp/challenge/005.html

4つの類人猿タイプ
あなたはどのタイプになったでしょうか?自分は直感的にチンパンジーだった。大久保先生も典型的なチンパンジーだという。でも、よく考えると、オランウータンの要素も結構強い気がする。チンパンジー6割、オランウータン4割りという感じかなあ。大久保先生は100%チンパンジーだという自己分析されていた。
f:id:hiroshi-kizaki:20191021183157j:plain
 出典:http://drip.ink/sources/5658

まとめ
この類人猿診断がやたらに気に入ったので、図書も買ってしまった。人間関係論として研究するのも面白いかもしれない。タイプによって、どのように対応するのが良いかが変わる。人の価値観は多様だけど、シンプルに4つに分類して考える方がわかりやすい。あなたも周りの人や職場の人をタイプ分けすると人間関係の達人になれるかも(笑)。

以上

最後まで読んでいただきありがとうございました。