テキストマイニングは面白い

ブログの下書きに残っていた。せっかくなのでアップします。もうすっかり記憶の彼方。。。

はじめに
データマイニング#6を受講した。今日のテーマはテキストマイニングだ。つまり、文章の中から何か素敵なお宝を見つけるという手法を習った。習ったからすぐに使えるものではないし、使ったらお宝が見つかるわけではない。でも知らないと何も進まない。その意味ではお宝を見つけるためのヨチヨチ歩きの最初の一歩という感じだ。

KHCoder
今日は講義の中で新しいツールの紹介があった。それがKH Coderだ。WindowsとMacの両方で動くはずだけど、Macの方はインストール作業が煩雑とマニュアルに明記されている。このため、この煩雑さを解消するための有料ソフト(3,980円)が販売されていた。これを買うかどうかはもう少し考えてみようというか、購入したからには使いこなしたい。
KH Coder自動設定ソフトウェア（Mac用3.Alpha.17i最新アルファ版）
f:id:hiroshi-kizaki:20191217230451p:plain
　出典：https://khcoder.stores.jp/items/59b5f866f22a5b2f0f0001a4

NPS
顧客満足度(CS)を評価する代わりに、最近はNPSを評価することが流行っているNPSとはネットプロモータスコアの略だ。つまり、ある会社のサービスに満足したかどうかではなく、そのサービスを誰かに紹介したいと思うかどうかを質問する手法だ。そして、その指標が0から10の11段階である。NPSの値は、推奨者(9-10点)の割合(%)から批判者(0-6点)の割合を引いた値だ。ただ、この推奨者や中立者、批判者の閾値は国やケースによって変えることもあるようだが、先に示したものが一般的なNPSの求め方だ。
f:id:hiroshi-kizaki:20191217230811p:plain
　出典：https://webtan.impress.co.jp/e/2017/03/08/24303

CSポートフォリオ
横軸を総合満足度への影響度、縦軸を各項目の満足度とするマトリックス分析だ。右下のゾーンは総合満足度が高いけど、個別の満足度が低い。つまり、最優先で改善すべき項目とされる。右上は、総合満足度も各項目の満足度も高いので、現在の満足度の源泉という。左上は、総合満足度が低いけど各項目の満足度が高いところであり、現状維持項目とされる。最後は、左下だ。総合満足度も各項目度の満足度も低いところだ。つまり、最低評価項目という。
f:id:hiroshi-kizaki:20191222133326p:plain
　出典：CSポートフォリオ分析｜マーケティングリサーチのマクロミル

RFM分析
お客様をグループ化する手法の一つだ。つまり、最近いつきたか（R=Recency)、頻繁に来たか(F=Frequency)、いくら使うか(M=Monetary)という３つの指標で顧客を分類し、それぞれの性質に基づいて、適切なマーケティングをしようという考え方だ。商売屋に取っては当たり前の概念だけど、いつも利用してくれるお得意様のことを頻繁に来るかどうかと、最近ご無沙汰していないかどうかと、たくさんお金を使ってくれるかの３つの要素でお客様を分類する。例えば、自分はスタバを良く使う。昨日も使った。多い時は週に５回も６回も使った。でも利用はコーヒーばかりだ。割と直感的にも理解しやすい分析だと言える。
f:id:hiroshi-kizaki:20191222133959p:plain
　出典：顧客分析の手法（デシル分析、RFM分析） | データ分析基礎知識

テキストデータの分析
我々が普通に使う日本語は、世界の中では特徴的な言語だ。

1) 膠着言語
日本語は、膠着言語だという。言語は、そもそも屈折語と膠着ごと孤立語の３つに分類できる。屈折語の典型は印欧祖語だ。孤立語の典型は古典中国語だ。膠着語の典型は日本語だ。フリードリヒ・フォン・シュレーゲルとヴィルヘルム・フォン・フンボルトが３分類法を提案した。アフリカなどで使われる抱合語を含めて４分類とすることもある。膠着言語には、日本語、フィンランド後、トルコ語、モンゴル語、タミル語、シュメール語などがある。面白い。
f:id:hiroshi-kizaki:20191222135321p:plain
　出典：言語類型は循環的に変化する: 椅子は硬いほうがいい