目指せデータサイエンティスト！Rでステップアップ♪

はじめに
デジタル広告の講義は早くも5回目だ。Rを活用する講義が火曜日と木曜日と週２回あるのは、いいペースだ。なんとなくRにも慣れてきたような気がする。でも、まだそんな気がするだけだ。

データサイエンティストで稼ぐ
高田教授はデータサイエンティストになれば稼げるという。特に、フリーソフトのRを活用すれば可能性は格段に広がる。高額なBIやSASなどなどのソフトを活用するのではなく、無料のRで高度な処理をすることに価値があるのだろうか。人月100万円から200万円。仮に、100万円でも年間では1200万円となる。人月170万円ならほぼ年収2000万円だ。
f:id:hiroshi-kizaki:20191212224620p:plain
　出典：データサイエンティスト、データアナリストの求人案件フリーランスエージェント BIGDATA NAVI

クラウドワークスで稼ぐ
データサイエンティストの仕事を見つけたければ、クラウドワークスを活用する方法もある。クライアントが19万社に対して、クラウドワーカーは140万人。数だけであれば足りているように見えるが、データ分析の専門家は4,000人程度。まだまだデータサイエンティストは不足している。活躍の場はたっぷりとありそうだ。
f:id:hiroshi-kizaki:20191212225928p:plain
　出典：https://crowdworks.jp/press/?p=7184

データマイニングの国際学会
KDD2019とは、データマイニングに関する国際会議(Knowledge Discovery and Data Mining 2019)だ。これに発表するような研究論文を出せるとこれは価値がありそうだ。
f:id:hiroshi-kizaki:20191212225709p:plain
　出典：https://data.gunosy.io/entry/research-intern-kdd19

コンサルタントで稼ぐ
東京大学を卒業して地頭を活用してデータサイエンティストを目指す人もいる。新人に数千万円の収入をオファーする企業もある。そんな若者と直接戦うよりは、これまでの会社経験を活用したコンサルタントを目指す方がいいとも高田教授は説く。確かに、そうかもしれない。

CIOからCMOへ
現在、IBMはコンピュータのハードウェアの販売を切り離している。PCもサーバーも切り出した。そんなIBMは何に注力しているのか。以前は、CIOをキーワードにして、商売ができた。しかし、現在は、それではビジネスにならない。ではどうするかといえばマーケティングだ。情報を分析することが目的ではない。それを活用することだ。企業で言えば、儲けることだ。その意味では、データを活用したCMOとしての立ち位置であれば、まだまだ需要はあるだろう。
f:id:hiroshi-kizaki:20191212230155p:plain
　出典：The New CMO-CIO Alignment [Infographic]

頻出パターンマイニング
データの量が膨大になるとそのデータ処理は大変だ。そのため、良くいえば効率的に、悪くいえば手抜きでデータ処理をしたい。そのためには、どうするか。一つは頻度に基づいて、頻度の高いデータを重視し、頻度の低いものはそれなりに処理する方法だ。
f:id:hiroshi-kizaki:20191213001949p:plain
　出典：http://www.kamishima.net/archive/freqpat.pdf

Apriori(相関ルールの抽出）
大規模なパスケットデータから、幅優先型の探索で相関ルールを列挙するのがAprioriアルゴリズムだ。たとえば、アイテム数が10個でも、それらを組み合わせて作ることのできる相関ルールは5.7万種以上だ。このため、これを支持度と確信度の特徴を使って効率的に検索するのが狙いだ。
f:id:hiroshi-kizaki:20191213002429p:plain
　出典：http://www.kamishima.net/archive/freqpat.pdf

類似度によるクラスタリング
類似度を推定する手法として、ユークリッド距離を計算する方法と、コサイン類似度が代表的だ。
f:id:hiroshi-kizaki:20191212230314p:plain
　出典：http://www.f.waseda.jp/yusukekondo/TALL/TALL_Spring06.html

まとめ
久しぶりに講義のことをまとめた。明日も早いので、今日はこれぐらいにしよう。
　
　以上

(追記)
先週と先々週の課題の振り返り
毎回、髙田教授から答えにくい、マニアックな課題が出る。それに悪戦苦闘しながら調べて、考えて、レポートにまとめる。今回は、たまたま自分のレポートが取り上げられて、説明せいと（笑）。すっかり油断していた。レポートを読み直して、思い出した（苦笑）。

今週の課題
詳細は割愛するが、Tech taxについての課題、Recommenderlabの課題、micro RNA検査関連の課題(ヒントは偽陽性)、CCPAの関連の課題、ネットフリックス関連の課題。まだ、内容をよく読んでいないけど、冬休みはたっぷり時間がありそうで、意外と忙しい。頑張ってトライしよう。

最後まで読んでいただきありがというございました。

拝