Rを使いこなすための基礎練習(復習その１)

1. はじめに
ビジネスデータ分析(アドバンス)の講義の目的はRやRStudio(以下、Rという)を使いこなすことが目的ではない。ビジネスを行う上で必要なデータや有用なデータを見つけ出し、創り出し、活用するためのセンスを磨くことだ。しかし、実行的には膨大なデータやアンケートの結果を集計しようとすると、エクセルでは限界がある。Rを活用することができれば、実行キーを押下するだけで処理が進む。特に、同じような処理を何度も実行する場合にはRの威力は絶大だ。また、よく使うRをパッケージ化することも可能だ。豊田教授も英語が障壁ではあるが、パッケージ化を目指したいと言われている。ここでは、授業のなかで説明のあったRの基本的な使い方やコマンドをレビューしてみたい。課題にトライしたけど、基礎を理解できていないことを痛感して、このブログに戻ってきました(汗)。

2. Rのインストールと基本的操作(初回の講義)
2.1 Rのインストール
まずRを使ったことのない人にとっては、Rのインストールから学必要がある。Rをインストールする場合には、次のURLをまずアクセスする。そして、左上のDownload CRANをクリックして、地域＝日本を選択して、パソコンのOSに基づくファイルをダウンロードする。自分はMacBookAirなので、「Download R for (Mac) OS X」を選択して、ダウンロードする。そんな流れだ。
R: The R Project for Statistical Computing

2.2 RStudioのインストール
RをインストールしていないとRStudioはインストールできない。しかし、すでにRをインストールすればRStudioのインストールは比較的簡単だ。ダウンロードのサイトをクリックすると、コースを聞かれる。初心者の場合には迷わずフリーのコースだろう。フリーでも侮れない。すごい機能が使える。
qiita.com

2.3 RStudioの操作
練習するには、何かサンプルデータがあると良い。データはcsvファイルが基本だ。RStudioは下の写真のように画面が４つに分かれている。左上がソースエディターだ。つまり、Rのスクリプトやファイルを編集するエリアです。左下はコンソールです。Rを操作した結果が表示されます。右上は環境です。Rで読み込んだデータを選択すると、左上にその詳細の内容が表示されます。右下はファイルやPlots、Packages、Help、Historyなどがあります。例えば、ファイルをクリックするとそのファイルが開きます。Plotsを選択するとグラフなどが表示されますし、遡れます。Packagesをクリックすると拡張パッケージを活用できて便利です。
f:id:hiroshi-kizaki:20191106135227p:plain

2.4 ソースエディターでの操作
コメントもしくはコメント業を書き込む
ソースエディターはスクリプトを各場所です。でも、スクリプトだけを書いていても、それが何を目的としてどのような処理をしたのか不明です。そのため、行の先頭に#(半角のシャープ)を入れるとその行はコメント行となります。また、行の途中に#を入れるとそこから先(右側)はコメントとなります。これは結構便利です。

2.5 RStudioを使うための準備運動
(1) set working directory
　まず行うことは、処理したフィルの保存場所をしてすることだ。Rの場合には、メニューのファイルから"ディレクトリの変更"を選択する。RStudioの場合には、メニューSessionから"set working directory"を選択し、"Choose Directory"でアクセスするファイルの保存場所を指定する。これは重要かつ基本だ。

(2) File → File reopen with Encoding → show all encodingsにチェック → cp932を選択
　Windowsの人は不要なようだけど、AppleのMac系を利用している人はおまじないが２つ必要だ。最初のおまじないは、Fileのメニューで"File reopen with Encoding"を選択して、プロンプトが表示されたら"show all"を選択して、その後で"CP932"を選ぶ。これで文字化けがなくなるはずだ。

(3) fileEncoding="cp932"
　MacBookAir等のApple系のPCで処理するときには、もう一つのおまじないが必要だ。それは、"read"コメントを利用するときに、末尾に,fileEncoding="cp932"を付記する。これでMac系でも大丈夫だ。
　Winの場合：ena.data<-read.csv("enagy.csv)
　Macの場合：ena.data<-read.csv("enagy.csv",fileEncoding="cp932")

(4) コメント
　スクリプトの先頭に#を付記するとその行はコメント業とみなされる。また、行の途中で#を付記するとそこから右はコメントとみなされる。これは便利だ。スクリプトとコメントを区別するために、今後コメントには#をつけることにしよう。

(5) データの読み込み

dat1<-read.csv("data1_1.csv") #WInの場合
dat1<-read.csv("data1_1.csv", fileEncoding = "cp932") #Macの場合

#例えば、data1_1.csvというファイルの内容をdat1に読み込む場合には、次のようなスクリプトとなる。

(6) 簡単なコマンド＝スクリプト

　dat1

#単純に"dat1#というスクリプトを実践すると、単純にdat1に保存した内容が表示される。

(7) headとtail

head(dat1,n)
tail(dat1,n)

#単純にdat1とすると、全てのデータが一気に表示される。
#そうではなくて、先頭業n行のみとか、末尾行n行のみを表示したい場合には、
#n行のみのデータが表示される。これは便利だ。

(8) plot

　plot(dat1$date, dat1$売上個数)

#時系列のデータをグラフにプロットする。例えば、次のようにすると折れ線グラフを
#表示してくれる。

(9) 折れ線グラフのオプション設定

　 plot(dat1$date, dat1$売上個数,
main="売上の推移", xlab="date", ylab="売上個数",
type="b", col=1, pch=1, cex=0.5, lwd=1, lty=1)

#例えば、下のような折れ線グラフは次のスクリプトで表示される。
#mainはタイトルだ。xlabは横軸名、ylabは縦軸名だ。type="b"は、点と線のプロット。
#colは色、pchは点の形、cexは点の大きさ、lwdは線の太さだ。
#ltyは線の種類を指定するオプションだ。
　 f:id:hiroshi-kizaki:20191106142029p:plain

(10) 補助線を引く

　売上個数の平均<-mean(dat1$売上個数)
　abline(h=売上個数の平均, col=2)
　plot(dat1$価格, dat1$売上個数,
　　main="価格と売上個数の関係", xlab="価格", ylab="売上個数")

#例えば、平均的な売上個数の補助線を引きたいなら次のスクリプトだ。
#売り上げ個数の平均に
# ablineで補助線を追記出来る hは水平線の位置、vは垂直線の位置

f:id:hiroshi-kizaki:20191106142522p:plain

(11) 散布図

　plot(dat1$価格, dat1$売上個数,
main="価格と売上個数の関係", xlab="価格", ylab="売上個数")

　回帰分析の結果<-lm(dat1$売上個数~dat1$価格)
　summary(回帰分析の結果)
　abline(回帰分析の結果,col=2)

#散布図を描くにはどうするのか。例えば、価格と売上個数の関係を確認する。
#上のスクリプトで回帰直線まで描いてくれる。
f:id:hiroshi-kizaki:20191106143432p:plain

#左下のコンソールには次のような表示がある。
#これはどういう意味だろう。最低(Min)が-33.3、最大(Ma)が54.5とある。
#Residualsとは統計用語で残渣の意味だ。
#Coefficientsは統計用語で変動係数だ。
#Interceptは切片。開基直線はy=a+bxとすると切片はaで、傾きがbだ。
#これらの意味は次の図の通り。
f:id:hiroshi-kizaki:20191106144448p:plain
　出典：https://to-kei.net/r-beginner/r-3/