R データフレーム 使い方 考え方

R

Rのデータフレームについて

こんにちは。産婦人科医のtommyです。(Twitter:@obgyntommy

 

本記事では基本的なRのオブジェクトについて解説します。

 

対象としては全くRに触れたことのない方に向けになります。

 

非常に簡単な四則演算の内容になりますが、R Studioを用意して実際に手を動かしてみてください。

 

R Studioを手軽にセットアップするには RStudio Cloud が便利です。詳しい内容は以下を参照してください。

 

R Studio Cloud 使い方
R Studio Cloudの使い方

続きを見る

 

R Studio Cloud で学習される方はこちらを参照してください。

 

また、RStudio Cloud ではなくても、Rのインストール方法や R Studio の使い方については以下の記事を参照してください。

 

R インストール方法 R studio 使い方
Rのインストールの方法とRStudioの使い方

続きを見る

 

ココがポイント

データ解析の世界ではデータを構造データ非構造データの2種類に大きく分けます。

構造データは行・列からなるテーブル形式で表すことのできるもの非構造データは音声やテキスト、画像など、テーブル形式では表すのが難しいものを指します。

構造データのなかには実に様々な保存形式がありますが、最も一般的なのがエクセル(.xlsx)やCSVです

こうしたデータをRで読み込むとき、たいていはデータフレームのオブジェクトとして読み込みます。

つまり、データフレームの操作方法を知っていれば、大方の構造データは分析を少なからず始めることができるようになります。

 

では早速見ていきましょう。

 

Rのデータフレームの読み込み方

 

このカテゴリーの内容は以下になります。

 

 本項目の内容

  1. read.csvと read.csv2 の違い
  2. エクセルファイルの読み込み方

では早速みていきましょう。

 

read.csv と read.csv2 の違い

CSVファイルが手元にある時、Rに読み込む方法は read.csv() と read.csv2() の2種類のうちいずれかを使うことができます。

 

この2つはほとんど同じ関数ですが、CSV内のデータの区切りがカンマかセミコロンかによってどちらを使うかを決める必要があります。

 

カンマ区切りの場合は read.csv()、セミコロン区切りの場合は  read.csv2()  を使います。また小数点にピリオドが使われている場合は read.csv() 、カンマが使われている場合はread.csv2() になります。

 

どうしてこのような違いが生まれるかというと、例えばフランスなど、国によって小数点にカンマを使う場合があるためです。

 

どちらを使えばよいかわからない場合、CSVファイルをお手元のテキストエディタで直接開いてみましょう。

以下のように区切りがカンマ、小数点にピリオドが使われている場合、read.csv() でOKです。

  • A,Alligator
  • A,Anteater
  • B,Bison
  • Z,Zebra

以下のように区切りがセミコロン、小数点にカンマが使われている場合、read.csv2() を使って開きます。

 

  • Number,Letter,Animal
  • 1,1;A;Alligator
  • 2,1;A;Anteater
  • 3,1;B;Bison
  • 4,1;Z;Zebra

他にも read.csv() と read.csv2() には関数にわたすことのできる引数がいくつかあります。うち大事なのは header です。

CSVファイルがヘッダー(読み込んだときにカラム名となる行)を含んでいる場合、header=TRUE(初期設定ではTRUEになっています)、そうでない場合はFALSEに設定します。

 

以下、自分の手元にCSVファイルを用意して、read.csv() か read.csv2() を使って読み込む練習をしてみましょう。

 

 

Rのエクセルファイルの読み込み方

エクセルファイルを読み込むには read_excel() という関数を使う必要があります。

 

ただ read_excel()R Studio にはじめから付いてくる関数ではなく、tidyverse というパッケージグループの中の、readxl というパッケージ内に入っている関数です。

 

ですので readxl というパッケージをまずインストールする必要があります。

 

パッケージのインストールの仕方は別の回で詳しく説明しますので、今回はとりあえず下のコードを実行してください。

 

`

 

trying URL 'https://cran.rstudio.com/bin/macosx/el-capitan/contrib/3.6/readxl_1.3.1.tgz'

Content type 'application/x-gzip' length 1646895 bytes (1.6 MB)

==================================================

downloaded 1.6 MB

The downloaded binary packages are in

/var/folders/h1/yk7v45ss33z86wql6b7zvtch0000gp/T//RtmpuS8JuZ/downloaded_packages

 

次に、インストールしたreadxlパッケージを呼び出します。

 

 

 

これでようやく read_excel() 関数が使えるようになります。

 

使い方は read.csv とほとんど同じで、エクセルファイルがおいてあるパスを引数として渡すだけです。自分の手元にエクセルファイルを用意して、読み込む練習をしてみましょう。

 

 

 

データフレームの情報を取得する

さて、ここからは R Studio にはじめからついてくるデータセット、"iris"を使ってデータフレームの練習をしていきましょう。

 

"iris"とは、1936年にR. A. FISHERらが投稿した「THE USE OF MULTIPLE MEASUREMENTS IN TAXONOMIC PROBLEMS(分類学の問題に対する多重測定の使用)」という論文に掲載されているデータで、3種のアヤメ(setosa, versicolor, virginica)のがくの長さ(Sepal.length)と幅(Sepal.Width)、花びらの長さ(Petal.Length)と幅(Petal.width)を50サンプルについて調べたデータです。

 

irisデータは単純にirisと打てば呼び出すことができます。

 

呼び出したときには既にデータフレームになっています。

 

大きさを把握する

データフレームを呼び出す時、その行数と列数を把握するのは非常に重要な作業です。大きさを把握することで、計算が重くなりそうなデータかどうかがわかります。

 

また列の追加・削除をするときにも、元のデータフレームの大きさと比べることでその作業がきちんと実行できたかどうかを確認できます。

 

大きさを把握するには dim() を使います。dim() 関数は行、列の順番に値を返します。

 

 

[1] 150   5

 

説明した通り、変数はがくの長さと幅、花びらの長さと幅、アヤメの種類の5つなので列数は5です。3種類のアヤメのそれぞれに50サンプル集めたので、行数は全部で150となっています。

 

最大・最小、平均値など要約を出力する

summary() 関数を使うと、データフレームに収納されているすべての変数で最大値、最小値、平均値などを一度に計算することができます。

 

 Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  

 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  

 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  

 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  

 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  

 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  

 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500 

 

上から

  + Min:平均値

  + 1st Qu.:第一四分位数

  + Median:中央値

  + Mean:平均値

  + 3rd Qu.:第三四分位数

  + Max.:最大値

 

となっています。

 

このsummaryでは標準偏差などの情報を得ることはできません。

標準偏差を出すには sd() を使いますが、これは一度に複数の変数に対して使うことができない関数です。

そのためirisの後ろにドルサイン($)を付けて、カラム名を指定したうえで使う必要があります。

 

[1] 0.8280661

 

ただし、apply()関数と組み合わせて使うことで、sd()関数を複数のカラムにいっぺんに適用することも可能です。apply()関数が取る引数は次の4つです。

 

  + X: FUNで定めた関数を適用するデータフレームやマトリックス

  + FUN: Xに適用する関数

  + MARGIN: FUNで定めた関数を適用する方向。行ごとの場合は1, 列ごとの場合は2

  + na.rm: 欠損値を取り除くかどうか。TRUEもしくはFALSE

  

 

 

Sepal.Length  Sepal.Width Petal.Length  Petal.Width 

   0.8280661    0.4358663    1.7652982    0.7622377

 

iris の後ろに [-5] としているのは、speciesカラムをFUNの適用から取り除くためです。speciesはカテゴリカル変数なので、標準偏差は出せません。

 

カラム名をRで出力する

カラム名だけを出力したい場合はcolnames()を使います。

 

 

[1] "Sepal.Length" "Sepal.Width"  "Petal.Length" "Petal.Width"  "Species"    

 

データフレームの変形

 

行・列の並び替え

カラムの並び替えをするには、まず並べたい順番に入れ替えたカラム名をベクトルでつくります。

 

 

 

次に、そのベクトルを[,]を使ってもとのデータフレームに適用します。ベクトルをカンマの右側に入れるのがポイントです。

 

 

 

データフレームの一部を切り出す

データフレームの一部を切り出すにはいくつか方法があります。

 

ドルサインを使う。これはカラムをひとつだけ取り出す際に使えます。

 

 

[1] 4.6 5.0 5.4 4.6 5.0 4.4

 

[]を使う。取り出したいカラムのインデックスを数字で表し、カギカッコの中に入れます。

 

 

 

コロン:を使うと複数の連続したカラムを取り出すことができます。下では1~3列目までを取り出しています。

 

 

 

マイナスサインをつけると、そのカラムを除いたほか全てを取り出すことができます。

 

 

 

カギカッコは[行,列]のようにコンマの左側に行、右側に列の情報を入れることでより自由自在に切り出しができるようになります。

 

1行だけ取り出す

 

 

 

連続した複数行を取り出す

 

 

 

 

 

 

取り出したい複数のカラムが連続していないときは、インデックスをベクトルに入れてカンマの右側に置きます。

 

 

 

カラムの名前を入れても同じです。

 

 

 

セル内の値を元にデータフレームの一部を切り出すこともできます。

それには条件演算子(==, =>, =<など)を使います。下の例ではSpeciesカラムの値がsetosaの行のみを取り出しています。

 

 

 

指定したカラムを削除する、新しいカラムを追加する

NULLに置き換えてしまうことで、指定したカラムを削除することができます。

 

 

 

新しくカラムを追加するには、ドルサインで名前を指定して、ベクトルを代入すればOKです。

 

 

 

または cbind() 関数を使って新しいカラムを追加できます。

 

 

 

指定した行を削除する、新しい行を追加する

行を削除するには、[,]のカンマの左側にマイナスサイン付きで消したい行のインデックスをベクトルに入れて指定します。

 

 

 

新しく行を追加するには、rbind()を使ってもとのデータフレームと追加したい行をまとめます。

 

 

 

Rで行・列どうしの四則演算

 

異なるカラムどうしの四則演算も単純に演算子を使ってできます。

 

 

[1] 7.7 8.6 9.3 8.0 8.4 7.3

 

ここで便利な関数rowSums()を紹介します。

例えば合計したいカラムが100本ある場合、それらをいちいちドルサインと+記号を使って書いていくのはとても面倒です。

そんな時、rowSums() を使えば()内に入れたデータフレームのすべてのカラムを合計してくれます。

 

以下では、Speciesを除いたすべてのirisのカラムを足し合わせる計算をしています。Speciesは文字列のカラムであるため、取り除かないとこの計算ができません。

 

  4    5    6    7    8    9 

 9.4 10.2 11.4  9.7 10.1  8.9

 

複数の行どうしを足し合わせる場合には、colSums()という関数を使うことができます。以下ではirisのすべての行を足し合わせる計算をしています。ここでもやはりSpeciesの文字列カラムを取り除く必要があります。

 

 

Sepal.Length  Sepal.Width Petal.Length  Petal.Width 

       876.5        458.6        563.7        179.9

 

irisの1行目と3行目だけを足し合わせたい場合は、以下のように計算できます。

 

 

Sepal.Length  Sepal.Width Petal.Length  Petal.Width 

        10.0          7.0          3.2          0.6

 

Rで複数のデータフレームを統合する

データ分析を進めているうち、複数のデータフレームをひとつにまとめたい場合が多く出てきます。例えば頭痛持ちの患者のデータを分析しているうち、頭痛の有無と天候の関係について相関を調べたくなるかもしれません。そうすると天候データを別のところから引っ張ってきて、頭痛のデータにくっつける必要があります。このようにデータフレームの統合は分析を進めるうえで非常に頻度の高いオペレーションのひとつです。

 

ではデータフレームを統合する練習をしていきましょう。練習のためにまずダミーのデータフレームartistとmusicを2つ作ります。artistは歌手の名前と国が入ったデータフレーム、musicは歌手名と曲名が入ったデータフレームです。

 

まずartistデータフレームをつくります。大きさは5×2です。

 

 

[1] 5 2

次にmusicデータフレームをつくります。大きさは8×2です。

 

 

 

[1] 8 2

 

この2つのデータフレームを統合して、surname, nationality, titleの3つのカラムを持つデータフレームをつくってみましょう。最も簡単なやり方は、merge()関数を使うことです。

 

merge() 関数にわたす引数は:

  • x: 元のデータフレーム
  • y: くっつけたい情報が入っているデータフレーム
  • by.x: 統合に使うxに含まれるカラム
  • by.y: 統合に使うyに含まれるカラム

 

です。artistとmusicにはsurnameというカラム名が共通しているので、2つを横方向にくっつけることができます。

 

データフレームの統合には大きく分けてInner join、Left Join, Outer Joinの3種類があります。

 

Inner Join

Inner Joinとは、2つのデータフレームから共通した行だけを統合するオペレーションのことをいいます。

 

Inner Joinのやり方は次のとおりです。

 

 

では出力されたm1の大きさを調べてみましょう。

 

 

[1] 7 3

 

大きさは7×3となっています。ここで、artistの中に入っていたsurnameの種類と、m1の中のsurname

い含まれる値の種類の数を比べてみましょう。unique()関数を使うことで個別値を調べることができます。

 

 

[1] "Beatles"            "Queen"              "Mariah Carey"       "Soda Stereo"       

[5] "Southern All Stars"

[1] "Beatles"      "Mariah Carey" "Queen"        "Soda Stereo"

 

すると上のように、artistの中に入っていた"Southern All Stars"がm1では落とされていることがわかります。これはmusicのsurnameカラムの中に"Southern All Stars"がなかったために起こった結果です。

 

同じように、musicのsurnameに含まれていた"Stromae"が、統合後のデータフレームにはないこともわかります。これはartistのsurnameには一致する"Stromae"の値がなかったからです。

 

 

[1] "Beatles"      "Queen"        "Mariah Carey" "Soda Stereo"  "Stromae"     

[1] "Beatles"      "Mariah Carey" "Queen"        "Soda Stereo"

 

このように、Inner Joinでは双方のデータフレームに共通する行だけが統合されます。

 

Outer Join

Inner Joinの反対がOuter Joinで、これは双方のデータフレームに含まれるすべての行を統合後もキープします。

 

Outer Joinをするには、merge()関数にall=TRUEという引数を渡します。

 

 

 

統合結果を見るとわかるように、surnameが"Southern All Stars"の行はtitleが空欄になっています。これはmusicデータフレームの中に"Southern All Stars"に該当する曲がなかったためですが、all=TRUEとしてOuter Joinをしているのでこの行は落とされずにキープされていることがわかります。

 

同じく、surnameが"Stromae"の行はnationalityが空欄になっています。これはartistデータフレームの中に"Stromae"に該当するnationalityがなかったためです。

 

Left Join

最後にLeft Joinです。Left Joinは2つのデータフレームを自分から見て右と左に置いた時に、左側のデータフレームからはすべての行をキープし、右側のデータフレームからは左側にマッチするものだけを統合するオペレーションのことを指します。

 

Left Joinをするにはall.x=TRUEの引数を渡します。「x(左側)のデータセットからすべての行を持ってくる」という意味です。ここではx=artist, y=musicとしているので、artistが左側、musicが右側になります。

 

 

 

ご覧の通り、surname が"Southern All Stars"の行だけtitleが空欄になっている一方。Inner Joinではキープされていたsurname="Stromae"は落とされています。

 

カラム名が共通していない場合

さて、ここまで artistmusic の両方に同じ名前のカラム(surname)がある場合を想定して統合の練習をしてきました。

ただ実際には、別のところから引っ張ってきたデータにも同じ名前のカラムがあることはまれです。

統合の前にカラム名を同じに揃える作業をやっても良いのですが、その手間を省いていきなり merge() 関数を使うこともできます。

 

練習のために、まずmusicのsurnameカラムをnameという名前に変更してしまいましょう。

 

 

ここで先程と同じような merge() の使い方をしてもエラーが出てきてしまいます。なぜなら surname カラムが music にないからです。

 

Error in merge.data.frame(artist, music, by.x = "surname") : 'by.x' and 'by.y' specify different numbers of columns

 

 そんなときは by.y の引数を渡して、y側のカラム名も指定しましょう。

 

 

 

結果として、x 側のカラム名surnameが残り、y 側のnameカラムは落とされました。

今回はデータフレームの操作方法について少し詳しめに見てみました。

これでもまだ基本の範囲内ですが、非常によく使う操作方法を説明したので、手元のデータセットでたくさん練習して使いこなせるようになってください。

データフレームはdplyrなどのパッケージを使うことでより複雑なオペレーションができるようになります。それはまた別の回で詳しく解説します!


-R
-,

Copyright© Tommy blog  , 2021 All Rights Reserved.