婦人科疾患に関する内容はこちらをご覧ください。

【初心者向け】Pandasの使い方【一から分かりやすく解説】

pandas 入門 基本事項からデータ入力まで解説

こんにちわ。

Pythonを使ってて、Pandasというライブラリをよく聞くけど、使い方の基礎がよく分からない。
Pandasの簡単な使い方を知りたい。
今回はこの様な疑問を持っている方に対してのPandasの使い方についての記事になります。


医療関係者の方の多くは(医療関係者だけでなく、データ処理を扱う方でも)統計処理の際にexcelで統計処理を行っている方が多いと思います。


そのほかに使用しているツールとしてはSPSSなどでしょうか。


これからPythonを使う方は統計解析をプログラミングで行なって行く様になります(断言)ので、是非Pandasの使い方をマスターしましょう。


Pandasに関してはこちらのPandas公式サイトを参照にしてください。


Pandasでは基本的にCSVファイルに保存されているデータを扱います。


CSVファイルからは「DataFrame」という型のオブジェクトが作成されますが、これは ndarray とは異なるものです。


そのため、「DateFrame」とndarrayの相互交換についても解説していきます。
今回のテーマ
  • CSVファイルの読み込み方をマスターする
  • CSVファイルで取り込んだデータを参照する
  • DataFrame を ndarray に変換する(逆も然り)

Pandasによるデータの扱い方【手順あり】

pandas 使い方

csvファイルを読み込む

CSVファイルは、Excelと同じ様な表として使用できるファイルです。


今回 Machine Learning Repository で無料で配布されているbank.csv を使用します。(この bank.csv からファイルをダウンロードしてください)


ダウンロードしたらjupyter notebook にアップロードしましょう。(私はAWSのcloud9, jupyter notebookを普段使用しています。jupyter notebook は必ず使える環境にしておきましょう)


このbank.csvには、銀行の顧客情報のリストのサンプルが4500件ほど表形式で収納されています。


jupyter notebookにダウンロードしたら次にPandas、Numpy をインポートします。

ここで、Seriest と、DataFrame というデータ型があります。


DataFrame は2次元配列のデータ型で、Seriest は1次元配列のデータ型です。

データを参照・表示する

DataFrameのメリットとして、Jupyter NotebookでDateFrameのデータが綺麗に表として出力されることがあります。


なするとDataFrame型オブジェクトのメソッドに表示を任せると「綺麗な表」を出力してくれる点です。


さっそくJuputer Notebookで bank_client を実行してみましょう。

すると、このような形で表が出力されます。

pandas 使い方
表の下にはまだまだ続きます。


ただ、これだと表示される内容が多すぎるため、CSVをちゃんと取り込めたかどうか確認するだけであれば、bank_client.head() を使います。


そうするとこの様な感じで最初の5行のみが表示されます。

pandas 使い方
末尾の5行を表示するときは bank_client.tail() を記入します。するとこの様に表示されます。

pandas 使い方

データのスライスの仕方

また、iloc[行, 列] を使用することで表の要素をスライスをすることが出来ます。

pandas 使い方

pandas 使い方

DataFrame と ndarray の相互変換

Opened book with characters flying out of pages

DataFrame → ndarray に変換する方法

DataFrame と ndarray の各々のデータ型は相互交換が可能です。


どちらのデータ型を使用するかどうかは、全て使用するライブラリ(PandasやNumpy)に依存します。


使用するライブラリによって適切なデータ型を使用しましょう。


DataFrame から ndarrayへ変換するためにはDataFrameのオブジェクトvalues を使用します。


実際に bank_client を使用してDtataFrame型から ndarray に変換してみましょう。

ここで、なお values プロパティには列見出しの情報は入っていません。


ndarray に直す時に、列の見出しのみが欲しいときは 配列名.columns.values と入力しましょう。


実際に列名を出力してみます。以下の入力をします。

出力した結果はこの様になります。

ndarray → DataFrame に変換する方法

ndarray から DataFrame に変更するためには pd.DataFrame() を実行します。


pd.DateFrame()  はコンストラクタの一つです。コンストラクタを忘れた方は以下を参照にしてください。python オブジェクト指向プログラミング【python】オブジェクト指向プログラミングの基本【分かりやすく解説】
pd.DateFrame() の引数 () に data と columns に対して各々、ndarray_bank_client, またndarray_bank_colums を指定しましょう。


実際にDateFrame型にオブジェクトを変更してみましょう。
以下の入力を実行してみます。

するとこの様な表が出力されて、実際にDateFrame型に変更されたことがわかります。
pandas 使い方

まとめ|Pandasの使い方は簡単

如何でしたでしょうか。


Pandas で表を取り込み、表を描出する方法を解説しました。


これで、ご自身で持っているファイルも描出することがこの通りに実行していけば可能です。


もし分かりにくいところがあればコメント欄で受け付けていますので、コメントよろしくお願いいたします。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください