機械学習 教師なし学習 クラスタリング MNIST

機械学習

【教師なし学習】MNISTで機械学習を行う【クラスタリングの流れ】

こんにちは。産婦人科医のとみー(twitter:@obgyntommy)です。

 

この記事では具体的なワインのデータを用いて、機械学習のうち教師なし学習の一通りの流れを学びます。

 

特にこの記事では具体的な非構造化データを用いて教師なし機械学習(クラスタリング)の一通りの流れを学びます。

 

非構造化データは構造化データと同様の方法で次元削減を行うとクラスタリングがうまく行かないことが多く、今回はそれに対応できるような手法を学びます。

 

メモ

非構造化データとは、データサイエンスの分野で代表的なものは画像文章音声などのデータを指します。

逆に構造化データとはデータベースのテーブルにおさまるような顧客情報ログのようなデータを示します。

 

今回学習する、機械学習のうち教師なし学習の一般的な流れは以下の通りです。

 

 教師なし学習の機械学習の流れ

  1. データの内容の確認
  2. データの前処理
  3. Feature Scaling
  4. 次元削減
  5. 教師なし学習(クラスタリング)数の決定
  6. 教師なし学習(クラスタリング)
  7. 結果の解釈

 

Google Colaboratory でコードを動かす事も出来ますので、記事で学習するのが大変な方はこちらのリンクをご参照下さい。

 

scikit-learnを用いた機械学習の流れについては、以下の記事を参照して下さい。

AI python 機械学習 scikit-learnを使用して予測モデル(機械学習アルゴリズム)を作成し評価する
【機械学習】scikit-learnの使い方【基礎から全て解説】

続きを見る

 

Google Colaboratoryの使い方については以下の記事を参照して下さい。

Google Colaboratory グーグルコラボラトリー グーグルコラボ 使い方
Google Colaboratoryの使い方【完全マニュアル】

続きを見る

 

尚、ワインのデータセットを用いた教師なしの機械学習についてはこちらの記事をご参照下さい。

機械学習 教師なし学習 ワインの品質判定 データセット 練習問題
【教師なし学習】機械学習でワインの品質判定を行ってみよう【scikit-learn】

続きを見る

 

それでは早速学習していきましょう。

データの読み込みとデータ内容の確認

機械学習 ワインの品質判定 練習問題

skleanのライブラリから「MNIST」のデータセットを読み込みます。

 

MNISTのデータセットは典型的な画像データセットです。0から9の数字の白黒画像を表すデータとラベルがセットになっています。

 

今回はkerasのデータセットからMNISTのデータを読み込みます。

 

In[]

 

Out[]

データ数を確認しましょう。

 

In[]

 

Out[]

(60000, 28, 28)とありますが、これはデータ数(画像数)が60,000、縦横が28*28の画像があるということになります。

 

それではデータの中身を確認しましょう。以下は、画像を表示しており、5という数字が表示されているのがわかると思います。

 

In[]

 

Out[]

データの前処理

機械学習 ワインの品質判定 練習問題

今回はデータを全数使うと処理時間がかかってしまうため、データ数を削減します。

 

また、スケールを255に割ることでデータ値を0-1の間の値にします。

 

In[]

 

次元削減

機械学習 ワインの品質判定 練習問題

PCAによる次元削減

それでは次元削減を行います。まずは次元削減としては典型的なPCAを用いて次元削減を行ってみましょう。

 

基本的に次元削減をする際は、非構造データであればreshapeメソッドなどを活用し(データ数*特徴量)の形に直す必要があります。

 

In[]

 

それでは、PCAで次元削減を行います。

 

fit_transform で学習と削減をいっぺんに行う事が出来ます。

 

In[]

 

Out[]

 

次元削減を行ったので、結果を可視化してみます。

 

2次元データへ削減しているので、2次元面にプロットしてみます。

 

In[]

 

Out[]

これからクラスタリングを行いたいところですが、上の結果を見るとあまりクラスタというクラスタは見当たりません。

 

PCAによる次元削減により情報削減が行われすぎて、それぞれのデータの特徴が消えてしまっているように見えます。

 

結論をいうと、つまり非構造データに対してPCAは有効でない場合が多いです。

 

PCAの次元削減の手法については本記事での解説は省略しますが、これはPCAの次元削減の方法が原因となります。

 

TSNEによる次元削減

次にTSNEという次元削減の手法を扱ってみます。

 

PCAのように fit_transform で次元削減が行えます。(ただしTSNEはモデルという概念がなく、fitのみでモデルの作成はできません。)

 

以下、処理になりますが5分くらい時間がかかります。珈琲の時間です。

 

In[]

 

Out[]

処理が終わりましたので、結果を可視化してみましょう。

 

In[]

 

Out[]

これを見ると、PCAの時とは違いクラスタのようなものが現れているのがわかります。

 

それではこれからクラスタリングに入っていきます。

 

教師なし学習(クラスタリング)

機械学習 ワインの品質判定 練習問題

クラスタリングというと一般的にK-meansが有名ですが、K-meansはクラスタの形状として真円を前提とするため、非構造データの際はクラスタの形状を事前に確認しておく必要があります。

 

k-meansについては以下のYouTube動画が分かりやすいので参考にどうぞ。


形状を確認すると、円だけではなく長細い形状のクラスタも確認できます。

 

よってK-meansだとうまくクラスタリングできない可能性がありそうです。

 

このような時は『DBscan』というクラスタリング手法が有効な場合があります。

 

DBscanは簡単にいうと密度を元にしたクラスタリング手法であり、クラスタがどんな形であれデータが密集しているとそれをクラスタとみなします。

 

DBscanについても英語ですが、分かりやすいYouTubeがあったので参考にして下さい。


それではDBscanによりクラスタリングを行います。DBscanはsklearnに含まれています。

 

ハイパーパラメータとしては  eps,min_samples がありますが、これは『あるデータ点の距離eps内に他のデータポイントが min_samples 個以上存在するか』を全てのデータ点に対して計算し、クラスタの構成点を判断します。

 

今回はハイパーパラメータ探索は目視により行いましたので、あらかじめ設定してあります。

 

In[]

 

それでは、クラスタリングの結果とデータ点を可視化してみましょう。

 

In[]

Out[]

※ 一部省略しています。

 

クラスタリング結果の解釈

機械学習 ワインの品質判定 練習問題

クラスタリングの結果を考察しますが、ここではシンプルにクラスタ毎のデータ画像を確認してみて、それが妥当かを定性的に判断してみましょう。

 

うまくクラスタリングできているところもありますが、一部クラスタに含まれていないデータ点が存在します。

 

一旦これらは考慮せず、クラスタになっているデータのみを抜き出してみます。

 

In[]

 

Out[]

うまい具合にクラスタに分けられました。それではそれぞれのクラスタの画像を5枚づつ表示してみましょう。

 

※ 画像表示の部分にあるCluster No. の数字は画像内の数字とは関係はな胃です。

 

In[]

 

Out[]

※ 出力結果は全て表示していません。

 

さて、それぞれのクラスタの結果を定性的に確認してみましょう。

 

大部分はそれぞれのCluster No. ごとに同じ数字の画像になっていると思います。

 

これは画像のような非構造化データでもTSNEによりうまくデータの特徴を捉え、クラスタに分類できていることを意味しています。

 

ただし、同じクラスタ内に4,9、もしくは1,7など複数含まれていることがあります。

 

これは人間が見ればなんとなく違うとわかりますが、確かに画像としては似通っています。これは逆に『紛らわしい文字』であると判断できます。

 

TSNEによるクラスタリングにより、ラベルがついていないデータの大まかな分類や『紛らわしさがある』データの抽出が可能です。

 

本チュートリアルはここで終了しますが、どなたか先ほどの処理で除外したクラスタ外のデータを逆に使って『紛らわしいデータ』の抽出と考察を行って頂けると幸いです。

 

面白いと思いますが、今の僕には余力がないので、どなたかお願いします。今回は以上となります。

 

再度Google Colaboratoryで学習する際には、以下からどうぞ。

Google Colaboratory
Google Colaboratory

続きを見る

 

 

人気記事 【入門から上級レベルまで】人工知能・機械学習の学習におすすめの書籍25選

人気記事 無料あり:AI(機械学習)特化型おすすめプログラミングスクール3社


-機械学習
-, ,

Copyright© Tommy blog  , 2020 All Rights Reserved.