データクラスタリング

データクラスタリングとは

  • お互いに関連しているもの同士、人々の集団、アイデアのグループなどを発見し、可視化するための手法
  • さまざまな内部構造を持つ大規模なデータを扱うようなアプリケーションで頻繁に利用される
例:顧客の購買履歴を追跡している小売業者
    購買履歴を用いることで一般的な購買層に関する情報に加え、同様の購買パターンを持った顧客のグループを自動的に発見できる。
    同じような収入、同じ年代の人々でも服のスタイルには大きな違いがある。クラスタリングを小売の戦略決定に生かすことができる。

教師あり学習・教師なし学習

教師あり学習:予測の方法を学習するときに、見本となる入力や出力を使用する
       入力セットと期待されている出力を分析することで"学習"を行う
       (例)ニューラルネットワーク、決定木、サポートベクトルマシン、ベイジアンフィルタ など
教師なし学習:模範解答によって訓練されるものではない
       どのデータも正答であるとはいえないようなデータセットの中から構造を探し出すことを目的とする
       (例)クラスタリング

階層的クラスタリング

  • 最も似ている2つのグループをまとめることを繰り返して、グループの階層を作り上げる
  • 下の図の場合は、まずAとB、次にABとC、続いて、DとE、最後にABCとDEという順で全体が一体になる

K平均法

  • 生成するクラスタの数をあらかじめ決めておくことができる
  • ランダムにk個の重心を配置して、すべてのアイテムを最も近い重心に割り当てる
  • 割り当て後、重心はその重心に割り当てられた全ノードの平均の場所に移動し、再度割り当てを行う
  • 以上を、割り当ての変更がなくなるまで繰り返す
  • K平均法は階層的クラスタリングよりも計算量が少なく、処理が速い

参考文献
        Toby Segaran著, 當山 仁健, 鴨澤 眞夫訳, (2008) 『集合知プログラミング』 オライリー・ジャパン


Comments