データクラスタリングとは
- お互いに関連しているもの同士、人々の集団、アイデアのグループなどを発見し、可視化するための手法
- さまざまな内部構造を持つ大規模なデータを扱うようなアプリケーションで頻繁に利用される
購買履歴を用いることで一般的な購買層に関する情報に加え、同様の購買パターンを持った顧客のグループを自動的に発見できる。 同じような収入、同じ年代の人々でも服のスタイルには大きな違いがある。クラスタリングを小売の戦略決定に生かすことができる。
教師あり学習・教師なし学習
教師あり学習:予測の方法を学習するときに、見本となる入力や出力を使用する 入力セットと期待されている出力を分析することで"学習"を行う (例)ニューラルネットワーク、決定木、サポートベクトルマシン、ベイジアンフィルタ など 教師なし学習:模範解答によって訓練されるものではない どのデータも正答であるとはいえないようなデータセットの中から構造を探し出すことを目的とする (例)クラスタリング
階層的クラスタリング
- 最も似ている2つのグループをまとめることを繰り返して、グループの階層を作り上げる
- 下の図の場合は、まずAとB、次にABとC、続いて、DとE、最後にABCとDEという順で全体が一体になる
K平均法
- 生成するクラスタの数をあらかじめ決めておくことができる
- ランダムにk個の重心を配置して、すべてのアイテムを最も近い重心に割り当てる
- 割り当て後、重心はその重心に割り当てられた全ノードの平均の場所に移動し、再度割り当てを行う
- 以上を、割り当ての変更がなくなるまで繰り返す
- K平均法は階層的クラスタリングよりも計算量が少なく、処理が速い
参考文献 Toby Segaran著, 當山 仁健, 鴨澤 眞夫訳, (2008) 『集合知プログラミング』 オライリー・ジャパン
|
|
|