- 機械学習の流れ:「個」から「つながり」へ
- ネットワーク構造のデータが急速に増加する。
- ネットワーク構造データの解析手法を基本的な考え方
- ネットワーク構造データ解析の世界観
- ネットワーク構造の種類
- 解析の注目点
- 組み合わせによって、ネットワーク構造データ解析は4通りに分けられる
- 内部ネットワークと外部ネットワーク
- 内部ネットワーク
- 注目する単位を構成する要素の間のつながりを示す
- 例:ドキュメントを単位とすると、文と文のつながりは内部ネットワークである。
- 外部ネットワーク
- データとデータの間の関係である。
- 例;ドキュメントを単位とすると、分類、カタログ化などの関係は外部ネットワークである。
- 個々のデータとデータ間の関係
- 個々のデータ
- データの形式こそことなるものの
- 過去~現在のデータに基づき、未来のデータについて予測する
- データ間の関係
| 内部ネットワーク | 外部ネットワーク | 個々のデータ | 構造分類 構造ラベリング | ノード分類 ノードクラスタリング | データ間の関係 | 内部ネットワーク構造予測 | リンク予測 構造変化解析 |
- 機械学習におけるモデル化の基本的な考え方
- 生成モデル
- データの発生過程を表しているモデル
- 正規分布モデル
- 混合分布モデル
- 判別モデル
- 予測のためのモデル
- あるデータxとしたとき、そのデータのもつ性質yを予測する
- P(y|x)を推定する。
- モデル推定の方法:(詳しくは、「言語処理のための機械学習入門」という本をお勧めします)
- 内部ネットワークの解析手法:
- カーネル法
- 2つのデータの類似度を定義されているカーネル関数
- 利点:
- 特徴ベクトルの次元が非常に高いでも内積で効率で学習できる。
- 適切なレベルの表現力をもった部分構造と、効率的な計算アルゴリズムの設計の両者のバランス
- パターンマイニング法:
- 全体のデータを使わずに、部分構造だけ使う。
- 部分構造は、全体のデータの特徴を持っている必要がある。
- ノード分類:(自分の深く関心ある)
- いくつかのノードについてクラスラベルが与えられたときに、クラス未知のノードのクラスラベルを予測する
- 最も簡便な方法としてはラベル伝播法
- 「ネットワーク上で隣り合ったノードは同じクラスに属する
- 各ノードの特徴ベクトルは与えられておらずネットワーク構造のみを利用して予測すること
- ネットワークの確率モデル:より厳密なモデル化
- ラベル伝播法:複数のラベルと接続するノードをどう決めるのか
- 関係マルコフネットワーク(RMN)
- マルコフロジックネットワーク(MLN)
- 指数ランダムグラフモデル(ERGM)
|
|