Distributed Representations of Sentences and Documents

Q. Le and T. Mikolov, “Distributed Representations of Sentences and Documents,” in Proceedings of the 31st International Conference on Machine Learning, 2014, vol. 32.


Paragraph Vector による文書類似度(Distributed Representations)の提案

MilkovのICLR2013(word2vec)の続編word2vec を 段落単位までに拡張し、意味解析のタスクに適用後、誤り率の改善を確認した。

基本的な構成はword2vecと同じで単語予測モデルをもとにParagraphモデルを拡張。
PV-DM, PV-DBOWモデルの2種を提案している。

アルゴリズム:
基本: word2vec + text window(5~12のサイズ) → 文脈を考慮したベクタ > BoW
BoWでは文脈が考慮できなかったが、PVではconcatenate操作により文脈が考慮できるにようになった。
PV-DM: 文脈単語予測モデル ベース
PV-DBOW: 文脈からの単語分布予測モデル( Vocab次元[数十万]→400次元まで落とされている)

実験1(単文), 実験2(複文):
映画のレビュー文書をみてのポジティブ、ネガティブ判定

実験3(IR):
IRによる実験

いずれでも誤り率の改善がみられた。
補足: Bigram NaiveBays系統がなかなか優秀である(コストの割に)

時間コスト:
学習フェーズでデータ量*3、windowサイズの最適化で8倍
→コストはかなり高い(テストフェーズは並列可能)

参考文献:
http://www.slideshare.net/nishio/distributed-representation-of-sentences-and-documents
Comments