Q. Le and T. Mikolov, “Distributed Representations of Sentences and Documents,” in Proceedings of the 31st International Conference on Machine Learning, 2014, vol. 32. Paragraph Vector による文書類似度(Distributed Representations)の提案 MilkovのICLR2013(word2vec)の続編word2vec を 段落単位までに拡張し、意味解析のタスクに適用後、誤り率の改善を確認した。 基本的な構成はword2vecと同じで単語予測モデルをもとにParagraphモデルを拡張。 PV-DM, PV-DBOWモデルの2種を提案している。 アルゴリズム: 基本: word2vec + text window(5~12のサイズ) → 文脈を考慮したベクタ > BoW BoWでは文脈が考慮できなかったが、PVではconcatenate操作により文脈が考慮できるにようになった。 PV-DM: 文脈単語予測モデル ベース PV-DBOW: 文脈からの単語分布予測モデル( Vocab次元[数十万]→400次元まで落とされている) 実験1(単文), 実験2(複文): 映画のレビュー文書をみてのポジティブ、ネガティブ判定 実験3(IR): IRによる実験 いずれでも誤り率の改善がみられた。 補足: Bigram NaiveBays系統がなかなか優秀である(コストの割に) 時間コスト: 学習フェーズでデータ量*3、windowサイズの最適化で8倍 →コストはかなり高い(テストフェーズは並列可能) 参考文献: http://www.slideshare.net/nishio/distributed-representation-of-sentences-and-documents |