勝田 哲弘‎ > ‎学会総括‎ > ‎

言語処理学会第25回年次大会

発表タイトル 分散表現:単語分割の変化による影響調査


研究概要

複数の異なる単語分割されたコーパスで分散表現を学習し、どのような傾向があるのかを調査した。
形容詞、副詞はある程度荒い分割のほうが学習には有利になるのではないかという結果となった。

質疑応答

全体として質問より感想的なコメントが多かった。
  • 荒い分割は要するに文節単位で学習するということ?
    • そのように解釈してもらって問題ない
  • fastTextを使うと分割による変化が見づらくならないか?
    • 今回は単語分割を変えた際の出現頻度の影響が最も強いと考え、それを緩和することを目的としてsubwordモデルを使用した
    • subwordモデルで結果に明らかな違いが出ているため、
  • 最小単位に分割するならkyteaの方がよいのでは?
    • 今回は試していないがツールによる違いを見てみたいと思います
  • そもそも分散表現ってなに?
    • 単語ベクトルの集合

発表に関する所感

極力データをメインに見せようとしていたため、研究背景などがなく、分散表現の知識がない場合に研究の目的や貢献がなかなか理解されないという場面があった。
自分の主張を伝えるための必要最低限のデータを示すなど工夫が足りないように感じた。


興味を持った研究

B5-1 ありがちでない歌詞生成に向けた曲調と歌詞の関係に基づくベクトル空間モデル
渡邉研斗, 後藤真孝 (産総研)
曲調と単語の共起に傾向があるため、skip-gramで学習可能
共起単語と曲調を分散表現に埋め込む

P2-2 単語分散表現に基づいた誤差によるニューラル機械翻訳の学習
帖佐克己, 須藤克仁, 中村哲 (NAIST)
loss関数をcross-entropyでなく分散表現による距離を用いた研究 [0,0,0,1,0,0,...,0] -> [4,6,2,1,3,7,...,10]
最初はcross-entropyで学習しないとlossが収束しない
未知語に強い学習ができる

P8-1 教師なし文法誤り訂正
勝又智, 小町守 (首都大)
教師なしSMTによる文法誤り訂正
自然な日本語のコーパスと日本語学習者のコーパスで学習されたそれぞれの分散表現を1つにマッピングし、コサイン類似度でしきい値を設けることでフレーズテーブルを作成
SMTの出力を言語モデルで脚切りしてそれを参照文として新たなSMTを学習する

P8-5 複数粒度の分割結果に基づく日本語単語分散表現
真鍋陽俊 (ワークス), 岡照晃 (国語研), 海川祥毅, 髙岡一馬, 内田佳孝 (ワークス), 浅原正幸 (国語研)
複数の分割単位を含むコーパスで分散表現を学習
より固有表現のカバー率を高め、複数タスクで精度の良い分散表現を獲得できる
Comments