【学会】NLP2016

年次大会 参加報告

受賞 発表一覧

最優秀賞

  • 分散表現による文脈情報を用いた選択選好モデル 大野雅之, 井之上直也, 松林優一郎, 岡崎直観, 乾健太郎 (東北大)
  • 単語分散表現獲得法の縮約モデリング 鈴木潤, 永田昌明 (NTT)

優秀賞

  • 複数の事前並べ替え候補を用いた句に基づく統計的機械翻訳, 小田悠介 (NAIST), 工藤拓, 中川哲治, 渡辺太郎 (グーグル)
  • 現代日本語における節の分類体系について, 丸山岳彦 (国語研), 佐藤理史, 夏目和子 (名大)
  • 談話内における局所文脈の動的分散表現, 小林颯介, 田然, 岡崎直観, 乾健太郎 (東北大)

若手奨励賞

  • 分散表現を用いたニュース記事の重複排除, 大倉俊平, 田頭幸浩, 田島玲 (ヤフー)
  • 翻訳教育での利用を意識した翻訳エラー分類体系の再構築, 豊島知穂 (関外大), 田辺希久子 (神戸女学院), 藤田篤 (NICT), 影浦峡 (東大)
  • 上位語・下位語の射影関係とそのクラスタの同時学習, 山根丈亮 (豊田工大), 高谷智哉, 山田整 (トヨタ自動車), 三輪誠, 佐々木裕 (豊田工大)
  • 句構造へのアテンションに基づくニューラル機械翻訳モデル, 江里口瑛子, 橋本和真, 鶴岡慶雅 (東大)
  • Factorization Machines を用いた未知の固有表現分類, 平田亜衣, 小町守 (首都大)
所感

全体的な動向:
  • Deep Learningの台頭
    • 賞を受賞された論文の半分ぐらいが DL に関するもの
    • 様々な知識を 計算機にとって柔軟で 共通の枠組みで 取り扱えるようになった
      • 音声・自然言語処理・画像の垣根が簡単に越えられようになった
      • 作ったモデルの実験環境(企業依存など)が再現しづらいし,  なぜ うまくいっているのか分析しづらい
        • Attentino-based は 一つの手がかり (NNの意志決定する際の手がかり)
        • GAN(Generative Adversarial Network) の話は面白そう
          http://qiita.com/sergeant-wizard/items/0a57485bc90a35efcf26
      • ハイパパラメータチューニングの試行にすごい時間がかかる
        • データ資源と計算資源の差により
    • No free lunch(美味しいタダ飯は無い)は忘れない

  • 自然言語処理(人工知能/機械学習)バブル
    • NLP2013(白:3社, 金:8社, 銀:8社)
    • NLP2014(白:2社, 金:10社, 銀:13社)
    • NLP2015(白:7社, 金:12社, 銀:10社)
    • NLP2016(白:15社, 金:12社, 銀:10社, 冠:4社) 

    • 色んな企業に話を聞いていた企業の求人イメージ
      • 優秀な自然言語処理 人材 とは
        • 分析 → 仮説 → 検証 → 報告のサイクルが回せる人
        • 機械学習(データ分析)に対する理解があり それを使える人
          • 自分で機械学習手法を実装できるならなおのことよし
        • データ構造/アルゴリズム に対して知識があり, プログラムを書ける人
        • 線形代数/確率統計(数学)が明るい人

      • 自然言語処理 人材 とは
        • マエショリスト (日本語のテキスト処理は大変である)
          • mecab の 辞書整備ができる人
        • word2vecを知ってて使える人
        • TF-IDFが使える人
        • 文書分類ができる人

    • 企業に着目していただいている = チャンス
      • 宝くじに当たったと思って, 機会をどんどん使ってみると良い(2〜3年で減ると思う)
        • インターン, アルバイト, 会社見学 etc...
      • 企業が期待する知識が以外と低い場合が多い  ので 自信をもつ。気圧されない。
        用語が飛ぶと混乱するので 一つ一つ確認しながら進む 
        • インターンやアルバイトしながら成長すればよい (完成された能力を持つ必要は無い)

    • ゴールドラッシュの時代(金が大量に投入される)
      • スコップを売る エンジニアになろう(うまいビジネスサイクルを探してみる)
        • ツールを作る
          • 英語のツールを日本語にマイナーチェンジできても有用 (研究的には面白くないかもしれないが)
          • 見通しの良いツールを作る = ドキュメントを充実させる
        • 言語資源を作る
各種所感
  • 本会議
    •  顔文字の原形抽出, 奥村紀之 (香川高専)
      • 言語のシンボルの形象に着目した言語処理 (OCRに似たイメージ) の研究が少ない気がする
        • 顔文字, 絵文字
        • ネットのスラング
    • 現代日本語における節の分類体系について, 丸山岳彦 (国語研), 佐藤理史, 夏目和子 (名大)
      • 年次大会 優秀賞
      • ここにおける節とは文節ではなく, 文節より大きく文より小さい単位のもの.   述語を中心とした各まとまり
        • 例)  雨が降って 遠足は中止になった。  [論文中より抜粋]
      • 述語項構造解析といった解析の基礎となる重要な研究
      • 問題となるのは並列節の取り扱い.  例) 太郎は休んだが、花子は休まなかった。 [論文中 (2d)] 
      • 太郎は 昨日大学中で噂になったニュースについて 日記を書いた
    • 対話システムの盛り上がり 
      • チュートリアル
      • りんな:女子高生人工知能,  呉先超, 伊藤和重, 飯田勝也, 坪井一菜, クライアン桃 (マイクロソフト)
      • etc ...
    • 上位語・下位語の射影関係とそのクラスタの同時学習. 山根丈亮 (豊田工大), 高谷智哉, 山田整 (トヨタ自動車), 三輪誠, 佐々木裕 (豊田工大)
      • 年次大会 若手奨励賞 受賞
      • 下位語 → 上位語 を射影として見る
        • 知識の背景の隠れた関係を見ようとすること(あるもの見るのではなく あるものの背景の空間を見る)
    • 情報検索のための単語分割一貫性の定量的評価  高橋文彦, 颯々野学 (ヤフー)
      • 形態素解析に対する(情報検索に基づく)新たな評価指標の議論
    • Zero-shot learning による言語生成 の話が 興味深い(お茶大の方々が近年されている)
      • 「右手を下げる or 挙げる, 左手を挙げる」 といった知識があるときに「左手を下げる」といった文をどうしたら生成できるようになるのか?
      • 似た技術に グラフ伝播学習(本質的には同じこと)
      • 似たものに one-shot learning. (画像の例えで言うと, ウサギの画像1枚見ると, どんなウサギの画像もウサギと認識できるようになること)
  • ワークショップ「論文に書かない/書けない自然言語処理」
    • 非常に良かった.(一番密度が高かった). 
      研究の種がゴロゴロと転がっていそう. 

    • グノシーにおける不適切なコンテンツフィルタリングに対する取り組み (久保光証 (Gunosy))
    • ソーシャルメディア分析サービスにおけるNLPに関する諸問題について (榊剛史, 水木栄 (ホットリンク))
      • 辞書整備の問題
      • ルールベースで頑張る世界
        • EMNLP2015 の Transparent Machine Learning For Information Retrieval を思い出した
    • 研究室における研究・実装ノウハウの共有 (岡崎直観 (東北大))
      • Tipsを共有する時間をつくること
    • 世界一の日本語の自然言語処理とは? (永田昌明 (NTT))
      • 参入障壁に守られている日本語自然言語処理

ポスター発表におけるまとめ

@inproceedings{2016,
author = {竹野, 峻輔 and 永田, 昌明 and 山本, 和英},
booktitle = {言語処理学会 第22回 年次大会},
file = {:Users/alrescha/Dropbox (個人)/Documents/Melendy/言語処理学会 第22回 年次大会/2016 - 竹野, 永田, 山本 - 同一指示PROを考慮した空範疇検出性能の評価.pdf:pdf},
pages = {453--456},
title = {{同一指示PROを考慮した空範疇検出性能の評価}},
year = {2016}
}

研究概要

日本語の文書では主語などの省略現象が頻繁に発生する. これらは質問応答,自動要約,機械翻訳といった言語処理の応用タスク上に大きく影響を及ぼすことから, 省略検出を高精度を達成することは日本語の言語処理の基礎を築く上で重要である.
しかしながら, 現状では実用に足るだけの十分な性能を達していない.

従来の日本語の省略検出は, 述語項構造解析の部分問題として, 省略検出とその照応先の同定を同時にすることが多い(Omura et al, 2015). 他方で, 日本語と同様に文中の省略が多く発生する中国語では, 省略検出は句構造構文解析の部分問題として取り扱われることが多い. この問題は空範疇検出と呼ばれ, 研究が進められている(Xiang et al, 2013).

中国語と同様に日本語でも, 欅ツリーバンク(Butler et al, 2012b)と呼ばれる日本語句構造ツリーバンクの の開発に伴い, 句構造構文解析の部分問題として, 照応先の同定を伴わずとも省略検出に取り組めるようになった. 我々の先行研究(Takeno et al, 2015)においては, 欅ツリーバンク中に含まれるゼロ代名詞pro(small pro)と 名詞句の移動の痕跡を表すT(trace)に関する空範疇検出手法の提案を行った.

この先行研究の問題点に, 空範疇の同一指示ゼロ代名詞PRO(big pro)の検出性能の評価を行うことができていない点がある. これは欅ツリーバンクのアノテーション方針からPROが非明示的であるためである. その同定方法については, (Butler et al, 2015)により既に提案されている. そこで我々は, 同一指示ゼロ代名詞PROを考慮した日本語の空範疇検出の性能を再評価した. これに加え, 現存の述語項構造解析器と我々の空範疇検出手法についてその省略検出性能の比較・分析したのでこれを報告する.

補足情報

質疑応答

  • 機械翻訳や照応解析までを通した実験については行う予定か?
    • その結果については先行研究(Chung and Gildea, 2013)で, 多言語(英中韓)で示されてるため日本語で試しても貢献は低いと考える,
    • しかし, 現状の日本語の述語項構造解析の流れは, 疑問に思うところもあるため比較することには意味はある. 前向きに検討したい.
  • 実験条件が SynCha・KNP vs. 提案手法としたときSynChaやKNPに不利な実験設定になっていないか? たとえば 照応解析まで行っているので照応先などの情報がある.
    • 今回の目的は省略解析のみに焦点を当てているので, 省略解析だけの結果について評価が行えるようにしている.
    • 具体的には SynChaでは照応先の一致/不一致の情報は評価の際に考慮していない. SynCha側はガ格・ヲ格・ニ格のそれぞれに対して直接係り受け/文外(文間)照応/文内照応の3値をあてる問題になっている.
    • その上で, 省略されていることが当てられるか否か という問題を通してこれを見たとき, SynChaやKNPはうまく当てられないということが多い というのが本論での結論の一つである.

反省

聴衆の興味としては前半よりも後半の省略解析における比較についての興味が高く, その部分について注視した原稿を作成すべきだと感じた. 同一指示PROの話については, 別の論文でも取り扱っても良かったように思う.

Comments