自然言語処理シンポジウム (NL研/NLC研) 総括
会議の概要
会議名: 自然言語処理研究会(IPSJ-NL) / 言語理解とコミュニケーション研究会(IPSJ-NLC) 共催 時: 2016年12月21日 - 2016年12月22日 場所: NTT研究所 武蔵野センター
発表プログラム
音声情報処理研究会(IPSJ-SLP)とも共催.
発表内容
質問
- ベースラインを事前並び替えしたものは比較しなかったのか?
今回の目的は機械翻訳における欠落語の影響度を調査すること。 並び替えをすれば性能が向上すると考えられるが、それと比較することに大きな意味があると 感じない
- 日英の翻訳タスクの場合 英 → 日の翻訳を行ってデータを追加することでパラレルコーパスを作ることも考えられるが その手法と比べたときの利点.
- 欠落語の検出 -> 機械翻訳の問題と問題を分解できること. それぞれ別のモデルを構築できる点が利点
よくよく考えると, データ量を増量する点については効果があると思われるが 欠落語の問題が解決できるかと考えるとかなり微妙に思われる.
欠落語の問題は そもそもその語彙の概念が原言語側が表層的にないこと そのような翻訳を行ってもモデルは単語を表層的に消すことを学習するのではないだろうか? 加えて欠落語が明示的に訳されるとしても それを翻訳モデルが学習したところで, 欠落語が明示的にある文が翻訳できるようになるだけではないか?
欠落語の問題の本質的な所は, 単語の生成の問題をはらんでいることである しかもこの語らは基本的に原言語側には存在しない語である。
研究会報告
表彰
IPSJ-NL研 では 目安としては10件に1件.
今回は2件が表彰.
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
○大内啓樹・進藤裕之・松本裕治(NAIST)
取り組んだタスク: 日本述語項構造解析
手法: 3次元構造グリッド型の提案
述語項の間の関係性も考慮できるようにしたモデル
→述語項と述語項のそれぞれの埋め込み表現層の間も連結を行っている
結果:
発表中には、出力の変化の具体例が詳細に分析されていない(論文にもなし) 述語項
と述語項の埋め込み表現層の間も連結を行う
性能としては 文内ゼロ(複雑な構造の情報を必要とする)が前のNNモデルより良くなっている i.e. ガ格(51.57 -> 38.6), ヲ格(35.13 -> 38.06), ニ格(8.90 -> 9.40)
- NNモデルを導入するとヲ格のF値がかなり向上しているのには驚き (モデル化しづらい構造関係が獲得できているのかも知れない. それでも基本的には)
- ニ格に関してはデータの問題が大きいと思われる(アノテーションが揺れている)
審査員からのコメント:
○:述語項構造解析器の性能がちゃんと向上している
○:コード公開している
疑問点: 向上した数値の感覚が捉えづらいと感じた。 次にどうやって繋げるのかが少々難しいと感じる
平易なコーパスを用いないテキスト平易化のための単言語パラレルコーパスの構築
○梶原智之・小町 守(首都大)
取り組んだタスク: 平易化コーパスの構築 + 平易化モデルの構築 手法: 単言語コーパスから平易化コーパスの構築 - Readabilityによって 文単位の難易度が判別できる → 簡単な文と難しい文が分けられる
簡単な文と難しい文の集合から単語類似度を使ってパラレルコーパスを作る
SARIではSimple English Wikipediaのコーパスと同程度まで達成している
審査員からコメント: 非言語依存の平易化コーパスを作ることは難しいためこの手法は画期的
疑問点: 出力よりもフレーズテーブルの獲得規則が気になる ノイズは相当多いが網羅的に色々な言い換え規則は作れそうである. ただ変な言い換え規則になるものもあると思うので, そこは分析して欲しいと思う
論文見てる限りだと、コーパス構築のあたりが かなり重たい処理(文数に対して指数的に計算量が増加しているように見える)をしているため 2部マッチ最大化アルゴリズム等などを使えばもう少しまともな速さにはなりそう