機械学習を用いたニ格深層格の自動付与の検討

研究概要


意味情報を正確に把握する上で、深層格は重要な役割を持っている。
・ボブ が 窓を 割る.
・ボブ に 窓が 割られる
・ボブ に 窓を 割られる
これら3様の例文について考えてみると,どれも同様の状況を表しているにもかかわらず
動作主であるボブや対象である窓について伴う助詞が異なっている.
人間にとっては理解することに何ら問題を伴わない文であるが計算機にとってはそれが非常に難しい.
正しく計算機に把握させるためには
,文の中心的な意味である用言(この場合は【割る】)について
それに伴う名詞がどのような役割を持つか(【ボブ】が【割る】にとってどういう役割であるのか)を正しく推定する必要がある.
これを深層格と呼ぶ.

本研究で取り扱う二格深層格の自動付与とは
二格(○○に)に対し名詞と動詞の役割関係を計算機に判別させることである.

先行研究において,松田らはBCCWJから
抽 出したニ格を含む文に対し, 既存の深層格リストの 妥当性について検証を行った.その結果,既存のリスト にはない深層格やほとんど出現しない深層格などが見 られた.
そして深層格の自動付与のため,深層格リスト の選定を行う必要があることを示した.
本研究では,それらに引き続きBCCWJ・京大テキストコーパス・Web日本語Nグラムの3種類の大規模コーパスを用いて
深層格の自動付与の検討を行った.

発表まとめ

発表資料(NLP2014 D6-2にて発表):



質問内容:
加藤先生(東大)
    Q. 素性(後続の用言)受け身かどうか、態の情報は使っていないのか
     れる、られるを見ると、対象にはならないのではないか
    A. れる、られるが効くのは主に動作主の深層格ではあるが
    可能の意味でも使われることがあるため、素性として高いTFIDFを持たないと考えられます。
   
  Q. TFIDFが効かないのは、学習器がうまく学習できていて、どんな素性を入れても悪さがないということか(よく出るものが訓練データ中にもよく出ている)
        そうです。

橋本さん(東大)
    Q. コーパスの組み合わせは試していないか
        時間の関係で試していない
    Q. コーパスの性格は大きく異なるのか
    異なる。具体的には
          BCCWJ:いろいろなソースから
          京大:新聞情報
          Web日本語Nグラム:Webデータ、高頻度順
   従い、学習データとして扱った場合でもかなり異なると考えられる。

佐々木先生(茨城大)
    Q. 二格の分布の傾向は見ているか?
    低頻度の深層格では若干の傾向が異なるものの、コーパスごとに分布の傾向はほぼ一致。


補足情報

本研究は,
文脈依存の意味情報を判別する機能表現抽出WEBシステムの開発と運用実験
https://sites.google.com/a/jnlp.org/matsuda2013/home
の一環で行われており,二格のタグ付けコーパス以外にもガ・デ・ノ格のコーパスを上記で公開している.


自己評価

研究としての面白さを伝え切れていない部分があることから技術力は向上したものの,研究力が向上したとはいい難い.
何度も指摘されているとおり,早口である癖が治っていない.
早口でもわかり易い発表の仕方を考えるのも一つの手である.


BibTex


@article{2014,
author = {竹野, 峻輔 and 松田, 真希子 and 梶原.智之 and 山本, 和英},
journal = {言語処理学会 第20回年次大会 発表論文集},
pages = {1011--1014},
title = {機械学習を用いたニ格深層格の自動付与の検討},
year = {2014}
}