「話題語の詳細を表す記述要素の特定要因の分析」というタイトルですが、こう書くと「記述要素って何?」となると思います。
記述要素とは「話題語」と「文」が与えられた時に、「文は話題語に関するどのような事柄を説明しているの?」というものを表現したくて考えたものです。
例えば「ローパスフィルターの役目は、モアレや偽色の原因となる細かい模様を、撮像素子に入射してくる前にある程度ぼかしてしまおうというものです」という文は「ローパスフィルタ」の「役割」について書いている、といいたいわけです。
この「ローパスフィルタ」が話題語、「役割」が記述要素にあたります。
この「役割」のような語=記述要素を、色々な(話題語, 文)の対に自動的に与えられるようにしたい。 これを最終目標に、今回は「じゃあ記述要素を付与するにはどうすればいけそうなの? 調べてみよう!」というコンセプトで分析を行いました。
方法の例は以下のようになります。 - 話題語を指定する
- 話題語を含む文を取得する
- 例:ローパスフィルタとは、センサーの出した周波数の低い数値を通し…」
- 人手により、記述要素を与える
- 例
- 入力文:ローパスフィルタとは、センサーの出した周波数の低い数値を通し…
- 話題語:ローパスフィルタ
- 記述要素:働き
- 記述要素を付与する根拠となった文中の語、フレーズを記述要素と対にして保存する
- 新たに入力した文がキーワードを含むとき、対の記述要素を与える
- 例
- 入力文:ローパスフィルターは低周波を良く通し、ある遮断周波数より高い周波数の帯域を通さないフィルタである
- 含まれていたキーワード:通す
- 付与する記述要素:働き
結果としてわかったのは以下のようなことでした。 - 文が「話題語」を詳しくする説明文か否かを求める事が、正確な記述要素付与重要な要素となる
- 平均してエラーの7~8割はこれが原因だった
- 単に「話題語」を含んでいても、その文が話題語について説明しているかどうかは別問題
- 記述要素の種類によっては、キーワードマッチと別の文の類似度を見る方法、二種類を使い分けた方がいい
- 「AKB48のコンセプト」や「個人情報保護法の理念」といった抽象的な語は、特定の語、フレーズによるキーワードマッチができない
- そもそもキーワードに当たるものが見つけられず、結果として別の記述要素のキーワードを照合して、誤った記述要素を与えてしまった
- それでも人手で記述要素を付与できたのは、事前に「....がAKB48のコンセプトである」のような文を見ていたため
- よってこのタイプは文の類似度で見た方がいい
- これは「個人情報保護法の規定」のような、当該話題語において大量の説明文が出てくるような語についても同様のことが言える
- 一方、このような誤りを除けば、オープンテストで76~80%の精度を出しており、文中の特定の語をキーワードとして扱う方法で記述要素が付与できる
- 話題語「個人情報保護法」だけオープンテストで42%の精度だったが、これは「利用」というキーワードが極端に照合誤りを出していたためであり、それを除けば精度は良い
|