NLC2013 質問意図によるQAサイト質問文の自動分類

研究概要
回答者が自分の答えられそうな質問を見つけるための支援として、質問文を質問者の意図毎に事実、根拠、意見、提案、経験の 5 種類に自動で分類する方法を提案した。
自動分類はキーワードと、語の頻度を使ったスコアとそのスコアを正規化したものを使った3つの手法で行った。
その結果、根拠や提案の質問は他の種類の質問にはみられない表現があるため分類はしやすいが、事実や意見では他の種類の分類にはみられず、その種類の質問全体でられるような表現がないため分類が難しいことがわかった。

補足

質疑応答
Q:複数の質問を含む質問文はどのぐらいあったのか
A:10%未満
Q:複数質問を個別に分けることは簡単か、また個別に分けることができれば分類は可能か
A:最初に質問が○個あります、1.~ 2.~ のような質問は簡単
 文章になっていて、途中でいくつか質問が出てくるものは難しい
 分けることができるなら他と同じように分類は可能
Q:もし回答も見ているのであれば、質問意図と違う回答というのはどれぐらいあったか
A:見てない
Q:事実以外に誤って分類されてしまったものは、どういう語が原因で誤分類されていたのか(キーワードに入っているような語が悪さをしているか否か(大塚)
A:大体キーワードとして設定しているような語はなく、スコアの低いもののみで構成されている。
Q:このセッションで最初の発表であった談話時の分類にも使えるかどうか
A:文章が分類されているデータがあれば、それを使って分類は可能

自己評価・反省
明らかに準備不足だった。
発表も20分中15分ほどで終わってしまい、若干早口になってしまったのもあると思うが、もう少し内容を増やしたり、詳細に説明すべきだった。
質疑応答でも同じことを何度か言ってしまっていたと思うし、最初の発表に関する質問をされたが、最初の発表が全然頭に入ってなかったのですぐに答えることができなかった。
Comments