概要 読影レポートに分散表現手法を用いる際の前処理についての調査報告 単語分割の粒度とシンプルなクリーニングによる文書間類似度への影響について調査 質疑応答 Q: 提案のクリーニングでは文の構造が壊れそうだけど、スコアは伸びているね。 A: 今回の手法では語順は考慮していないため、影響が出なかったと考えています。 頻度を踏まえたシンプルなクリーニングのため、手法によっては影響が出るかもしれません。 その場合でも、学習データの読影レポートに目を通した経験がある上で削除フレーズを定めているため、レポートのメインの文への悪い影響も致命的ではない可能性が高いと考えていますが、今後の課題です。 Q: TF-IDFとは比べないの? A: 今回は分散表現手法での前処理の影響を見ているため、手法の比較はおこなっていませんが、以前の実験ではあまり良い精度は得られませんでした。クリーニング手法の改善により、より有効となるかもしれません。 Q: なんで医療用語辞書でスコアが低いの? A: 粒度の粗い分割(専門用語を1つの単語として扱う)だと語彙の数が増えるため、学習に対して単語の頻度が十分でなかった可能性があります。一概には言えませんが、現在、利用可能な医療ドメインのデータは充実しているとは言えないため、日本語の他のデータでも同じ傾向があるかもしれません。 Q: fastTextとDoc2Vecのスコアが開いているね? A: Doc2vecは先行研究を参考にハイパーパラメータを設定しており、fastTextはそうでないため、比較できません。(比較できない旨をポスターに記載) 今回は、分割粒度による実験結果の精度への影響をみており、両手法とも同じ傾向となっています。 所感 ・発表前は非常に緊張したが、始まってみると皆さん説明を最後まで聞いてくださり、言語処理学会年次大会に引き続き、この分野の方々の優しさを感じた。 ・アドバイスをいただくことができ、非常に参考になった ・Backgroundの項目で読影レポートについての説明を行なったのだが、一部研究内容に対してミスリーディングに繋がった表現があったので、次回以降は注意したい。 ・発表後の交流会でも発表内容についてお話させていただき、非常に参考になった。 ・非常に刺激になった。叶わないかもしれないが、是非また参加したい。 発表資料 本ページ下部に添付 |