小学生のための新聞読解支援に向けた重要語抽出の検討

小林健(香川大学大学院工学研究科)
久保恵津子(香川大学工学部)
安藤一秋(香川大学工学部)

1.小学生に説明すべき重要語を抽出する

2.NIE実践校へのインタビュー
  • 新聞は難しい表現や単語が多く分かりにくい。
  • 多くの児童が新聞を探すことすら難しい。
  • 教師の負担(記事選択等)が大きい。
  • 新聞記事に関連する写真やグラフがほしい。

3.読解支援システム
  • 重要語に対する自動説明付与
     → 記事中の重要語に対して、簡単な説明を自動で付与する機能
  • 記事に関連する数値データや写真の提示
     → 小学生が新聞をより深く読み進めるために必要なグラフや図などをWeb上から探し出して提供する機能
  • 複数の新聞記事の比較
     → 同じ内容を扱う他の新聞社の記事を提示し、読み比べを支援する機能

4.重要語の抽出
  • 難易度:記事中に出現する単語の難易性を推定した指標
     → 親密度と抽象度を用いて推定
  • 専門度:単語の専門性を表す
    • FLR:単語の連接頻度を利用
       → 多くの複合名詞を構成している語が専門用語であるという仮説に基づく
    • MDP:対象分野のコーパスと、他の分野のコーパスにおける単語の出現率の差を利用
      • MDPの計算に用いるコーパスは、よみうり博士のアイデアノートと読売新聞社のカテゴリを参考に、次の10分野に分類。
        • 社会、スポーツ、政治、歴史、教育、国際、科学、環境、経済、情報。
        • 記事の分類には、コンプリメントナイーブベイズを利用。

5.評価
  • 専門度の計算にFLRを用いてもMDPを用いても、難易度のみで単語を抽出した場合との差があまりない。
     → 専門性と難易性という概念そのものに共通している部分が多く含まれていたためだと考える。
  • 今後は、単語の主題との関連度(重要度)に焦点を当てて単語を抽出する手法を検討する。
     → 重要度:難易度との関係が薄く、異なる概念であるため、抽出性能の向上が見込まれる。

Comments