NLP若手の会第8回シンポジウム

東京大学で開催されたNLP若手の会第8回シンポジウムに参加して来ました。
私は「小学生の読解支援に向けた語釈文から語彙的換言を選択する手法」という題目で発表させていただきました。
概要を簡単にまとめたいと思います。【原稿概要ポスター映像

語彙平易化

大人が使う難しい言葉を、小学生向けの簡単な言葉に言い換えます。
今回は新聞記事を対象に実験を行いましたが、新聞記事には年間約20万種類の単語が出現すると言われています。
一方、小学生向けの小学国語辞典に登録されている単語というのは約3万語で、辞書を片手に読んでも小学生が新聞を理解するのは難しいと考えられます。
小学国語辞典に登録されている語彙は約3万語ということですが、当然ながら小学生はこの3万語を全て理解できているわけではありません。
小学生が使いこなせる語彙としては、約5千語の学習基本語彙というものが定義されています。
私の研究は、新聞に出現する20万語を、小学生が使いこなせる5千語に変換しようというものです。

提案手法

難しい単語から簡単な単語に変換するための手掛かりとして、国語辞典を使います。
難しい単語を国語辞典で調べると、定義文に色々と解説があります。
例えば、「教授」という語を調べると、「勉強を教える人」とか「大学の先生」とかって定義文が得られます。
この定義文の中から、「教授」と一番似ている単語を探して、「教授→先生」と言い換えます。
国語辞典では、基本的に定義文には見出しよりも簡単な語で説明がなされています。
そこで、難しい単語で国語辞典を調べて、定義文の中から言い換え先の語を探すことで、平易化しつつ言い換えることができます。
また、一番似ている単語を探す処理には、日本語WordNetという語と語の関係を定義したものを利用します。
日本語WordNetを使うと、「教授」と「勉強」がどのぐらい似ているか、「教授」と「先生」がどのぐらい似ているか、という意味の近さを数値で計ることができます。
国語辞典と日本語WordNetを組合せることで、「教授」という語の説明に必要な語の中から、「教授」と一番似ている語を見つけ、「教授→先生」と平易化しつつ言い換えることができます。

実験結果

新聞には20万種類の単語が使われると言いました。
また、小学国語辞典には3万語しか載っていないとも言いました。
そこで、大人向けの国語辞典など複数の国語辞典を組合せて実験を行いました。
3種類の国語辞典を使い、計27万種類をカバーできるようにして実験を行いました。
小学国語辞典を使って言い換えを行った場合は、ほとんど一回の言い換えで小学生が使いこなせる5千語へ変換することができますが、大人向けの国語辞典を使った言い換えでは、一度の変換で小学生が使いこなせる語に変換できるとは限りません。
変換を繰り返すほど単語の意味が少しずつ離れてしまうのですが、小学生が使いこなせる5千語に変換できるまで言い換えを繰り返し行なったところ、難しい単語の約7割については、上手く簡単な単語に変換することができました。

Comments