辞書に記載されていない単語が含まれるテキストは人間によって整備されてない未踏テキストと呼ぶ。 これらのテキストから未知語既知語を問わず、ある単語とその関連語が対となった関連語リストを未踏テキスト用シソーラスとして自動的に構築することを試みる。 問題定義 従来のシソーラス構築には、テキストから単語を切り出す工程から辞書が用いられている。例えば形態素解析器「茶筅」など。 未知語が出てくるたびに辞書に登録するのは手間がかかるし、未知語に対応するため辞書が膨らみ大容量の記憶媒体が必要になる。 一方シソーラス構築には計算コストがかかるため、
という二つの条件のもとでシソーラスを構築する。 関連語の定義 関連語の判定には、前後に同じ文字列を持つ、テキスト中で同じように使用される単語とする。 シソーラス構築処理の流れ 単語の切り出し このシステムでは単語の切り出しに辞書を用いない。そこで既存の未踏テキスト中のキーワード抽出システムを利用する。 このシステムは辞書を用いずテキスト中から概念を示す単語を頻度情報だけで切り出す。 候補の単語対の絞り込み CFIDFで絞りこみ 判定 単語の前後にある文字列が一致するかで判定 評価 単語前後の文字列が何文字まで一致しているかを変化させることで精度が変化した。 5文字の一致で90%以上の精度が出せた。 |