研究室‎ > ‎卒業生のみなさまへ‎ > ‎岩瀨 大吾‎ > ‎論文‎ > ‎

未知語抽出

(読みが浅く不十分です。誤りがある可能性があります。再編集します)

文脈にもとづく未知語獲得における識別モデルの適用


鍜治伸裕、喜連川優
東京大学生産技術研究所

内容

未知語に対して品詞付けを行う(未知語獲得)。
単語の直前直後の文字列(弁別的文字列)をもとに品詞付けを行う。
論文では名詞、動詞、形容詞を対象としている。
論文では、弁別的文字列に囲まれたものを未知語としている。
未知語を抽出するときに使った弁別的文字列を素性とする。
分類器により品詞付け。
結果で句が抽出されることがあるので単語に分ける。


1.7億文のWebテキストに対して実験。
弁別的文字列を5文字に限定。
12,823単語の未知語が獲得できた(素性数64)。
ランダムでとってきた100中81個が正しかった。

素性数    適合率    再現率
 1        80.2         77.1
16        86.7         75.5
32        89.1         73.2
64        90.2         69.9

出現頻度が高いほど再現率は高かった。


Comments