(読みが浅く不十分です。誤りがある可能性があります。再編集します) 文脈にもとづく未知語獲得における識別モデルの適用 鍜治伸裕、喜連川優 東京大学生産技術研究所 内容 未知語に対して品詞付けを行う(未知語獲得)。 単語の直前直後の文字列(弁別的文字列)をもとに品詞付けを行う。 論文では名詞、動詞、形容詞を対象としている。 論文では、弁別的文字列に囲まれたものを未知語としている。 未知語を抽出するときに使った弁別的文字列を素性とする。 分類器により品詞付け。 結果で句が抽出されることがあるので単語に分ける。 1.7億文のWebテキストに対して実験。 弁別的文字列を5文字に限定。 12,823単語の未知語が獲得できた(素性数64)。 ランダムでとってきた100中81個が正しかった。 素性数 適合率 再現率 1 80.2 77.1 16 86.7 75.5 32 89.1 73.2 64 90.2 69.9 出現頻度が高いほど再現率は高かった。 |