岩瀬 修,森元 逞,首藤 公昭 連語を組み込んだ統計言語モデル 電子情報通信学会技術研究報告 2000-12 pp.109-114 連語:慣用表現などの比較的固定的な表現 1 はじめに 新聞,雑誌,小・中学校の教科書,各種辞書から人手で採取 連語データの例
連語を従来の統計言語モデルに組み込む ベースの言語モデルとして,音声認識システムJuliusの言語モデルのbigram これに3単語以上の連語を組み込む 2 連語の検証 2単語連語に対応するbigram確率は,それ以外のbigram確率より大きい値を持つものが多かった 2単語連語は全部で11,1188個 Julius内のbigramににエントリが存在するのは約1,800個 3 連語N-gram 3.1 連語N-gramの推定方法 連語をN-gramの確率モデルとしてモデル化することを考える 一般に,ある単語列 で求められる. 連語に関しては, になると考えられるので,bigram近似では不十分. 加藤ら(「ニュース音声認識のための(n≧4)-gramを併用する言語モデル」,情報処理学会研究報告,99-SLP-29, pp.187-192, 1999) 放送ニュース文を対象としたN-gram言語モデル N-gramに基づく単語の生起確率 のように この文献では各連語に対する つまり,以下の式が成り立つと仮定 ここで, が成り立つから, として求めることができる. このようにして, 3.2 組み込む連語の基準 上記の方法で求めた 推定した確率がbigramによる確率より大きくなった連語のみを言語モデルに組み込む. 4 バイグラム言語モデルへの連語の組み込み ( 5 評価と実験 評価用テキスト:毎日新聞 (a) 連語が出現する文1万文 (b) 連語の出現が見られない文1万文 (a)ではPPが約8%減少 (b)ではPPが1%弱増加 原因 (1)連語を組み込むことによるエントロピーの増加 →λに閾値を設け,それを超える連語だけを組み込む (2)評価データ中においての連語の取りこぼし 表記・表現揺れ 例)連語 影も形も見えない 共起・表現揺れ 影も形も見当たらない →連語 思ったこと ・オープンなテストセットに対して結果はどうなんだろう? 「文献紹介」に戻る |