連語を組み込んだ統計言語モデル

岩瀬 修,森元 逞,首藤 公昭
連語を組み込んだ統計言語モデル
電子情報通信学会技術研究報告 2000-12 pp.109-114

連語:慣用表現などの比較的固定的な表現

1 はじめに

新聞,雑誌,小・中学校の教科書,各種辞書から人手で採取

連語データの例
形態素数
個数
連語の例
2
11,188
明らか-に,一緒-に,消極-的
3
21,532
涙-が-出る,舞台-に-上がる
4
6,332
首-を-長く-する
5
2,860
目-から-火-が-出る
6
940
猫-の-手-も-借り-たい
7
537
他人-の-出る-幕-で-は-ない
8
219
ニ-度-ある-こと-は-三-度-ある
9
119
縦-の-もの-を-横-に-も-し-ない
10以上
124
右-を-見-て-も-左-を-見-て-も

連語を従来の統計言語モデルに組み込む

ベースの言語モデルとして,音声認識システムJuliusの言語モデルのbigram

これに3単語以上の連語を組み込む

2 連語の検証

2単語連語に対応するbigram確率は,それ以外のbigram確率より大きい値を持つものが多かった

2単語連語は全部で11,1188個
Julius内のbigramににエントリが存在するのは約1,800個

3 連語N-gram
3.1 連語N-gramの推定方法

連語をN-gramの確率モデルとしてモデル化することを考える

一般に,ある単語列に対する生起確率は



で求められる.
連語に関しては,

,  

になると考えられるので,bigram近似では不十分.




加藤ら(「ニュース音声認識のための(n≧4)-gramを併用する言語モデル」,情報処理学会研究報告,99-SLP-29, pp.187-192, 1999)
放送ニュース文を対象としたN-gram言語モデル

N-gramに基づく単語の生起確率



のようにが大きくなるにつれて,漸近的に一定値に近づく




この文献では各連語に対するの値をベースの言語モデルから求める.
つまり,以下の式が成り立つと仮定



ここで,はベースの言語モデルのbigramから求めるので



が成り立つから,



として求めることができる.
このようにして,の各単語に対するを求めた後,連語全体に対するの平均値として求める.




3.2 組み込む連語の基準


上記の方法で求めたの値が負になったものは言語モデルに組み込まない.
推定した確率がbigramによる確率より大きくなった連語のみを言語モデルに組み込む.

4 バイグラム言語モデルへの連語の組み込み

単語からなる連語を1語と考え,そのbigramの確率およびを求め,従来のbigram言語モデルに組み込む.
はそれぞれに前接および後接する単語)








5 評価と実験

評価用テキスト:毎日新聞
(a) 連語が出現する文1万文
(b) 連語の出現が見られない文1万文

(a)ではPPが約8%減少
(b)ではPPが1%弱増加

原因
(1)連語を組み込むことによるエントロピーの増加
 →λに閾値を設け,それを超える連語だけを組み込む
(2)評価データ中においての連語の取りこぼし
 表記・表現揺れ
 例)連語
    影も形も見えない
   共起・表現揺れ
    影も形も見当たらない

 →連語のプレフィックスをすべて取り出し,bigram言語モデルに組み込む

思ったこと
・オープンなテストセットに対して結果はどうなんだろう?

「文献紹介」に戻る
Comments