「ある時点での単語の生起確率は,その直前の (単語の生起を 長さ 3-gramモデルなら これを求めるには,1-gram,2-gram,3-gramそれぞれの確率を求める必要がある. コーパスより求める場合,コーパス中に単語列 と計算すればよい. ただし実際には「現実に存在し得るが,偶然,コーパス中に出現しないn-gram」がある. すると,そのn-gramの出現確率は0になっていしまう. この問題を避ける手段として,低頻度の単語をひとまとめにしてしまう「語彙の制限」,値の高いn-gram確率を値の低いn-gram確率に分け与える「スムージング」がある. 参考文献 北 研二・中村 哲・永田 昌明 共著『音声言語処理』,森北出版株式会社(1996) 荒木雅弘『フリーソフトでつくる音声認識システム』,森北出版株式会社(2007) 「用語など」にもどる |