連接可能性行列だけを用いた解析結果には不適切な解が多く含まれている。よって、以下に示すような優先規則を用いて、もっともらしい解を選択する必要がある。
最長一致法
- 文頭から順に、最も長い語を選んでいく。
- 高速だが、文全体として必ずしも長い語の並びを取り出せるわけではない。
- また、長い語の並びが必ず正解であるとも限らない。
- かな漢字変換など、非常に高速な処理が必要な場面で用いる。
コスト最小法
- 語や語の連接にコストを与えて、総コストの少ない解を優先する。
- 形態素数最小法(語数が最小の解を優先)は、語のコストを1、連接のコストを0とした場合のコスト最小法である。
- 文節数最小法(文節数が最小の解を優先)は、自立語のコストを1、その他の語のコストと連接のコストを0とした場合のコスト最小法である。
参考文献 長尾真、佐藤理史、黒橋禎夫、角田達彦(1996)『自然言語処理』岩波書店
|