統計的機械翻訳の最先端 渡辺太郎 情報通信研究機構 taro.watanabe @ nict.go.jp - 基本的な内容は「statical machine translation」(Koshn-2009)という本も読んでください。
- 主な問題
- 翻訳をどのような過程でモデル化するか?
- (データ、モデルがあったとして)パラメータの学習法 ?
- (モデル、パラメータがあったとして)デコードの手法 ?
- 翻訳結果の評価法?
- どのようにデータを集めるか? (対象外)
- 最先端
- 統計的機械翻訳の基礎
- 通信路モデル+noise
- noiseを考えなければならない。
- 応用技術:音声認識、OCR、…
- 翻訳モデル
- argmax Pr(f|e)Pr(e) :
- 翻訳モデルと言語モデルを使って、確率を最大化
- ngram 言語モデル
- 学習: 最尤推定 + smoothing
- bigramは一番有用なもの
- 翻訳モデル
- 単語アライメント
- 単語対単語のテーブルを作る(アライメントの表現)。
- 文法が同じな各言語間では、結果が良いが、文法が違う各言語では、あまりよくない。
- 句に基づく機械翻訳
- 「句」を翻訳の単位に使うと
- 多対多の単語アライメント + 句内部の局所的な並び替え
- 局所的なコンテキスト + 統語的に分解不可能な句
- 句に基づくモデル
- 複数の素性h(e, Φ, f)をlog-linearに組み合わせ、最大化
- フレーズペアの抽出
- フレーズベースな探索空間
続ける部分は、ちょっと難しいので、あまり理解できませんでした。 |