統計的機械翻訳の最先端

統計的機械翻訳の最先端
渡辺太郎
情報通信研究機構
taro.watanabe @ nict.go.jp
  1. 基本的な内容は「statical machine translation」(Koshn-2009)という本も読んでください。
  2. 主な問題
    • 翻訳をどのような過程でモデル化するか?
    • (データ、モデルがあったとして)パラメータの学習法 ?
    • (モデル、パラメータがあったとして)デコードの手法 ?
    • 翻訳結果の評価法?
    • どのようにデータを集めるか? (対象外)
  3. 最先端
    • 木構造に基づく機械翻訳
    • 最適化
  4. 統計的機械翻訳の基礎
    • 通信路モデル+noise
      • noiseを考えなければならない。
      • 応用技術:音声認識、OCR、…
    • 翻訳モデル
      • argmax Pr(f|e)Pr(e) : 
      • 翻訳モデルと言語モデルを使って、確率を最大化
    • ngram 言語モデル
      • 学習: 最尤推定 + smoothing
      • bigramは一番有用なもの
  5. 翻訳モデル
    • 単語アライメント
    • 単語対単語のテーブルを作る(アライメントの表現)。
    • 文法が同じな各言語間では、結果が良いが、文法が違う各言語では、あまりよくない。
  6. 句に基づく機械翻訳
    • 「句」を翻訳の単位に使うと
      • 多対多の単語アライメント + 句内部の局所的な並び替え
      • 局所的なコンテキスト + 統語的に分解不可能な句
    • 句に基づくモデル
      • 複数の素性h(e, Φ, f)をlog-linearに組み合わせ、最大化
    • フレーズペアの抽出
      • 一貫した句
    • フレーズベースな探索空間
      • 巡回セールスマン問題
      • 動的計画法(DP)による解
続ける部分は、ちょっと難しいので、あまり理解できませんでした。
Comments