機械翻訳について

翻訳とは
ある言語(原言語、源言語)のテキストを別の言語(目標言語)の等価なテキストに置き換えること

機械翻訳において、理想的には
等価
機械翻訳した結果とプロの翻訳家が翻訳した結果が同じ

翻訳に際する問題
語彙の対応のずれ
 身に付ける
→「(服を)着る」、「(眼鏡を)かける」、「(帽子を)かぶる」、「(靴を)はく」etc...
   =put on
 「技術論文」→「技術的な」+「論文」→technical paper
 「博士論文」→ 「博士の」+「論文」  →doctoral paper×
                   →doctoral thesis
文法レベルと語彙レベルの対応
 着る=put on
 着ている(
着る+いる)=wearの現在形
 日本語ではアスペクトで表現されるものを英語では語彙で表している。
 アスペクト…時間の流れにおいて、事象が起きる、継続する、終了するといった状態の表現
単語と句の対応
 日本語では「湯」という単語、英語では「hot water」という句
語順の違い
 構文の違い、句の構成の違い
 例.彼は黒いスーツを着ている。 (主語+目的語+述語)
   He wears a black suit.    (主語+述語+目的語)
 例.白い家
   A white house    (冠詞+形容詞+名詞):英語
   une maison blanche (冠詞+名詞+形容詞):仏語
異なる品詞間の対応
 無料の ← 名詞+「の」
 free  ← 形容詞
数の情報
 英語では単数、複数を表現するが、日本語はよく省略される。
音韻などの表現
 詩の韻、
ダジャレなど読みに関わるもの
 例.「布団がふっとんだ」→The futon flew up.
 例.熊の絵の横に「unBEARably GOOD !!」 (unbearably ad.我慢できないほど)

翻訳手法
●伝統的な機械翻訳方式
 ・単語直接方式(逐語訳)
 ・トランスファ方式
 ・中間言語(ピボット)方式

●用例に基づく機械翻訳
●統計的機械翻訳


各手法について
●単語直接方式
 原言語の文を形態素解析し、語順をそのままに単語を訳していく
  →構文が同じ自然言語同士ならばある程度有効
トランスファ方式
 ○構文トランスファ方式
  現在の機械翻訳で多くが採用している方式。
  解析、変換、生成の3フェーズによって翻訳を行う。

意味トランスファ方式
●中間言語方式
 トランスファ方式よりも深い意味解析を行い、特定の言語に依存しない表現、中間言語を得る方式。
 変換の処理が省かれる。ただし、中間言語の作成は困難である。
用例に基づく機械翻訳
 自分の持っている例文の中で最も近い例文を探し、それを模倣として翻訳する。
アナロジーによる機械翻訳
統計的機械翻訳
 2つの自然言語の対応が取れたデータ(パラレルコーパス)をもとに確率を用いて文を翻訳する。
 標的言語で書かれた文Tを
変換器に入力して、原言語の文Sが出力されるモデルを考える。
 このとき、確率P(T)でTが発生し、変換器における入力に対する出力の確率はP(S|T)と考えられる。
 この逆操作である復元を考えるとSが入力されTが返される確率P(T|S)は次の式で与えられる。
 ここで、原言語の文Sが発生する確率P(S)は一定なので無視する。
P(T|S)=P(T)×P(S|T)/P(S)→P(T)×P(S|T)
 原言語の文Sに対して、標的言語の文Tが生じる確率P(T|S)が最大となるようにTを変化させればよい。


おもしいと思った実験
google翻訳を用いたアルファベット1字(a、b、c…)、同じ字を続けた2字(aa、bb、cc…)の英和翻訳
srgia.blog「Google翻訳はどういう仕組みなんだろうか」
※ただし、今は違う結果が出る。


参考文献
「アナロジーによる機械翻訳」 佐藤理史著 共立出版株式会社

「自然言語処理の基礎」 奥村学著 コロナ社