1.日本語単語分割が統計的機械翻訳に与える影響の評価 星野 翔(創造研究大学院大学)、宮尾 祐介(国立情報学研究所) 日本語は英語などのように分かち書きがされておらず、形態素解析器で単語に分けられる。 統計的機械翻訳では形態素解析の結果が精度を大きく左右する。 →単語の分割手法、コーパスの種類、評価方法を変えることで何が変わってくるか。 単語分割手法 MeCab 0.98、KyTea 0.3.2、JUMAN 6.0と7.0、latticelm 0.2、文字種による分割、1-gram コーパス 日英新聞記事対応付けデータ(JENAAD)、ロイター日英記事の対応付け(REUTERS)、 Wikipedia日英京都関連文書対訳コーパス2.01 評価手法 BLEU、RIBES、BLEU in Characters 実験 前処理を施した文をテストデータと訓練データに分割。 日英、英日の相互で翻訳、評価。 結果 MeCab、KyTea、JUMANは文字種、latticelmに対してすべて良い結果となった。 今回使用した組み合わせでは最適なものがそれぞれで違う。 質問・コメント パープレキシティは見ていない。 日英翻訳を行いBLEU in Charactarで評価するのはなぜか?(英語を1文字ずつ評価する意味は?) 2.定型利用翻訳における文構造解析の精度評価 富士 秀、潮田 明(富士通研究所) 機械翻訳は長文(特許文など)の翻訳精度が悪い。 文の定型性を利用して長文の分割を行い、翻訳精度を上げることを検討。 今回は、文の定型を利用して分割を行う「日本語構造解析(SAS)エンジン」の評価。 日本語構造解析(SAS)エンジン: 入力文が定型パターンに当てはまるように特徴文節に分割する。 分割した特徴文節から当てはまる定型パターンの候補を探す。候補は複数存在する場合がある。 分野ごとに定型パターンと特徴文節の定義ファイルを抽出、チューニングする。 定型パターン・・・文の主題、主題に対する主動詞と修飾句、主動詞の目的語となる名詞句の組み合わせを記述したもの 特徴文節・・・定型文に分割する目安となる文節。「~と、」、「~において」などで終わる文節。 特徴文節に分割するための語は特徴文節定義ファイルにまとめられている。 データ 日本語特許抄録文2000文の中の「解決手段」の文を使用。 (特許抄録文は「発明の名称」、「課題」、「解決手段」の3文からなり、「解決手段」が最も長い) さらに、定型パターン作成の学習セット、チューニングセット、評価セットに7:2:1で分割。 実験では評価セットから30文を使用。 比較 CaboChaによる構文解析を行い、並列ノードにおいて第一階層に位置する塊をみる。 この塊をCaboChaで得られた特徴文節とする。 結果 抽出された特徴文節を人手で評価。 文節数が11~40のときはCaboChaも少しは定型文に文節を分けられた。 SASは6割超の精度をみせ、2番目の定型文候補も考慮すると7割超の精度を見せた。 文節数が41~80にまでなるとCaboChaでの精度は0。 SASでは3割弱、第2候補を考慮すると4割超。 3.統計翻訳における日本語省略補完の効果の分析 4.日中機械翻訳システムjaw/Chineseにおける”把(ba)”字文への翻訳処理 5.Japanese-Chinese Phrase Alignment Exploiting Shared Chinese Characters 6.意味修辞に基づく依存構造木を利用した対訳文の句アライメント 7.An Improvement to the Predicate-Argument Structure Based Pre-ordering Approach for Statistical Machine Translation 8.部分文字列に基づく機械翻訳 9.日英対訳文対を用いたパターン翻訳器の自動作成法の検討 |