日本語文章の校正に関する文献 - 「オフショア開発向けの事例ベース日本語自動校正システムの構築」 鄭 育昌,長瀬 友樹
- コーパスに基づいて事例ベース及び校正規則により校正を実現。
- 多種多様な誤りが校正対象となる。
- 誤用の66%を校正できる。
- 「機械翻訳精度を向上させる可読性診断技術」熊野 明,加納 敏行
- 曖昧性のある原文に対して可読性診断を行い、検出した箇所を利用者にメッセージする。
- 診断メッセージによって利用者は明瞭な文に修正することができ、翻訳の精度を向上させることができる。
- 「日本語学習者の作文自動誤り訂正のための語学学習SNSの添削ログからの知識獲得」 水本 智也,小町 守,永田 昌明,松本 裕治
- フレーズベース機械翻訳の手法と大規模な学習者コーパスを用いて誤り訂正を行った。
- 誤り文を処理する際に生じる単語分割の問題に対して、文字分割(文字-文字モデル、文字-単語モデル、単語-単語モデル)を用いてみたが、実用化できるまでの精度に至らなかった。
- 文字-文字モデルに対して単語言語モデルを利用すること、また係り受け構造などの構文情報を用いた統計的機械翻訳手法を使うことで性能を改善できるのではないか。
- 「日本語学習者の誤り傾向を反映した格助詞訂正」笠原 誠司, 藤野拓 也,小町 守,永田 昌明,松本 裕治
- 助詞の誤り検出・訂正のみに限定した研究
- NAIST誤用コーパスでは助詞の誤りが24%。特に格助詞の誤りは文の意味が理解しづらくなる。
- 学習者の誤り傾向を反映することで訂正精度が改善された。
- 広い文脈を見なければ判断できない「と」と「の」は、係り受けなどの情報を用いることが有効ではないか。
- 言語モデルにWeb日本語Nグラムを用いたが、BCCWJと組み合わせた言語モデルを構築することで精度が改善されるのではないか。
- 「日本語作文推敲支援システム「ナツメグ」における誤用検出手法の評価」八木 豊,ホドシチェク・ボル,阿辺川 武,仁科 喜久子
- 日本語作文推敲支援システム「ナツメグ」で、日本語として謝っている訳ではないが論文やレポートの特定文書では別の表現に書き換えた方が良い表現の検出を行う。
- 「保険関連文書を対象とした校正支援システム」大平 真一,山本 和英
- 現文書を派生的な文書の比較を行うことで誤りを発見する。
- 誤りを含む文に対して誤り検出が99.6%成功した。しかし、検出に成功した文のうち対応文の抽出に失敗する文もあった。
- 誤りが存在するが、誤りを検出できなかった文もあった。
- 対応文の抽出に成功したが、誤りの検出に失敗した文もあった。→内容語の出現回数を考慮していないため検出漏れが発生
- N-gramに頻度情報を使うなどの例外処理で対処
- 「論文における記載不備の自動検出と自動修正に向けた分析」岡田 拓真,村田 真樹,馬 青
- 論文に記載すべき情報が欠落しているか否かを自動検出し、論文の文章作成支援を行う。
- ルールベース手法と機械学習手法の2手法を比較。ルールベースの方が性能が良くなった。
- 機械学習の精度が低い原因として、論文全体に出現する全ての単語の素性を利用しているため、素性の数が多くなり、対象の文を検出できない可能性がある。
- →素性の再選定が必要。
- 「小規模誤りデータからの日本語学習者作文の助詞誤り訂正」今村 賢治,齋藤 邦子,貞光 九月,西川 仁
- 日本語学習者の誤り傾向を調査:助詞・助動詞の誤りが最も多い
- 識別モデルを用いた句に基づく統計翻訳(CRF)を用いて訂正
- 擬似誤り文による誤りコーパスの拡張を行なった
英語文章の校正に関する文献 - 「Grammatical error correction using hybrid systems and type filtering」Mariano Felice, Zheng Yuan, Øistein E. Andersen, Helen Yannakoudakis, Ekaterina Kochmar
- ルールベースシステムとSMTを組み合わせた文法誤り訂正手法を提案
- 言語モデルランキングやタイプフィルタリングを加え、パイプラインを評価
- CoNLL-2014 shared taskでは高い成績を出した
- 「Grammatical Error Correction: Machine Translation and Classifier」Alla Rozovskaya, Dan Roth
- 文法誤り訂正における分類器システムと翻訳器システムの2つのアプローチについて、それぞれの特徴を調査
- それぞれのシステムの特徴を活かし、組み合わせた手法を提案
- CoNLL-2014 shared task以降の研究の中で最良な結果
- 「Grammatical error correction using neural machine translation」Zheng Yuan, Ted Briscoe
- NMTを用いた文法誤り訂正のアプローチを提案
- NMT特有の低頻度問題に対処するため、単語レベル翻訳モデルを構築し、NMTでの精度が向上した
日本語教育における漢字習得に関する文献 - 「マレー人日本語学習者の作文にみられた漢字の書き誤り」佐々木 良
- マレー人日本語学習者の作文に見られた漢字の書き誤りを調査
- 非漢字での代用、形が似ている漢字での代用が多い
- 特に、1画多いまたは少ない書き誤りが多い
- 「非漢字圏学習者の漢字字形の識別に関する事例研究」ヴィモンヴィタヤー チョーラッダー
- 未知の漢字の字形に着目して、漢字学習者がどのように漢字の形を認識しているかを調査
- タイ人初級日本語学習者に漢字字形識別テストを実施した
- 未知の漢字に対しても、日常生活に親しみのあるものの形やアルファベットに結びつけてイメージを作ったり、字の特徴を掴んだりするなどして字形の認識をしている
スペル訂正に関する文献 - 「Generalized Character-Level Spelling Error Correction」Noura Farra, Nadi Tomeh†, Alla Rozovskaya, Nizar Habash(2014)
- エジプトのアラビア語のスペル誤り訂正
- 入力文字ごとに、正しい文字を得るためにどのような変換を行えばいいか(アクションアベル)を予測する
- アクションラベル:置換、挿入、削除、変更しない
- アクションラベルの予測にはSVMを使用
- 「Real-Word Spelling Correction using Google Web 1T
n-gram Data Set」Aminul Islam, Diana Inkpen(2009)
- 「Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings」Pieter Fivez, Simon Suster, Walter Daelemans(2017)
- 臨床テキストのスペル訂正(英語)
- 従来の文脈情報を活用しないNoisy Channel Modelに対抗して、Neural Embeddingを用いて文脈情報を活用
|
|