研究室‎ > ‎卒業生のみなさまへ‎ > ‎杢 真奈見‎ > ‎出張‎ > ‎NLP2013‎ > ‎

発表@NLP2013

多くの方に見に来ていただきました。
質問やコメントをいただいた皆様、本当にありがとうございました。
 
発表内容:
「やさしい日本語」変換システムの試作と題して、「やさしい日本語」への変換手法とその評価について発表いたしました。
詳細は、「スライド」をご参照ください。
また、本発表ではNLP2013で投稿した評価実験などよりデータ量の増加など、新しい部分が増えております。
お時間がありましたら、本稿では発表しなかった他の工程などについても詳細を示している「修士論文」をご参照ください。
 
所感:
3年目にしてまたもや飲み物を出せなかった私。
100分というエネルギーは私の喉と運動不足の足に大ダメージを残しました。←そのあとのセッションでは使い物ならなくなってました。
 
発表としては、質問に対して十分な回答ができたか不安な所ではあります。
どうしても、ポスター発表の場合、常に緊張やテンションがマックスであり、頭が十分に回っているかと言われると微妙な所です。
また、たくさんシステムについて紹介してしまったにも関わらず、システムのバグが多いとか、不安しかないです。
↑・・・ポスターで微妙に自信満々に発表していたのはただの見せかけです。
 
質問・コメント:
・「やさしい日本語」の定義
→ 先生によって「やさしい日本語」の対象物や対象者が違いますが、
私は一橋大学の庵先生が中心となる「やさしい日本語」プロジェクトに参加しているため、
「公的文書」と「日本語非母語話者(外国人)」が対象です。
 
・弘前大学の「やさしい日本語」とはまた違うのですか?
→ 先生によって対象物や対象者が違うので、ひとつひとつの「やさしい日本語」は違うものです。
弘前大学についても、対象者は日本語非母語話者(外国人)ですが、ドメインが違うため、違う部分があると考えます。
ただし、もちろん似ている部分もあると考えられます。
 
・なぜ英語での表示などにしないのですか?英語への翻訳の方が高精度のものがあるのではないですか?
→ 確かに英語への翻訳の方が研究も多く、精度が高いものがあるかもしれません。
しかし、「やさしい日本語」がある背景としては、英語化を含む多言語化のコストの高さがあります。
英語への自動翻訳が高精度であればコストは確かに下がるかもしれませんが、自分でできること、そして自分で確認できることは利点であると考えます。
多言語化のコストの問題としては、日本に在住する外国人が生活するために必要な情報を確実に得るため、何の言語を用意するかという問題があります。
例えば、日本に多く在住する人々の母国語から「英語・中国語・韓国語」などを選んだとして、それ以外を母国語に持つ外国人がそれらから確実に情報を受け取れるかどうかはわかりません。また、あまりに多くの言語に対応することは時間やお金といったコストが高くなります。
そのうえ、日本は特殊な地域であり、日本語ができなければ在住すること(観光などの一時滞在は除きます)は難しいです。なぜなら、コンビニで英語が通じるかと言われると、絶対とは言えないでしょう。
これらのことから、日本で在住するために最低限必要な日本語を学び、それを用いて生活するうえで重要な情報を得るという考えの「やさしい日本語」となるのです。
 
・関連研究であげられている研究は「やさしい日本語」プロジェクトの方の研究ですか?
→ 違います。今回の発表であげさせていただいた放送ニュースの名詞の平易化の発表者の方々については情報交換などは行われている方々ではありますが、共同研究者ではありません。また、PJシステムについては共同研究者ではありますが、時期的に「やさしい日本語」プロジェクトの発足前のシステムだと考えられます。
 
・なぜルールベースなのですか?
→ 根本は、筆者の好みです。また、「やさしい日本語」の仕組みなどがルールとして判明するという期待も込めて、ルールベースとしました。
ただ、今後この研究が続く場合、システムとして高精度のものにするために、機械学習や統計などといったもので構成することも考えてもらおうと思います。ありがとうございます。
 
・インターフェース(デザイン)の部分を頑張った方が、変換の精度をあげるよりも簡単に効果があがるのではないですか?
→ そういう考えもあります。ただ、「やさしい日本語」への変換システムを実際に市役所などの現場で活用していただくことを想定しているため、多少、稚拙な変換であろうとも「やさしい日本語」へ変換した文の出力が求められると考えます。
ただ、インターフェースについても、今後、どんどん調査して効果的なものを見つけていきたいと思います。
 
・重要部分の強調とは、どんな処理を行っているのですか?
→ 文を節に分け、節に対して係り受け解析を行い、係り受け元から係り受け先をたどっていき、つなげてフレーズとします。
その中から助詞による優先度(重みづけ)を行い、重要部分を選択します。
助詞による優先度は、約100節に対してフレーズを作成し、人手で正解(重要フレーズ)を選びました。
評価実験として45節程度のクローズドテストをした結果、重要部分を選ぶ精度は81%となりました。
抽出というタスクの場合、低い精度かもしれませんが、強調ということで他の情報を落とさない分、十分な精度といえると考えます。
 
・「やさしい」の定義
→ 本来の「やさしい」とは「日本語非母語話者が理解できること」です。
ただし、本稿では「やさしい日本語」コーパスに含まれる逐語訳を「やさしい」としています。
この逐語訳は日本語教師の感覚で「N2レベルの学生が理解できる程度」に制限してあります。
なので、その日本語教師が「日本語非母語話者が理解できると考える」ものが「やさしい」です。
 
・「やさしい日本語」コーパスはどういったものですか?カバー率はどの程度のものなのですか?公開されているのですか?
→ 「やさしい日本語」コーパスは市役所や病院、学校などの自治体に協力をお願いしていただいた実際に配布された資料から構成されます。
ドメインは予防接種の案内から、幼稚園のバザーのおしらせなど、ある程度多岐にわたっていると考えます。
また、現在、公開はされていませんが、今後、公開の予定があると聞いています。
 
・「やさしい日本語」変換対とはどのような構成のものなのですか?辞書なのですか?
→ 「やさしい日本語」変換対は、「やさしい日本語」コーパスから作成されたものです。
作成方法としては、「やさしい日本語」コーパスの原文(公的文書)と逐語訳(単語単位でやさしく書き換えたもの)のdiffをとったものです。
変換範囲が広範囲の場合は長いフレーズともなりますし、短いものでは単語や助詞・助動詞単位の対もあります。
コーパスは約4万5千文ですが、複数の文から同じ対が作成される場合もあるため、異なり対数として約6000の対となりました。
変換する際には、この変換対を原文側の文字数が多いものから、そして原文側が等しい場合は出現数の多いものから変換するとしています。
長い文字数が多い物から変換することにより、日本語の自然さが可能な限り残るようにしており、出現数の多い物から変換することにより、日本語教師の中で変換後のフレーズが違ったとしても、多いものを使用することにしています。
 
・変換対の使用方法と変換手法について詳しく教えてください。
→ 入力文の一部と変換対の原文側の文字列が一致し、その前後が入力文の形態素解析と複合名詞処理(名詞連続などを1つの単語とする)後の語の切れ目となっている場合、変換対の逐語訳側の文字列へ変換します。
 
・変換ルールはどのようなものが、いくつあるのですか?どうやって定めたのですか?
→ 変換ルールは複合名詞処理といった大きなものから、変換ミスを防ぐような小さなものまで多数あります。
変換の小規模実験を繰り返して少しずつ積み重ねていったものです。
 
・日本語の正しさの評価は、第三者にしてもらった方がいいと思います。(発表者が行うと評価が甘くなっているのではないでしょうか?)
→ 最もなご意見だと思います。今後は第三者による評価を主体としたいと思っています。
今回は本命であるやさしさの評価の事前実験といった意味合いが強かったため、簡単に手早く、著者が行いました。
また、評価の甘さについてですが、日本人から見て不自然さがあることは否定できないと思います。ただ、本研究では日本語の自然さについては言及しておりません。
日本語初学者に関しても、日本語の文法が多少間違っていたとしても、特に気にならないようですし、意味が伝わることが重要だと考えるため、このような方針となっております。
 
・やさしさの評価を行った日本語非母語話者とは、どのような方々ですか?また、日本語能力試験(JLPT)の所有級や国籍はどうなっていますか?国籍による違いはありましたか?
→ 評価にご協力いただいた日本語非母語話者は留学生の8名です。JLPTの所有級はN2、N2レベル(保有級はないもののN2にギリギリで落ちてしまった方)、N3、N4レベル(実際所有はしていないもののN4程度の実力はあると考えられる)となっています。国籍はマレーシア、中国、ベトナム、ベネズエラ、ドイツなどがあります。
マレーシア以外は1名ずつの評価者であったため、個人差か国籍による差かは判断できませんでした。また、漢字圏・非漢字圏についても、漢字圏である中国国籍の方が1名であることなどから、違いを判断することはできませんでした。
 
・正しい日本語を出力するためのルールの追加は、簡単にできそうですか?
→ 現時点で間違いの大部分を占めている原因については、品詞情報の付与や、係り受け関係や前後の品詞関係からルールを付与できそうだと考えています。
また、活用の変化についても同様に実装できると考えます。
 
・「やさしくなった」とはどういうことなのでしょうか?理解できるようになったという意味でしょうか?
→ 本評価実験では、2文のやさしさの観点からの比較調査と、それぞれ単体に対する理解できるか否かの調査を行っています。
比較調査については、本稿にあげたとおり、どちらがやさしいか否かという聞き方であり、理解できたかという評価を合わせても、「やさしくなった」と評価してもどちらも理解できないとしていたり、どちらも理解できるとしていたり、いろいろなパターンがありました。これについては、評価方法の基準や、いろいろな評価を行って複合的に判断する等、今後工夫したいと思います。ありがとうございます。
 
・多数決方式で1人1人の意見を埋もれさせるより、やさしくなったと評価する方がどの程度いるのかといった評価が適切ではないでしょうか?
→ 今後、取り入れていきたいと思います。確かに、もともと読める人などは「やさしい日本語」変換は必要ないですし、もともと読めない人に焦点をあてるなどの工夫がしたいなと思います。ありがとうございます。
 
・「離乳食=子供の食べ物」に違和感を覚えるのですが、この変換はいいのでしょうか?
→ 本研究は「やさしい日本語」コーパスに従っているため、日本語教師の方が日本語非母語話者に対して「離乳食」という単語をやさしく言い換えるべきで、言い換えるならば「子供の食べ物」であるとしているならば、そうすることが正解だと考えます。
 
・日本在住期間で区切ることは面白いと思います。
→ ありがとうございます。JLPTの保有級や学習期間などでも切ってみたのですが、あまり差が見られなく、日本在住期間で区切ることにより本稿で示すような日本語初学者への有効性を見出すことができました。これは、日本に長く在住することにより公的文書の日本語に慣れたことが原因だと考えます。
日本に来てから日本語を学び始める留学生のみの評価実験の場合、あまり意味がないのかもしれませんが、母国で日本語を勉強していた評価者がいたため、このような方法で区別することになりました。
Comments