背景
- 多言語間コミュニケーションでは、同一の単語を用いて会話をしていても、文化差によって誤解が生じる可能性がある。
- 文化差の有無を判断するためには、相手の文化に関する十分な知識が必要。
- 形式知化された知識で文化差を測れば、文化差の判定を自動化できるのではないか?
→ Wikipedia を利用した文化差の検出方法として、執筆者の意図に着目する方法を提案。
文化差の定義
- 「文化」の定義は、日本と欧米では異なり、一概に定義することは困難。
- しかし、文化差を検出するためには「文化」を「測る」ための尺度が必要。
→ 「知識」の面から「文化」を捉え、形式知化された知識の違いで文化差を測ることにする。
- 第1種の文化差
ある国固有の「もの」や「こと」 別の文化圏に伝わっても、もとの文化圏の内容を指す。 - 第2種の文化差
どちらの文化圏にも存在するが、それぞれの文化圏で意味が異なる「もの」や「こと」
従来手法の限界
- 言語別の項目数の比較
ある国に関連がある項目は、項目数が多いのではないか? → 第1種の文化差の検出は可能だが、第2種の文化差の検出は不可能。 → 項目数が多い方の文化圏で発展した項目であると判定しているため また、翻訳が進んでおり、今後は各言語版感の記事の量が同程度になると考えられる。 → 第1種の文化差の検出すら困難になると予想される - 国名・言語名数の比較
各言語版の記事において、それぞれの国名・言語名が多い場合、各国における説明であると考えられる。 → 記事の詳細さの違いにより、国名・言語名数は大きく異なるので、判定は困難。 また、文化差の判定基準の設定が困難(どのくらいの差で文化差があると判定するのか?)。
提案手法
Wikipedia の記事では、国や文化によって内容に違いがある場合、 執筆者がそれぞれの文化の内容に関して、記述したり、カテゴリ分けしたりするのではないか?
- 第1種の文化差の検出
各記事のカテゴリとして、ある国に関するカテゴリを選択している場合に、「第1種の文化差がある」と判定する。 例:「日本の食文化」「日本の年中行事」などの日本に関するカテゴリ - 第2種の文化差の検出
各記事内の記述として、例えば「日本では」「中国では」という記述をそれぞれ検索する。 それぞれの検索数が1件以上ある場合に、「第2種の文化差がある」と判定する。 なお、第1種の文化差と第2種の文化差が同時に検出された場合は、「第2種の文化差がある」と判定する。 → 第2種の文化差が検出されたということは、その文化が両方の国に存在していることを示している。
実験結果
中国人留学生5名が、114の日本語の語句について、次の3種類に分類した。(2名以上の一致で、その分類を正解とする。)
- 中国にはない(第1種の文化差がある)
- 中国にもあり、日本と同じ(文化差なし)
- 中国と日本のものは違う(第1種または第2種の文化差がある)
- 第1種の文化差の検出
- 提案手法により、114件中36件に第1種の文化差があると判定された。
- 正解との比較により、36件中26件が第1種の文化差の検出に成功したとわかった。
- 適合率:0.72 , 再現率:0.62 , F値:0.67
- 第2種の文化差の検出
- 提案手法により、114件中23件に第2種の文化差があると判定された。
- 正解との比較により、23件中19件が第2種の文化差の検出に成功したとわかった。
- 適合率:0.83 , 再現率:0.59 , F値:0.67
まとめ
- 第1種および第2種の文化差検出のための、正解データの作成手法を提案した。
- 日中間の第1種および第2種の文化差がある語句のデータを作成した。
- 執筆者の意図に着目した文化差の検出方法によって、日中間の第1種および第2種の文化差の検出が可能であることを示した。
- 従来手法よりも、第2種の文化差の検出精度が上がった。
- 検出精度の向上と、他の多言語サービスへ提供するためのWebサービス化が今後の課題。
質問の時間・ディスカッション
- 実験者の回答の一致度の度合いは?
- 漢字とカタカナでの意味の違いについては?(例:嫁とヨメ)
- "文化差"と"個人差"の違いは?
- 国内での文化の違いは?
- 文化差による軋轢にはどういうものがあるか?
- 国内でどの程度普及すれば、ある国にその文化があると言えるのか?
- 「やさしい日本語」という研究があるが、やさしく書いても文化が違えば伝わらないのでは?
|
|