シンポジウム概要、プログラムについては上のリンクから
発表内容
ポスター発表(P21): 日本語解析器「雪だるま」における表記ゆれの拡張とまとめあげ
発表スライド
概要
「りんご」「リンゴ」「林檎」のように同じ意味で複数の表記があることを表記ゆれと呼ぶ。特に日本語では表記ゆれは多く、Webページ中の約10%程度存在[小椋 2012]し、日英機械翻訳において悪影響を及ぼしている[宮西 2015]。本研究では形態素解析辞書UniDicに含まれる日本語を対象に表記ゆれの解消を目標とする。また、UniDicのエントリーの語に含まれない表記ゆれの獲得を行う。UniDic内の情報でまとめあげることが出来なかった語に関して、新たに6種類の手法を用いて表記ゆれのある語を8,798語獲得した。さらに、UniDicのエントリーに無い表記ゆれを獲得するために2形態素以上からなる語に対して、雪だるまの形態素結合機能を利用した2種類の手法を用いて1,858語の表記ゆれを新たに単語辞書に加えた。なお、本研究による表記ゆれの解消は日本語解析器「雪だるま」:表記統制API(もしくは表記統制ページ)によって行える.
手法
- UniDic中の語の詳細情報を用いた表記ゆれの獲得
UniDicでは同一の意味を持つ語に対して表記等の違いに関わらず同一の意味を持つように見出し語に対して語彙素、語彙素読み、類などの情報が付与され、品詞には4種の階層構造が存在する. 表記ゆれ解消は語彙素、語彙素読み、品詞の情報を利用する. ただし、UniDicでまとめあげられている語の中で我々が表記ゆれとして定義していない語を除外してまとめあげを行う. 結果として26,425語の表記ゆれをまとめあげることができたが、UniDic内の情報のみではまとめあげることができなかった表記ゆれを以下の手法で獲得した.
- 様々な手法を用いたUniDIcのエントリーに含まれる表記ゆれの獲得
UniDicのエントリーに含まれる語から以下の6種類の手法でまとめ上げを行う.
記法: 例: 代表表記とする語, まとめあげられる語
様々な手法を用いた表記ゆれの獲得手法
1. 編集距離を用いたまとめあげ
例: ハロウィーン, ハロウイーン
2. かな漢字変換によるまとめあげ
例: あかね色, あかねいろ
3. 繰り返し文字のまとめあげ
例: すずしい, すゞしい
4. Word2Vecを用いたまとめあげ
例: 兼ね備える, 兼ね揃える
5. 同じ音が続く語のまとめあげ
例: ぱぱぱぱぱーん, ぱぱぱぱぱぱーん
6. 母音とハイフンの置き換えによるまとめあげ
例: ラーメン, らあめん
- UniDicのエントリーに無い表記ゆれの獲得
慣用句などのUniDic単位では複数の形態素からなる語から以下のような表記ゆれを獲得する.
例7: 気が利く → 気がきく, きが利く
UniDicで分割すると「気 / が / 利く」と分割される。「気」と「き」 、「利く」と「きく」をそれぞれまとめあげることで例に挙げた「気が利く」の表記ゆれは解消される。しかし、「き」には他に「木」「黃」、「きく」には「聞く」「効く」などの曖昧性があり、形態素ごとにまとめあげることはできないため、日本語解析器「雪だるま」の形態素結合機能を用いて表記ゆれの拡張を行う。
記法: 例: 元の表記, 新しく獲得した表記
かな漢字変換を用いた表記ゆれの拡張
1. 形態素ごとに変換した拡張
例: 一息入れる, 一息いれる
2. 漢字ごとに変換した拡張
例: 冒涜する, 冒とくする
UniDicのエントリーからまとめあげることのできた語の数とUniDicのエントリーにない表記ゆれを拡張することできた数についてそれぞれ表1, 表2に表す.
表1: 表記ゆれのまとめ上げ手法とまとめ上げた語数
手法 |
まとめあげた語数 |
編集距離 |
5,971 |
かな漢字変換 |
1,978 |
母音トハイフンの置き換え |
161 |
Word2Vec |
237 |
同じ音が続く語 |
24 |
繰り返し文字 |
467 |
表2: 表記ゆれの拡張手法と拡張した表現の数
手法 |
拡張した語数 |
形態素ごとのかな漢字変換 |
1,318 |
漢字ごとのかな漢字変換 |
540 |
考察
本研究でまとめあげた語によって言語表現をどれほど縮約できたかをBCCWJ中に出現した単語数で比較した.
UniDicのエントリーの語を対象としてまとめあげを行ったため、比較対象はMeCab-UniDicを用いたBCCWJ中での単語1gramでの異なり数を示す. また、雪だるまでは動詞の活用形は終止形にまとめ上げているため、UniDicでは活用形を終止形にまとめあげている書字形の異なり数で計算した.
表3: 単語1gramでの異なり数による比較
UniDicの異なり数 |
表記統制後の異なり数 |
250,874 |
204,515 |
表3より46,359語が縮約されていることがわかる. ただし、表3には雪だるまプロジェクトが開始した2015年から本研究のまとめあげ処理を行う以前に既にまとめあげられている語が約3万語含まれる.従って、本研究で行った処理によって約2万語程度がまとめあげられ、表記ゆれ解消に寄与できたと考える.
まとめ
日本語解析システム「雪だるま」の単語辞書に含まれる表記ゆれの解消を行うために, UniDicに含まれる情報を用いて表記ゆれのまとめあげを行った. UniDic内の情報だけではまとめ上げることのできない表記ゆれに対して6種類の手法を用いて8,798語の表記ゆれを獲得した. さらにUniDicのエントリー担い表記ゆれを獲得するために2種類の手法を用いて1,858語の表記ゆれを拡張した.
若手の会の発表時に受けた質問や意見
Q. 人手で見た時間は合計どれくらい?
A. 一つの手法につき、約3日程度です. 雪だるまでは仮に表記ゆれではない語を表記ゆれとして登録してもすぐ
に修正することが出来るため人手で見る時間を極力減らし、まとめあげる語の数を増やしています.
Q. 編集距離でのまとめあげでは表記を英文字に直したほうが良いのではないか.
A. その通りだと思います. 編集距離のまとめあげでは漢字とひらがなの表記ゆれの語が多数獲得できていました. しかし、本来編集距離でのまとめあげで獲得したい表現は「ねぷた祭り」「ねぶた祭り」のような漢字の違い以
外の地域によって言い方の異なる表現や言い換えの語であったため、漢字を無視した獲得をするべきでした. また、英文字でなくても全てひらがな表記に置き換えてから編集距離をとると良かったと思います.
Q. ひらがな、カタカナの曖昧性が高いのでそれらを解消することが出来れば更に良いと思う.
A. 既に一部のひらがなに関しては雪だるまのかな漢字換言モジュールを使うことで解消可能ですが、それ以外の語についてはMeCabで解析した結果を使用しているため現在は対応できません. 今後解析器の性能向上に伴って曖昧性の解消も出来るのではないかと思います.
Q. 表記ゆれでは無い語もパターンで抽出できたのではないか
A. おそらく抽出できるとは思いますが、表記ゆれではない理由が語ごとに異なるものが多いため、パターンを選定するよりも人手で見たほうが早いと考えました.
Q. 研究に雪だるまを使用したいが、表記をまとめあげた出力だけしかユーザー側は得られないのか.
A. いいえ、表層系という形で入力した文を形態素解析した結果もそのまま出力されます. 品詞の情報も付与さ
れます.
Q. 辞書は公開されている?
A. 公開されていません. しかし、本研究でまとめ上げた表記ゆれに関しては同様の機能が日本語解析器「雪だ
Q. 雪だるまのソースコードは公開されている?
A. 公開されていません.
発表を通しての所感
- 言語処理学会年次大会(2016年)に比べると一人あたりに割くことの出来る時間が長く、多くの人が興味を持ってくれるため質問や意見交換も多く行うことができたと思う.
- 当日は雪だるまのデモを使用した. デモを使うことで言葉での説明を大幅に減らすことができ、また伝わりやすかったのではないかと思う.
- 企業の方が多く参加していた. 特に最近自然言語処理について研究を始め、YANS初参加の方が多いせいか学生よりも企業の方で興味を持って頂ける方が多かった. 雪だるまの特徴であるIDを用いることで辞書の拡充・修正が容易であることが特に好評でした.
- 雪だるまのソースコードや辞書の公開についての質問が度々あり、このような資源・ツールの需要が高いことが再認識できた.
- ブースターセッションの準備をしておらず、当日に作成した. 同部屋の初参加の方も同様に知らなかったようなので、以降参加する場合は注意が必要である.
- 発表時間が1時間50分程度と長いため、水(500ml)程度を持ちながらの発表が望ましい.
- 発表のポスターの写真を撮る方が多いため、A4サイズに直したポスターを手元に持っておき、それを配ると良いかも知れない. また、その資料に名刺を貼り付けて置くと更に良さそう(そのような名刺の配り方をされている方がいた).
興味を持った発表
- P1. RoboCup @Home リーグにおける命令文相からの行動設計, 土田 祟弘 (九工大)
- 発表者は音声認識について研究していたが、ロボットに命令を伝えるにあたって自然言語処理を利用. 動詞のパターンによって行動を制御していた.(パターンは100種以上)
- P5. 強調Web検索における合意形成を促進する情報推薦と説明付けの検討, 富永 富夢ら (阪大)
- 旅行先等で複数人でのline等の対話によって店を決定する際の意見の合意を早める研究.最終的に決める店が会話の途中で一度議題に上がったのにも関わらずその後もしばらく決まらなかったというデータから、無駄な時間を省くためにはどのようなメッセージをlineで話者に送ることで改善出来るかを考える.
- S05. NEC-産総研人工知能連携研究室のご紹介, 大西 貴士 (産業総合研究所)
- 未知の事故や異常が起きた時に今までは経験豊かな技術者が対応していたが、経験豊かな人間が常にいるとは限らない. そのような場合でも臨機応変に対応するために、過去のデータをデータベース化しスパコンに学習させ続けることで未知の事象が起きた場合にAIから新たなマニュアルを技術者に伝えるようなサービスをテストしている.
- O8. スマートニュースにおける自然言語処理と機械学習, 徳永 拓之 (スマートニュース株式会社)
- Entity linking(テキスト中のキーワードに対してwikipediaなどのリンクを貼る)を行う上での難しいリンクの話. マイケル多すぎ(6,400人), 700年前の僧侶が憎い(日目(ニチモク)), 全角ハイフン多すぎ問題
- P37. 視線情報を用いた日本語述語項構造解析モデルのパラメータ推定, 牧 諒亮 (東工大)
- 視線情報を使って、述語にかかっている語を推定する. 被験者によって得られるデータに差があるので、視線情報のとり方も難しい(この研究では被験者の正解率は考慮していなかった).
- P41. 統計的言語モデルを用いた医薬品候補化合物の選別, 池端 久貴 (総研大)
- 統計的言語モデルを用いて新しく作った医薬品が有効な薬かどうかを判別する?
その他- 招待講演などでも言われていたが、今回の若手の会ではマルチモーダル(人間が受ける複数の感覚の情報を利用する)が大きく取り上げられていた印象. 招待講演でも画像認識(物体認識)や音声処理の技術と自然言語処理を組み合わせた技術についての公演が多かった. (二次会の雑談でもこのことが取り上げられていた)
- 某企業さんの話によると、自然言語処理を始めたばかりで機械学習を用いて問題解決を目指しているが、いざ蓋を開けてみるとパターンによる処理でも十分に対応ができるものがある.無理に機械学習を使わないほうがいいのかも知れない(ブラックボックスが多く、原因がわからなくなる).
- 初参加の企業&学生が多かった.また、学生は修士学生だけでなく博士学生も多く、逆に学部生はかなり少なかった.
- 夕食の会場がとても広く、自由に交流ができた.
- 2次会がかなり盛り上がっていた. 来年も花火をやるらしい(バーベキューも同様).
- 企業の方が非常に多かった、部屋は人数が多いほうが良い部屋かも知れない.
写真
使用した移動手段
大阪駅 - 新大阪駅: 電車
新大阪駅 - 白浜駅: 特急くろしお 合計 約18,700円
(高速バスは多少高くても座席の広いものにしたほうが絶対に良い)
|
|