読んだ文献や参考書の概要をここにまとめる。
1.日本語形態素解析における未知語処理の一手法 出典 ・日本語形態素解析における未知語処理の一手法.ー既知語から派生した表記と未知オノマトペの処理ー ・笹野 遼平, 黒橋 禎夫, 奥村 学 ・自然言語処理 Vol.21 No.6 P.1183-1205, (2014) 概要 ・日本語形態素解析における効率的な未知語処理の手法の提案。 ・既知語から派生ルールと未知オノマトペ認識のためのパターンを利用。 ・Webから収集した10万文を対象に実験を行った結果、新たに約4500個の未知語が認識できた。 形態素解析の誤りの要因として辞書に含まれない語や表記(未知語)の存在がある。 従来の形態素解析の未知語処理の研究では、事前に未知語をコーパスから自動取得するか、未知語を形態素解析時に自動認識する方法が有名であるが、 本稿では未知語はタイプにより適切な処理方法が必要とし、既知語から派生したタイプなら既知語と関連付けて解析を行い、純粋な未知語ならばコーパス中のフクスの用例を考慮して判断する必要があるとしている。 そのために、既存の形態素解析システムを改良し、各語におけるルールを導入した。 派生語の自動認識ルールとして、 ・濁音化した語:(例)「こたつ」→「ごたつ」を追加 ・長音記号による置換を含む語:(例)「おはよう」→「おはよー」を追加 ・小書き文字による置換を含む語:(例)「おはよう」→「おはよぅ」を追加 ・長音記号の挿入を含む語:(例)「冷たい」→「冷たーい』を追加 ・小書き文字の挿入を含む語:(例)「冷たい」→「冷たぁい」を追加 完全な未知語の自動認識ルールとして、 ・反復型オノマトペ:(例)「ぐじょぐじょ」 ・非反復型オノマトペ:(例)「ぐっちょり」 結果として本ルールを用いた場合、濁音を除く未知語において、UniDicよりも高い再現率を実現した。 また、10万文に対してテストしたところ、既存のものに、本手法を加えたところ、新たに約4500個の未知語が認識できた。 悪化した箇所は約80個であり、ほとんど悪影響は与えていないことも確認できた。 またこの文献は、文献紹介にも使用したので、その時に作成した資料を付ける。 2.日本語語義曖昧性解消のための訓練データの自動拡張 出典
・日本語語義曖昧性解消のための訓練データの自動拡張 ・藤田 早苗, Kevin Duh, 藤野 昭典, 平 博順, .進藤 裕之 ・自然言語処理 Vol.18 No.3 .P273-291 , (2011) 概要 ・様々なコーパスを利用して、訓練データの自動拡張を試みた。 ・訓練データの自動取得により79.5%の精度を得ることが出来た。 ・更に、追加する訓練データの上限を制御したところ、最高80.0%の精度が得られた。 語義曖昧性解消(WSD)には様々な手法が提案されてきたが、教師あり学習法による精度が高いことが知らている。そこで本稿でも教師あり学習をベースとして実験を行った。 訓練データが少ない場合、訓練データのみを用いた学習では推測できないため、本稿では、訓練データの自動取得による精度向上を試みる。 訓練データの自動取得として、定義文から比較的抽出しやすい例文に着目し、例文を用いて訓練データの修得を行った。 訓練データとして、白書、新聞、本、雑誌の分野からあり、評価データにはヤフー知恵袋のデータもある。 このデータには岩波国語辞典の語義を元にIDを付与してある。 訓練データの例文をMecab+UniDicで形態素解析を行う。 言語資源として、Lexeedを用いる。Lexeedと岩波国語辞典の語義は類似度が高い物同士がリンクされている。そのため、Lexeedの語基を岩波国語辞典に置き換えて訓練データとして利用。 現代日本語書き言葉均衡コーパス(BCCWJ)のデータから岩波国語辞典の例文を利用し、訓練データを取得する。 実験には最大エントロピーモデルを使用したが、これはSVMよりも精度が良かったためである。 結果として、文章の難易度が低い場合には、訓練データを追加すると精度が低下し、難易度が高い場合には精度が上昇傾向にある。 この結果から、自動的に訓練データを追加すると精度向上に寄与できることが示し、低難易度では訓練データを追加せず、中・高難易度では追加したほうが良い事が分った。 またこの文献は、文献紹介にも使用したので、その時に作成した資料を付ける。 3.絵本のテキストを対象とした形態素解析 出典 ・絵本のテキストを対象とした形態素解析 ・藤田 早苗, 平 博順, 小林 哲生, 田中 貴秋 ・自然言語処理 Vol.21 No.3 P.515-539 , (2014) 概要 ・主に新聞などのでは高い解析精度が得られているが、異なる分野のでは得られないことがある。 ・提案手法として、言語資源を対象分野の特徴に合わせて自動的に変換する。 ・本稿では絵本を対象として行った。 絵本は幼児の言語発達を支える重要な一つであり、解析できるようになれば、発達心理学・教育支援に貢献できる。 絵本はひらがなが多く子供がわかりやすい文章になっているが、既存の解析器ではうまく解析できないことがある。 その理由として、形態素解析器を作るときに用いられた学習データが解析対象(ここでは絵本)と大きく異なったために起こる。 同様に、学習データと解析対象の分野が異なると、形態素解析に限らず機械学習も用いる多くのタスクで精度が低下する。 本稿の手法は既存の辞書やラベルありデータを対象分野の特徴に合わせて自動で変換し学習データを作成する。 比較対象として絵本をアノテーションしたデータを作成した。 形態素解析器にはKyTea(キューティー)を使用した。これは周囲の文字情報を使用するため、柔軟に言語資源を利用できる。 空白の影響を調べるために、同じ文で空白の有り・無しで形態素解析をおこなった。その結果、MeCabでは空白は文字の区切りとして有効活用されていることが分った。 空白を追加したり、漢字をひらがなに変換したテキストを学習データに使用するだけで、精度が約25%上昇した。 この結果から、一般向けのテキストを学習データに利用する場合でも、解析対象の出現傾向に合わせて変換することで相当な精度向上が得られた。 また、提案手法によって得た学習データはアノテーションによって作られた約11000行、90000形態素と同等の精度が出た。 またこの文献は、文献紹介にも使用したので、その時に作成した資料を付ける。 4.結合価パターンを用いた仮名漢字変換候補の選択 出典 ・結合価パターンを用いた仮名漢字変換候補の選択 ・吉田 真司 ,徳久 雅人 ,村上 仁一 ,池原 悟 ・言語処理学会 第10回年次大会 発表論文集 A6-5 pp.717-720 , 2004 概要 ・現在、かな漢字変換器において高い変換精度を誇るのは単語連鎖確率を用いた手法がある。 ・近年では、意味解析を用いる手法が現実味を帯びてきた。 ・本稿では結合価パターンを用いた候補選択を行う手法を実現し、その有効性を調査する。 単語連鎖確率を用いた、かな漢字変換は、変換候補を大量に出力することが出来る。また結合値パターンを用いると、意味的な適切性が判断できる。そのため、これら両方を統合したアルゴリズムを作成。 作成方法として、入力文の単語列で隣接する単語間の連鎖確率を計算し、出現確率を求め、高い順から候補とする。また入力されたひらがな文に対してかな漢字 変換をおこない、出現確率の高い上位32文の候補を作成した。不要な文を削除するために、文法的に不適切な文の削除をおこなった。形態素解析をおこないエ ラー時の出力を用いて品詞間の接続に誤りがある候補を削除する。意味てきに不適切なものを削除するためにルールベースをもちいて、意味的結束が正しくない 文の削除をおこなう。 評価として、正解文と完全一致とする基準と、人手で正解文と見比べて判定する基準の2つの評価基準を設けた。人手で判断をおこなう理由は、漢字が絶対的には定まらないことにある。 実験結果より、候補32個が全て削除された件数の割合が36%であった。従って、候補を正しく選択することの適合率は86%となり、64%より高い結果となっている。これより、全てにおいて正解率の向上が見られ、本アルゴリズムの有効性が確認できた。 またこの文献は、文献紹介にも使用したので、その時に作成した資料を付ける。 5.統計的かな漢字変換システム Mozc 出典 ・統計的かな漢字変換システム Mozc ・工藤拓,小松弘幸,花岡俊行,向井淳,田畑悠介 ・言語処理学会 第17回年次大会 発表論文集 C4-3 pp.948-951 (2011) 概要 ・Google日本語入力の開発の話 ・かな漢字変換システムには様々な処理が実環境では要求されることが分った。 ・Webコーパスを用いた統計的かな漢字変換システムとなっている。 統計的仮名漢字変換において、言語モデルにはクラスバイグラムモデル、かな漢字モデルには単語読みユニグラムモデルを用いている。 Mozcは形態素解析器によって得られた形態素情報をベースに設計しており、以下のルールによりクラスを決定している。
・IPA品詞体型の最も深い品詞階層を使用 ・活用する単語は、活用形、活用形も全て展開 ・助詞、助動詞、非自立の内容語は全て語彙化 ・頻出する動詞、固有名詞以外の名詞、形容詞、接尾辞、接頭辞は語彙化 クラス数は3,000程度になる。 かな漢字変換モデルは、読みと単語のペアと推測されるデータをWebなどからマイニングし、そのデータから推定法により計算する。 複合語化したい単語列を形態素列の正規表現パターンを使ってWebコーパスから抽出し、頻度がある一定以上のものを複合語として辞書に登録する。 Webから自動的にマイニングした辞書を内蔵することで固有名詞の変換精度を向上している。
Web辞書をユーザー辞書に登録する手法は、Web辞書を全く使用しない手法に比べて、精度が低下している。これは単純に語彙を増やすだけでは副作用が避けられないことが裏付けとなっている。
Mozcは識別モデルを使用しない。その理由はWebの統計を反映しにくくするなどがあるためである。 文節分割の無いかな漢字変換システムの場合、文頭から文末につながる全候補をアルゴリズムを使い確率順に列挙すればN-Best候補が得られる。 学習機能として、ユーザが既定とは異なる候補を選択した時にシステムがその動作を学習し2回目以降は過去に選択された候補を自動的に提示する。 かな漢字変換器の評価として読みとそれに対応する正解かな漢字混じりの文のペアからなる評価コーパスを用いた。 Mozcでは絶対に間違ってはいけない変換例を収集し、その全てをパスしないと出荷しないという方法をとっている。
リリースから1年3ヶ月たち、語彙の拡張など変換精度に関する更新をおこなってきたが、BLEUのスコア自体には大きな変化は無かった。しかしユーザが感じる違和感は軽減させることに成功した。 6.適応変換辞書方式かな漢字変換システムの性能測定 出典 ・適応変換辞書方式かな漢字変換システムの性能測定 ・栃内香次, 岡沢好高 ・情報処理学会論文誌 Vol.26 No.4 pp.733-739 ,1985 概要 ・先に、学術論文の作成を主目的として漢字変換式日本語入力システムの試作をおこなった。 ・しかし、入力した漢字の数が少なく、検証が不十分であった。 ・今回、4つの分野において、それぞれ15000語程度の入力をおこなった。 システムの概要として、変換辞書の内容は2500語で書く漢字語の読み、漢字符号、およびその後を特定できる補助情報が登録されている。各漢字 語には使用頻度と使用履歴を示す2個のカウンタが有り、文の入力中に出現した未登録語を新規に変換辞書に登録する際に、頻度が小さく、かつ最近使用されな い語を削除してその後に登録するようにして、収録後の適応を実現している。同音語が出現した時はそれぞれの補助情報が表示され、それを見て使用者が選択す る。この時、選択結果を固定し、以後その同音語が出現した際に内部で自動的に選択することが出来る。 文章から漢字を抽出して変換辞書に登録する際には、長い漢字列をいくつかの語に分割する必要がある。例えば「大型電子計算機」は「大型」「電子」「計算機」の3つに分割される。辞書は最長5文字までの語を登録できるようになっている。 実験結果より、同音語の出現確率は1つの文献中にすべてが出現することはあまりなく、通常は、同音語のうちいずれか1語のみ頻出する傾向があることがわ かった。これより、最初に変換した同音語の固定化の効果が大きく現れていると考えられる。誤変換発生率としてはおよそ2%以下であり、特別な傾向は見られ なかった。 考察として、正変換率が85%に達するようであれば一応実用に耐えうる。そのため、小型の変換辞書であっても比較的容易に実用性のあ るかな漢字変換システムを実現できると結論される。また誤変換において、入力ミスによる物もあったが、0.5%以下であるため、大きな影響は与えていない と考える。 7.自動獲得した未知語の読み・文脈情報による仮名漢字変換 出典 ・自動獲得した未知語の読み・文脈情報による仮名漢字変換 ・笹田 鉄郎, 森 信介, 河原 達也 ・自然言語処理 Vol. 17 No. 4 P.4_131-4_153 , (2010) 概要 ・未知語の問題は、仮名漢字変換における重要な課題の1つである。 ・未知語の読み・文脈情報をコーパスとして自動獲得し、仮名漢字変換の精度向上に利用する手法を提案する。 ・学習コーパスとして用いることで、精度が向上することを確認した。 かな漢字変換器の使いやすさは変換精度に大きく依存するため、常に高精度に変換することが求められている。近年では確率言語モデルに基づく変換 方式である統計的仮名漢字変換が広まりつつある。変換精度を向上させる上で問題となるのは、多くの言語処理システム同様、未知語の取り扱いである。本論文 では、テキストと内容の類似した音声を認識することで未知語の読み・文脈情報を単語とその読みの組として自動取得し、統計的仮名漢字変換の精度を向上させ る手法を提案する。手法の概略として、まず情報の付与されていない対象分野のテキストから、未知語の出現を考慮した単語分割コーパスを作成し、未知語候補 の抽出をおこなう。次に未知語候補のよみを複数推定・列挙し発音辞書を作成する。その後、音声認識結果から単語と組みの列を獲得する。最後に獲得した単語 と読みの組の列を統計的仮名漢字変換の学習コーパスに追加して言語モデルの仮名漢字モデルを更新する。 実験では、統計的仮名漢字変換のモデル構築に用いる一般分野のコーパスに、獲得した未知語の読み・文脈情報を追加し、モデルを再構築することで変換精度が向上することを確認した。これより、統計的仮名漢字変換の効率的かつ継続的な精度向上に有効である。 8.確率的モデルによる仮名漢字変換 出典 ・確率的モデルによる仮名漢字変換 ・森信介, 土屋雅稔, 山地治, 長尾真 ・情報処理学会論文誌 Vol.40 No.7 pp.2946-2954 1999 概要 ・確率的モデルによる仮名漢字変換を提案。 ・結果、再現率は95%と非常に高い結果を出した。 ・確率的モデルによる仮名漢字変換の有効性を示した。 計算機に日本語を入力する他の方法として、音声認識が最近脚光を浴びている。確実な操作という点では、キーボードを用い
た仮名漢字変換による入力に及ばないが、確率を利用するというパラダイムは注目に値する。つまり、根拠の無い規則や重み付けに頼らず、現実に存在する膨大
な数の文からそれぞれの確率的言語モデルと確率的音響モデルを構築していく。そして、未知の入力をこれらのモデルに照りあわせて、最も確率の高い文字列を
出力する。これは確率モデルによる音声認識と呼ばれており、現在の音声認識の主流になっている方法である。このような確率的モデルの成功を踏まえて、本論
文では確率的モデルによる仮名漢字変換を提案する。どのような日本語が出現しやすいかを記述する確率的言語モデルには今日までに蓄積された研究成果を用い
ることが出来る。単語をクラスと呼ばれるグループに分類することで、言語の記述精度を有意に向上させている。 確率的モデルによる仮名漢字変換の 有効性を確かめるために変換実験をおこなった。この結果クラス2gramモデルのよる再現率は95.07%であり、適合率は93.94%であった。これは 市販の仮名漢字変換の1つであるWnn6の同じテストコーパスに対する再現率と適合率を有意に上回っており、確率的モデルによる仮名漢字変換の有効性を示 す結果となった。
出典 ・あいまいな日本語のかな漢字変換 ・小町守, 森信介, 徳永拓之 ・情報処理学会夏のプログラミング・シンポジウム pp.51-55 , 2008 概要 ・Webテキストでは次から新しい用語が産まれるため、新語を人手で辞書に登録する方法は現実的ではない。 ・統計的手法に基づき、大規模なWebデータを用いたかな漢字変換システムを提案する。 ・本システムのポイントは、大規模テキストから推定した言語モデルを用いてかな漢字変換を行うことである。 近年Webを中心としたユーザーが入力する文章が爆発的に増加している。Webテキストでは次から次に新しい用語が生まれるため、新語を辞書に 登録する方法は実現的ではない。また高い精度で解析するための辞書作成には高度な言語学的知識が必要であり、多大な労力がかかる。 そこで本研究 は統計的かな漢字変換手法に基づき、大規模なWebデータを用いたかな漢字変換システムを提案している。単語の品詞情報の代わりに大規模テキストから推定 した文字の連接情報を用いて単語分割と変換をおこなう。大量のデータで品詞情報を補うことができると考え、品詞情報に頼らないことで辞書のメンテナンスの 問題を克服する。またWebデータを処理した大規模コーパス中に出現する単語を用いることで、特殊な未知ご処理を組み込まない場合でも適切な確率推定がお こなえるようになる。 これまでのかな漢字変換システムは、ヒューリスティックに基づく変換が広く用いられており、ルールによる返還のかな漢字変 換システムでは複数の複雑なルールを用いて変換をおこなう。これらのルールは言語学的な直観にもとづいて制作されたものであるが、数学的な裏付はない。 確率言語モデルにはGoogle日本語Nグラムを抽出したものでを用いた。また今回は1,2gramを使っている。本研究ではPythonを用いて統計的仮名漢字変換システムを実装した。ソースコードやドキュメントはここで公開されている。 10.自動未知語獲得による仮名漢字変換システムの精度向上 出典 ・自動未知語獲得による仮名漢字変換システムの精度向上 ・森信介, 小田裕樹 ・言語処理学会第13回年次大会論文集 pp.340-343, 2007 概要 ・利用するにつれて精度が向上する自然言語処理システムを構築する。 ・入力信号を自動変換するたびにモデルを更新し、システムの性能向上をさせる。 ・大量の入力が容易に集められる言語処理において特に有効と考えられる。 キーボードなどの入力は自然言語に関する何かしらの情報を有していると考えられる。従って、この情報を用いることで利用するにつれて精度が向上 する自然言語処理システムを構築することが可能であると考える。本論文では仮名漢字変換システムを例に取り、入力記号列を自動変換するたびにモデルを更新 し、これによりシステムの性能を向上させることができることを示す。 方法として、まず登録後に加えて分割情報のないテキストコーパスに出現する 全ての部分文字列も変換候補とする仮名漢字変換システムを構築する。次にその利用の際に得られる登録後以外の表記と入力記号列の組を用いて辞書を更新す る。さらに単語候補の表記を参照して言語モデルを再推定し、単語個法の文脈情報を取得する。この結果より性能が高い仮名漢字変換システムが構築される。こ のシステムの更新は人手を一切必要とせず提案手法は教師なし学習と見ることができる。これは大量の入力が容易に集められるときに特に有用と考えられる。 実験では一定の文字数の入力記号列を変換するたびにモデルを更新し、システムの性能を向上させることが可能であることを示した。この結果、利用するにつれて精度が向上する自然言語処理システムを構築することが確認された。 |