須戸 悠太‎ > ‎

文献調査(概要のみ)

1. 日本語機能表現辞書の編纂

松吉 俊, 佐藤 理史, 宇津呂 武仁

自然言語処理 Vol. 14 (2007) No. 5 P 123-146

日本語には、「にたいして」や「なければならない」に代表されるような,複数の形態素からなっているが、全体として1つの機能語のように働く複合辞が多く存在する。本稿では、機能語と複合辞を合わせて機能表現と呼ぶ。

機能表現について、表記揺れや複数形態素からなる表現などの問題を解決しようとする研究はほとんど存在しない。

本稿では、自然言語処理のための日本語機能表現辞書を提案する。

機能表現の異形を体系的に整理するために、見出し体系として、L1~L99つの階層からなる階層構造を用いる。この辞書には、341の見出し語と16,771の出現形が収録されている。

既存の機能表現リストと比較した結果、各々の見出し語に対して、ほぼすべての異形が網羅されていることが確かめられた。

 

2. 点予測による形態素解析

森 信介, 中田 陽介, Neubig Graham, 河原 達也

自然言語処理 Vol. 18 (2011) No. 4

現在の形態素解析器の主流は、コーパスに基づいた統計的方法である。しかし、学習コーパスに含まれない分野のテキストには解析精度は落ちる。分野特有の単語を辞書に追加することで解決できるが、対象となる分野のコーパスを追加し情報を付与することは、結果的にコストが高くなってしまう。

本稿では、形態素解析の問題を単語分割と品詞推定に分割し、処理に点予測(周囲の文字列の情報のみを利用)を用いる手法を提案する。

これにより、柔軟に言語資源を利用でき、信頼度の低い部分について人手で情報を付与することで、人的コストの削減に成功した。さらに、高い分野適応性を示す結果が得られた。また、既存手法と解析精度を比較した結果、同程度の精度が得られた。

 

3. 文体と難易度を制御可能な日本語機能表現の言い換え

松吉 俊, 佐藤 理史

自然言語処理 Vol. 15 (2008) No. 2

本稿では、形態階層構造と意味階層構造を持つ機能表現辞書を用いることにより、文体と難易度を制御しつつ、日本語機能表現を言い換える手法を提案する。

ほとんどの機能表現は、多くの形態的異形を持ち、その異形は、その文体として、常体・敬体・口語体・堅い文体のいずれかをとり、原則として、一貫して1つの文体を使い続けなければならないため、機能表現を言い換える際には、文体を制御する必要がある。また、文章読解支援などの応用においては、難易度の制御は必須である。

実装した言い換えシステムは、与えられた機能表現の出現形に対して、文体指定と難易度指定を満たす、意味的に等価な機能表現のすべての出現形を列挙することができる。

辞書には、単語辞書・単語列辞書・複合語辞書を用い、最大エントロピーモデルによって単語境界の推定を行った。提案手法の最大の特徴は複合語の参照が可能になった点である。これにより、一般に販売されている辞書を参照することが可能となる。

実装した言い換えシステムは、オープンテストにおいて、入力文節の79%(496/628)に対して、適切な代替表現を生成した。

 

4. 種類の辞書による自動単語分割の精度向上

森 信介, 小田 裕樹

自然言語処理 Vol. 18 (2011) No. 2

日本語や中国語のような、明示的な単語境界がない言語において、単語分割は重要なタスクである。しかし、様々な分野の文の単語分割の精度は高くない。

本稿では、日本語の文の自動単語分割の精度向上を図るための方法を提案した。

複合語を参照することにより、人的コストなしに、より高い分割精度の実現に成功した。また、単語列を参照することで、少ない人的コストでさらなる精度向上が実現されることが示された。

 

5. 機械学習を用いた日本語機能表現のチャンキング

土屋 雅稔, 注連 隆夫, 高木 俊宏, 内元 清貴, 松吉 俊, 宇津呂 武仁, 佐藤 理史, 中川 聖一

自然言語処理 Vol. 14 (2007) No. 1

日本語には、複数の語がひとかたまりとなって、全体として1つの機能的な意味を持つ表現が多数存在する。このような表現は機能表現と呼ばれ、日本語文の構造を理解するために非常に重要である。

本稿では、形態素を単位とするチャンク同定問題として機能表現検出タスクを定式化し、機械学習手法を適用することにより、機能表現の検出を実現する方法を提案する。

SVMを用いたチャンカーYamChaを利用して、機能表現の検出器を実装した。

実際のタグ付きデータを用いて性能評価を行い、機能表現を構成している形態素の数の情報、機能表現中における形態素の位置情報を素性として参照することにより、F値で約92という高精度の検出器を実現できることが示された。

 

6. ウェブコーパスと検索システムを利用した推量副詞とモダリティ形式の遠隔共起抽出と日本語教育への応用

Srdanović Irena, Hodošček Bor, Bekeš Andrej, 仁科 喜久子

自然言語処理 Vol. 16 (2009) No. 4

日本語におけるモダリティ形式および推量副詞と文末モダリティ形式との共起についての体系的な研究は自然言語処理の分野において不十分であり、このような情報は、日本語教育の分野においても、十分カバーされていない。

本稿では、SkEを利用した日本語の推量副詞とモダリティ形式の遠隔共起の抽出を可能にすること、日本語学習辞典への応用の可能性を示すことを目的とする。

調査の結果、代表的なモダリティ形式に関する情報とリストが欠如していることを明らかにし、SkEに遠隔共起関係の機能を追加した

抽出された共起の結果は、93%以上の精度で高く評価された。応用の一例として、日本語教育における様々な教育資源の作成のために、利用可能となることを示した。

 

7. 小規模誤りデータからの日本語学習者作文の助詞誤り訂正

今村 賢治, 齋藤 邦子, 貞光 九月, 西川 仁

自然言語処理 Vol. 19 (2012) No. 5

日本語学習者の作文の誤り訂正は、教育だけでなく、近年はビジネス上での必要性も生じてきている。

本稿では、置換・挿入・削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する。

大規模な学習者作文コーパスを集めるために、識別学習の枠組み上で2つの方法を用いて解決を図る。一つは少量の学習者作文から獲得したn-gram二値素性と大規模コーパスから獲得した言語モデル確率を併用する。もう一つは自動生成した擬似誤り文を訓練コーパスに追加する。さらに、擬似誤り文をソースドメイン、実際の学習者作文をターゲットドメインとしたドメイン適応を行う。

実験の結果、前者では再現率の向上ができ、後者では安定した精度向上が出来た。

 

8. 日本語学習者の動詞選択における誤用と正用の関係:作文支援のための基礎研究

中野 てい子, 冨浦 洋一

自然言語処理 Vol. 18 (2011) No. 1

日本語学習者が産出する名詞n, 格助詞c, 動詞から成る不自然な共起表現(n, c, v)の中には動詞選択の誤りに起因するものがある。

本稿では、学習者が入力する共起表現のvに対する適切な代替動詞候補を与える手法を提案する。

日本語学習者の作文中の誤用共起表現と正用共起表現を利用し、「誤用共起表現のvとの出現環境が類似している順に全動詞を並べた場合、vの代替動詞はその上位にある傾向にある」という仮説の検証を行い、本システムの信頼性が検証できた。

しかし、現在の規模のコーパスでシステムを構築した場合を想定し評価を行った結果、正用共起表現が自然と判定できない場合、正用動詞の順位が求まらないという問題点が明らかになった。

 

9. web 公開予定文法用例検索システム『日本語文法項目用例文データベース』の概要と目指すもの

堀恵子

 日本語学習辞書科研2011年度第1回全体研究集会. (20110829).

コミュニケーションに有用な文法項目を選択するためには、教育現場の教師が文法項目についてよく理解し、学習者の目的にあっているかを判断することが求められる。

本稿ではweb 上で文法項目の用例を検索して見ることができるシステムの開発を試みるものである。

既存のツールと比較すると、「少納言」とは意味が一致するものだけが抽出可能という点、「つつじ」とは扱う文法項目の数、用例文が示されている点が優れている。

本システムは、文法項目の用例文を提供し、文法項目に関する理解を深めることができるほか、表現形態、レジスターの違いによる頻度情報を与えることによって、学習者の目的に沿って教える文法項目を取捨選択ことができるよう資料を提供することができる。

 

10. 言い換えと逆翻字を用いた片仮名複合名詞の分割

鍜治 伸裕, 喜連川 優

自然言語処理 Vol. 19 (2012) No. 2

日本語では、複合名詞内部の単語境界は空白で分かち書きされない。特に、片仮名語は生産性が高く、未知後が多いことから、片仮名複合名詞の扱いが技術的な問題となる。

本稿では、片仮名複合名詞の言い換えと逆翻字を分割処理に利用する方法を提案する。分割処理を構造予測問題と捉え、線形モデルを用いて解く。また、片仮名語の多くは、元となる英語表現が存在することを利用して翻字対をラベルなしテキストから自動抽出する。これにより、分割精度の低下の要因となる未知語の影響を軽減させることが可能となった。

実験では、言い換えと逆翻字をラベルなしテキストから抽出し、その情報を利用することで、分割精度が統計的に有意に向上することを確認した。

Comments