猪俣 慶樹‎ > ‎

文献調査 (考究プレゼン)

1.「コーパスベース国語辞典」構築のための「古風な語」の分析と記述
・出典
    柏野 和佳子, 奥村 学. (2014). 「コーパスベース国語辞典」構築のための「古風な語」の分析と記述. 自然言語処理, 21(6), 1133–1161.

・概要
    電子化編集が容易になり、電子化された国語辞典データや種々のコーパスが利用できるようになった今、豊富な用例を増補した電子化国語辞典が求められている。本論文では古さを帯びながらも現代語として用いられる「古風な語」を取り上げる。この「古風な語」の用法を使用実態に則して分析し、その辞書記述を提案する。具体的には、(1) 古典の引用, (2) 明治期から戦前まで, (3) 時代・歴史小説, (4) 現代文脈 に 4 分類する。そして、その 4 分類に基づく「コーパスベース国語辞典」の辞書記述方法を提案する。このような辞書記述は作文指導や日本語教育、日本語生成処理の際の語の選択の参考になると期待される。


・出典
    小澤 俊介, 内本 清貴, 伝 康成. (2014). 「コーパスベース国語辞典」構築のための「古風な語」の分析と記述. 自然言語処理, 21(2), 379–401.

・概要
 新しい品詞大系を用いる場合には、既存の辞書やコーパス、解析器では対応できないことが多い。このうち、辞書とコーパスは再利用できることが少なく、新たに構築する場合が多い。一方、解析器は既存のものを改良することで対応できる事は多いものの、改良の方法は明らかになっていない。本論文では、品詞大系の異なる日本語話し言葉コーパス (CSJ) と現代日本語書き言葉均衡コーパス (BCCWJ) を利用して、長単位情報を自動付与した場合に生じる誤りを軽減する方法について述べる。具体的には、CSJ と BCCWJ の形態論情報における相違点に応じて、超単位解析器の学習に用いる素性やラベルを改善した。相違点の改良を全て行った場合、ベースラインに対して、境界推定で約 0.2 %、品詞推定で 98.66 %の精度が得られた。


・出典
    柏野 和佳子, 奥村 学. (2014). 「コーパスベース国語辞典」構築のための「古風な語」の分析と記述. 自然言語処理, 21(6), 1133–1161.

・概要
 近年の音声技術の進歩によって、話し言葉の解析は自然言語処理の中心的なテーマの1つになりつつある。話し言葉の特徴には、言い淀み、言い直し、省略 などのさまざまな不適格性が挙げられる。これらは書き言葉には見られない現 象のため、従来の解析手法はそのままでは適応できない。本論文では、テキストに書き起こされた日本語話し言葉の文から、構文・意味解析の中で、不適格性を適切に扱う手法について述べる。本手法は、統一モデルを用いた係り受け解析の拡張によって実現される。結果的に、試験分の約半数に完全に正しい依存構造が与えらた。今後の課題としては、適用範囲の拡大と、不適格性の高制度化が上げられる。


・出典
    鍛冶 伸裕, 岡本 雅史, 黒橋 禎夫. (2004). WWWを用いた書き言葉特有語彙から話し言葉語彙への用言の言い換え. 自然言語処理, 11(5), 19–37.

・概要
 書き言葉で使われる語彙と、話し言葉で使われる語彙には大きな違いがある。そのため書き言葉テキストから合成された音声は人間には不自然に聞こえる。書き言葉テキストから自然な音声の合成を可能にするために、本論文では、書き言葉特有語彙から話し言葉語彙への言い換えを学習する手法を提案する。ある表現が書き言葉特有語彙であるか、話し言葉語彙であるかは、その表現の書き言葉コーパ スでの出現確率と話し言葉コーパスでの出現確率をもとにして判断する。書き言葉コーパスと話し言葉コーパ スは WWW から自動収集したものを用いる(CSJ, BCCWJ が登場する以前の研究である)。実験の結果、書き言葉コーパスと話し言葉コーパスの収集精度は94 %、言い換え学習の精度は 79 %であり、提案手法の有効性を示すことができた。


・出典
    松吉 俊, 佐藤 理史, 宇津呂 武仁. (2007). 日本語機能表現辞書の編纂自然言語処理, 14(5), 123-146.

・概要
日本語は、「にたいして」や「なければならない」に代表される複数の形態素からなっているが、全体として1つの機能語のように働く複合辞が多く存在する。われわれは、これを機能語と複合辞を合わせて機能表現と呼ぶ。本論文では、自然言語処理のための日本語機能表現辞書について提案する。日本語の機能表現が持つ主な特徴の 1 つは、個々の機能表現に対して、多くの異形が存在することである。計算機が利用することを想定した辞書を編纂する場合、これらの異形を適切に扱う必要がある。われわれが提案する辞書は、機能表現の異形を体系的に整理するために、見出し体系として、9つの階層からなる階層構造を用いる。現在、この辞書には、341 の見出し語と 16,771 の出現形が収録されており、既存の機能表現リストと比較した結果、各々の見出し語に対して、ほぼすべての異形が網羅されていることが確かめられた。この辞書を利用することにより、機能表現を類義表現に言い換えるシステムを容易に構築することが出来ると考えられる。


・出典
    笹野 遼平, 黒橋 禎夫, 奥村 学. (2014). 日本語形態素解析における未知語処理の一手法―既知語から派生した表記と未知オノマトペの処理―自然言語処理,      21(6), 1183-1205.

・概要
 本論文では、形態素解析で使用する辞書に含まれる語から派生した表記、および未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する。提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う。Web から収集した 10 万文を対象とした実験の結果、既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し、解析が悪化する箇所は 80 箇所程度、速度低下は 6 % のみであることを確認した。今後の展望としては、各形態素の生起コストや連接コストを機械学習を用いて制定した形態素解析システムへの応用や、UniDic のように多くの表記バリエーションの情報が付与された辞書と組み合わせることを考える。


・出典
    近藤 恵子, 佐藤理史, 奥村 学. (1999). 「サ変名詞+する」から動詞相当句への言い換え情報処理学会, 40(11), 4064-4074.

・概要
 本論文では、「サ変名詞+する+接尾辞」からより平易な動詞相当句への言い換えを実現する方法を提案する。この方法は、5 つの言い換え規則と 4 つの辞書とアルゴリズムから成っている。与えられた入力に特別な接尾辞がなければ、最も基本的な置換の法則が適用され、サ変名詞ー動詞相当句対応辞書と動詞活用辞書が使用される。テイル形、使役動詞、受動表現、可能表現を表す接尾辞があれば、アルゴリズムにより最も適切な規則が適用される。その規則は、自動詞ー他動詞対応辞書と有情/非有情名詞辞書から得られる構文と意味の情報によって選択される。我々は、この方法に基づいた言い換えシステムを作成した。生活白書、犯罪白書から使役表現を 50 文ずつ、合計 100 文を選択し、対象とした。表層ヲ格決定部では 75 %の精度、ガ格決定部では 79 %の精度を得た。


・出典
    中川 裕志, 小野 晋. (1996). 日本語の終助詞の機能「よ」「ね」「な」を中心として. 自然言語処理, 3(2), 3-18.

・概要
終助詞「よ」「ね」「な」は、書き言葉の文には殆んど用いられないが、日常会話において頻繁に使われており、文全体の解釈に及ぼす影響が大きい。そ のため、機械による会話理解には、終助詞の機能の研究は不可欠である。本論文では、代表的な終助詞「よ」「ね 」「な」について、階層的記憶モデルによる終助詞の機能を提案する。まず、終助詞「よ」の機能は、文の表す命題が発話以前に記憶中のある階層に存在することを表すことである。次に、終助詞 「ね」「な」の機能は、文の表す命題を記憶中に保存する処理をモニターすることである。本稿で提案する機能は、従来の終助詞の機能が説明してきた終助詞「よ」「ね」「な」の用法を全て説明できるだけでなく、従来のものでは説明できなかった終助詞の用法を説明できた。他の終助詞については特に扱わなかったが、本論文で取り上げた終助詞と同様に、機能を与えることができる。


・出典
    山本 和英, 安達 康昭. (2005). 国会会議録を対象とする話し言葉要約. 自然言語処理, 12(1), 51-78.

・概要
近年の機械可読テキストの増大に伴ってテキスト要約技術はより一層重要なものになってきている。この中でも特に、国会会議録の要約方法とその評価について述べる。国会会議録には、丁寧表現の頻出や独特な言い回し等の特徴がある。また、会議における発言の書き起こしであることから、話し言葉の特徴も見られる。本論文では、この様な特徴的な表現に着目し、換言・削除することで要約を試みた。まず、単語n-gramの統計結果から得られた頻出する敬語表現を普通体の表現に言い換えた。次に、手がかり語を用いて頻出する冗長な表現や挿入句を推定し削除することによって要約した。これらの処理を約 20 年分の会議録に対して行なった結果、自由発話が含まれる会議録では 80 %程度の要約率が得られた。また、CSJコ ーパ スに対して本システムを適用した結果、平均要約率が約 84 %であった。したがって、本システムが国会会議録以外の話し言葉データに対 しても有効に働くことを確認した。また、これまで議会会議録は自然言語処理の処理対象とされてこなかったが、本論文では会議録が話し言葉としての性質をとても多く持つ言語資源であることを示した。

・出典
    笹野 遼平, 黒橋 禎夫. (2008). 自動獲得した名詞関係辞書に基づく共参照解析の高度化, 自然言語処理, 15(5), 99-118.

・概要
 共参照解析とは、ある表現が他の表現と同一の対象を指していることを同定する処理であり、計算機による意味理解を目指す上で重要な技術である。本論文では、自動獲得した知識を用いた日本語共参照解析システムを提案する。日本語における共参照の多くを占める名詞区間の共参照の解析では、同義表現知識が非常に有効となる。そこでまず、大規模なコーパスおよび国語辞典の定義文から同義表現の自動獲得を行い、自動獲得した同義表現を用いた共参照解析のシステムを構築する。さらに、より精度の高い共参照解析システムの構築のため、自動構築した名詞格フレームを用いた名詞句の関係解析を行い、その結果を共参照解析の手がかりとして使用する。新聞記事およびウェブテキストを用いた実験の結果、同義表現、および名詞句の関係解析結果を用いることにより、僅かな再現率の現象で、適合率は大幅に上昇した。今後の課題としては、文字列のマッチングや同義表現による言い換えでは解析できないような共参照関係の認識が挙げられる。


Comments