研究室‎ > ‎卒業生のみなさまへ‎ > ‎杢 真奈見‎ > ‎出張‎ > ‎NLP2013‎ > ‎

本会議2日目

B3

  

やさ日 NHK newsのための文分割

 

用言の文節の直後を切る(連用修飾)

 

関連研究

分割可能なら全部を分割するわけじゃないのが、やさ日

難易度を用いても分割しすぎる。←文書全体のバランスが悪くなるから

 

難易度・・・単語数、文数、係り受け間の距離

特徴・・・1文の平均長(やさ日ニュース)、節境界面

 

規則によるもの

・主語の補完
・文末表現の補完
・接続詞の補完

 

多くの分割点を組み合わせ、その中から特徴変数を用いて最適な分割点の判定

文数を増やし過ぎてもわかりづらくなる。

 

・分割してみたら、7割が適切(1名の日本語教師)

・分割したものとやさ日ニュースを比較

 分割精度が3割、再現率6割、全体精度5

 

     

Multilingual Paraphrase Extraction from Definition Sentences on the Web

定義文から変換対をとってくる話みたいだけど、どのくらい使えてるのか・・・?

やさ日に気を取られてたから、正直あまり頭に入ってなかった。

  

障害者のためのやさ日

障害者のニーズは千差万別な上、技術者はニーズをしらない。

 

まずはコミュニケーションの実態の把握が大事。

              → 言語行動・・・読む、書く、(聞く、話す)

                非言語行動

 

ステージ・・・知的障害者のための新聞(実際に知的障害者の方が編集)

                            ルビが振られてる。改行も多い。平易語を使ってる。

                                          →これから、やさしいとはどんなことかを研究

 

結果

特徴・・・難易語推定、形態素による高頻度語→小3から中2の日本語難易度(通常新聞が高1レベル)、サ変名詞が少ない

形態・構造・・・言い換えに着目→和語が多い、

 

実験

朝日新聞との比較

日本語難易度推定ツール(帯2)

 

KH coder サ変名詞の使用が半分以下

 

言い換えの分析

    時事ニュースやエンターテイメント

    類似している朝日新聞とステージ記事に対して、両者を人手で言い換え部分を探す。

    これを言い換え事例データとする。(121の事例)←要素(形態素の内容など)を足す

    7つの傾向・・・

        名詞+スル→和語動詞、補語+和語

        数字及び数詞→抽象的な表現(35人→40人近く)

        名詞系(3つ)→修飾部+体言、形容詞+名詞、文など

        修飾部+体言→文や句、平易な語へ

        品詞→品詞(格差→差など)

        ※日常的に使用するものはそのまま

 

言い換え事例の70%の傾向がわかった。

 

抽象的になることが多い!

正確な情報より、わかる単語で構成することが大事。

 

災害のやさ日の12ルール中の4つにあてはまり、類似部分もある。

 
招待論文

カタカナ語分割

 

・カタカナ複合語は日本語の新語形成の1つのパターン

カタカナ語の20%が未知語(2005web n-gramの半数がカタカナ語(2008

 

問題・・・過分割、非分割

 

識別学習による分割・・・言い換えと翻字に基づく素性を使用

言い換え・・・アンチョビソース→アンチョビのソース(助詞やスル、的な、「・」の部分が分割)

逆翻字・・・ジャンクフード→junk food(スペース部分)

 →カタカナn-gramと一致する

  → 1-gram スローフード(フード:food)・・・スロー/フード

  → 2-gram ○○××●●(○○ ××)・・・

 

翻字の発見方法

翻字ペアはwikipediaの存命人物の項目

潜在変数モデルを学習

モデルとウェブ上の大量の括弧表現に適用・・・○○(××)より〇〇=××

 
謝り訂正
 
英文または図から日本語作成←日本語母語話者が訂正
約3分の1は助詞・助動詞←今回の対象とする
変換で誤り訂正(翻訳と同じ考え)←助詞誤り以外にも拡張できる・・・しかし、学習者作文と修正文の大量のペアは収集しきれない
→日本語平文コーパスの利用、議事誤り文によるペアの拡張
 
・・・機械翻訳の話でした。
 
 
Comments