B3 ① やさ日 NHK newsのための文分割
用言の文節の直後を切る(連用修飾)
関連研究 分割可能なら全部を分割するわけじゃないのが、やさ日 難易度を用いても分割しすぎる。←文書全体のバランスが悪くなるから
難易度・・・単語数、文数、係り受け間の距離 特徴・・・1文の平均長(やさ日ニュース)、節境界面
規則によるもの ・主語の補完
・文末表現の補完
・接続詞の補完
多くの分割点を組み合わせ、その中から特徴変数を用いて最適な分割点の判定 文数を増やし過ぎてもわかりづらくなる。
・分割してみたら、7割が適切(1名の日本語教師) ・分割したものとやさ日ニュースを比較 分割精度が3割、再現率6割、全体精度5割
② Multilingual Paraphrase Extraction from Definition Sentences on the Web 定義文から変換対をとってくる話みたいだけど、どのくらい使えてるのか・・・? やさ日に気を取られてたから、正直あまり頭に入ってなかった。
⑤ 障害者のためのやさ日
障害者のニーズは千差万別な上、技術者はニーズをしらない。
まずはコミュニケーションの実態の把握が大事。 → 言語行動・・・読む、書く、(聞く、話す) 非言語行動
ステージ・・・知的障害者のための新聞(実際に知的障害者の方が編集) ルビが振られてる。改行も多い。平易語を使ってる。 →これから、やさしいとはどんなことかを研究
結果 特徴・・・難易語推定、形態素による高頻度語→小3から中2の日本語難易度(通常新聞が高1レベル)、サ変名詞が少ない 形態・構造・・・言い換えに着目→和語が多い、
実験 朝日新聞との比較 日本語難易度推定ツール(帯2)
KH coder サ変名詞の使用が半分以下
言い換えの分析 時事ニュースやエンターテイメント 類似している朝日新聞とステージ記事に対して、両者を人手で言い換え部分を探す。 これを言い換え事例データとする。(121の事例)←要素(形態素の内容など)を足す ⇒7つの傾向・・・ 名詞+スル→和語動詞、補語+和語 数字及び数詞→抽象的な表現(35人→40人近く) 名詞系(3つ)→修飾部+体言、形容詞+名詞、文など 修飾部+体言→文や句、平易な語へ 品詞→品詞(格差→差など) ※日常的に使用するものはそのまま
言い換え事例の70%の傾向がわかった。
抽象的になることが多い! 正確な情報より、わかる単語で構成することが大事。
災害のやさ日の12ルール中の4つにあてはまり、類似部分もある。 招待論文
カタカナ語分割
・カタカナ複合語は日本語の新語形成の1つのパターン カタカナ語の20%が未知語(2005)web n-gramの半数がカタカナ語(2008)
問題・・・過分割、非分割
識別学習による分割・・・言い換えと翻字に基づく素性を使用 言い換え・・・アンチョビソース→アンチョビのソース(助詞やスル、的な、「・」の部分が分割) 逆翻字・・・ジャンクフード→junk food(スペース部分) →カタカナn-gramと一致する → 1-gram スローフード(フード:food)・・・スロー/フード → 2-gram ○○××●●(○○ ××)・・・
翻字の発見方法 翻字ペアはwikipediaの存命人物の項目 潜在変数モデルを学習 モデルとウェブ上の大量の括弧表現に適用・・・○○(××)より〇〇=×× 謝り訂正 英文または図から日本語作成←日本語母語話者が訂正 約3分の1は助詞・助動詞←今回の対象とする 変換で誤り訂正(翻訳と同じ考え)←助詞誤り以外にも拡張できる・・・しかし、学習者作文と修正文の大量のペアは収集しきれない →日本語平文コーパスの利用、議事誤り文によるペアの拡張 ・・・機械翻訳の話でした。 |