研究室‎ > ‎卒業生のみなさまへ‎ > ‎杢 真奈見‎ > ‎出張‎ > ‎NLP2012‎ > ‎

本会議1日目

C1-1 音象徴の機械学習による再現:最強のポケモンの生成
商品のネーミングについて
ネーミング・・・音象徴と意味、組み合わせなどからつくられる。
文字からイメージされる→音象徴
人が受ける音象徴データの構築
ポケモン強弱判定テスト・・・2匹のポケモンを並べて、どちらが強いかを音の印象で判定する。判定するのはポケモンについての知識がない人。
ポケモンを対象とした理由・・・名前が多く、多様だから。
100種類・300セット
ex)カメックスとピッピ 一致率0.661~0.728:平均0.696
2体のポケモンの強弱の結果をSVMにかけて強いポケモンの名前をつくりだす。
強いポケモンを1体用意し、その文字列を1文字変えて元の名前とどちらが強いかを判定し、繰り返す。
そして強いポケモンVS弱いポケモンの場合、強いポケモンの勝率が高い(0.8弱?)。
?ただし、強いVS強い、弱いVS弱いは0.7、0.6くらいで、これは違いがあるのか微妙。

?C1-2 造語の過程に基づく複合オノマトペの検出手法
オノマトペ
ex)ふわとろのオムライス
辞書構築と意図理解→機械的に生成
音韻パターン 1.ABAB型を提示 さらさら
  2.オノマトペか? サ変名詞になれる傾向があるので「する」「して」をつける。
  3.チェック
派生オノマトペの中に複合オノマトペ(ガサガサ+ゴソゴソ=ガサゴソ)
手法:
2つの親  ゆるゆる・ふわふわを足す
中間状態 ゆるゆるふわふわ
子供  ゆるふわ・ふわゆる(兄弟)
頻度情報より、頻度の多い方を兄とする。

また、よろよろ+しくしく=よろしく みたいなのもある。←これも頻度情報で閾値を用いてカット。
ただし、兄が検出されたらその兄弟も引っ張ってくる。
親スコア 親と子は似た文脈で使われる→文脈類似度(共起語でベクトル計算)
  さらさらとさらつや、つやつやとさらつやのベクトル計算をし、それぞれをかけたものがスコア。
  ※今後は親同士の共起もみる。

入力:オノマトペ辞典内のABAB型505個 → コーパス:知恵袋 → 出力:子供の順位リスト(人手でチェック)
評価:子供スコアを使えば新オノマトペチェック可

?C1-3 Wikipediaのエントリ構造と編集距離を用いた専門用語抽出の試み
先行研究:専門用語の対象コーパスを用いる。しかし、出現率が低い単語は一般名詞も含んでしまう。再現率が低い。
手法:異なる分野コーパスの解析
ある記事を提示。この記事が含まれる文書を検索。それら文書に含まれる記事をアップ。それらに含まれる単語をアップ。→ほとんど専門用語となった。

C1-4 放送ニュースの基本語彙の抽出
NHKのニュースにおける基本語彙
現在ある基本語彙1500語では自然な文は不可能。
頻出用語、時事用語、専門用語は書き換えずに説明した方がいい。
頻出用語→ニュース基本語彙となるのではないか。(基本語彙と特徴が似てる)

条件: 頻度が高い これだけだと流行やジャンルに偏る
 使用領域が広い 
  両方使用することによって、流行やジャンルに偏らない
①単語wを含むニュース数をだす
②相対頻度(KL情報量+単純頻度の逆数)
ニュースをジャンル・時期ごとに分類
全単語に近ければOK
③単純頻度の二乗 均等な値は高い
語彙リスト間の比較

C1-5 実テキスト解析をささえる語彙知識の自動獲得
ブログやTwitterの未知語・品詞の獲得
ex) ワタシ、爽健美茶派です。→ ワタシ/、/爽/健/美/茶/派/です/。
上記な現在の分かち書きをwikiから「爽健美茶」を獲得し、上位語として清涼飲料を取ってくる。
さらに、読み、異表記、カテゴリも取ってくる。
ex)カサつく
webテキストから取ってくる。
Wikiの場合↓
単一形態素の場合はJUMAN、複数形態素の場合はKNPを用いる。
ex)    JUMANにて。
        単語                上位語            カテゴリ
        ロナウジーニョ    サッカー選手    人
 
A1-6 照応・共参照解析に基づく文章の首尾一貫性の指標
照応の問題。首尾一貫の先行研究は英語で、sub/obj/その他で分ける。そこで、提案手法はハ/ガ/ヲ・ニ/その他で分ける。
○○は~。これが~。しかし××は~。 ←「しかし」で主語が変わる。このように順番に書かれているものは読みやすく、この状態が首尾一貫らしい。
○○は~。しかし××は~。これが~。 ←「しかし」で主語が変わるが、最後の文がどの話題について書かれているかが曖昧になる。これはダメ。
 
A1-7 日本語学習者の作文の誤り訂正に向けた単語分割
先行研究は文が単語に分割されていることが前提となっている。提案手法は分かち書きされていなくても使用可能。
ex) でもじよずじゃりません → で/もじ/よ/ず/じゃ/り/ま/せ/ん
       ↓
   でもじょうずじゃありません → で/も/じょうず/じゃ/あ/り/ま/せ/ん
誤り・・・正しい単語に入れ替えると、正しい文になる文字列
学習者の文とそれを訂正した文を分かち書きしたもののコーパスを使用。
①変化している部分を検索
     削除
  でもじ ょう ず じゃ りません
       挿入    挿入
②単語の切れ目を見つけて、単語を検索。
  でも|じよず| じゃ|   りません
  でも|じょうず|じゃ|あ|りません
 
A1-8 解説文作成における文章技術と評価の分析
目標:書く力をつけること
教育的には答えを教えるのではなく、考えてもらえる支援を・・・。
 
A1-9 外国語母語話者が作成する日本語技術文書を対象とした訂正履歴の分析
日本の企業が外国人に開発を依頼するオフショア開発が多く行われている。
外国人技術者(かなりの日本語ができる)が日本語技術文書の全てを日本語で作成し、日本人によるチェックが行われる。
せっかくオフショアでコストを下げようとしているのに、日本人のチェックはコストがかかる。
間違えやすい点をチェック
①中国語母語話者が犯しやすいもの     53%    ←助詞の変更・追加、動名詞の混合など
②技術文書的に不適切                       23%
③文脈依存の大きな範囲の修正          13%    ←語彙選択、表記ゆれなど
④文脈理解に支障がでる                    11%
 
C2-3 機械翻訳文言い換えシステムにおける学習機能の拡張
不自然さを言い換えで直す。
ex) I saw an old doctor.
        古い 医者に
       年老いた 医者に
 
C2-5 印象尺度に基づいた文章言いかえ手法
敬語への言いかえだけでなく、名詞も適切なものを。
ex)             ギャルとランチを食べた。
先行研究    ギャルとランチを頂いた。(丁寧な「頂いた」を使用しているのにもかかわらず、「ギャル」「ランチ」はカジュアル過ぎる)
提案手法    女性と昼食を頂いた。
名詞と動詞で同義語取得。そして共起(カジュアルやフォーマルな単語との共起)でカジュアルなのか、フォーマルなのかを設定。
印象辞書により属性(フォーマル、カジュアル)を用いた。
評価結果としては、印象が変わらなかった。(「する」「なる」との共起で間違った名詞が多かったらしい)
 
C2-6 法令文の構造的書き換え
法令文は文が長く、特徴的な用語・構造を用いる。
その構造をうまく理解し、短く分けたり、ゼロ代名詞の問題を解いたりしようというもの。
 
C2-7 Supervised Recognition of Entailment Between Patterns
「一休」の話。
・・・英語は難しいです。
 
C2-9 大学入試センター試験を題材とした含意関係認識技術の評価
センターの知識を問う問題(問題が「以下の中から正しいものを選べ」で4択とかになっているもの)は教科書を見ればわかる。
つまり、これから含意・非含意の文が取り出せるのではないかという話。
「教科書」と「各選択肢」が含意・非含意の文となり、「各選択肢」の正誤が含意か非含意かのラベルとなる。
評価:4択を解こうとすると、ランダム(25%)よりいい(56%)。
Comments