古宮嘉那子(農工大)、奥村学(東工大)決定木を利用した語義曖昧性解消のための領域適応手法の自動選択 領域適応 機械学習では、データAを用いてデータA用の分類器を作るのが主流 データAによって作った分類器をデータBに適用する 目的 最も効果的な手法をターゲットデータやソースデータの性質により自動的に選択する手法を示す 機械学習手法を機械学習で決めようってことです。 WSDのための領域適応手法 Random sampling ソースデータに加えて少量のターゲットデータをラベル付けして訓練事例とする Target Only フィルタリングによる削除 分類器:SVM まとめ 作成した決定木から、 ラベル付けした少量のターゲットデータによるシミュレーションの予測や 同ターゲットデータの最頻出語義の「ターゲットデータに一定以上似ているソースデータ」中の出現率 ソースデータ件数と「ターゲットデータに一定以上似ているソースデータ」の件数の比 が最適な領域適応の手法を予想する強力な手がかりになることが分かった。 質疑 決定木を使った理由 → 決定木:可読性、少ないデータで結果を出す。 人間が見ても分からないものを学習できるの? → できた 三谷亮介、小町守、松本裕治(NAIST)、隅田飛鳥(KDDI研究所)極大部分文字列集合を用いたWebテキストの語義曖昧性解消 語義曖昧性解消タスクとしての”隠語の有害性判定”の提案 隠語:特定の集団内で通用する言葉 有害性:違法行為、中傷などの意味を含む 成果の応用 SNSなどにおける書き込み管理のサポート Webテキストを用いる問題点 語義曖昧性解消において、単語の周辺文脈の情報は重要 独自の特徴により、既存の基盤技術がうまく適用できない場合がある 単語分割による素性では別々の素性として扱われる Webテキストは未知語比率が高い → 効率良く全部分文字列を素性として利用できる極大部分文字列を提案(岡之原2009) 極大部分文字列(本稿での定義) 全部分文字列の出現は集合に分割可能 各集合において、長さが極大かつ出現回数が2回以上 極大部分文字列を扱うことの利点 全部分文字列を考慮できる 教師なしに文字列素性を作成 出現頻度などパラメータ設定がかなおう 他の素性と併用可能 まとめ Webテキストの語義曖昧性解消における極大部分文字列の有用性を提示 極大部分文字列では複数の単語からなる表現をひとつの素性として扱える 隠語の有害性判定タスクにおいて 単語1-gramと比較して、極大部分文字列を用いると性能が向上 単語1~2-gramと極大部分文字列を併用すると再現率は最高値 質疑 文字n-gramを使うこともできる。 谷垣宏一、柴光輝、高山茂伸(三菱電機)シソーラス・文脈特徴空間の反復カーネル密度推定による教師なし語義曖昧性解消 背景:共通項目の抽出に語義を利用したい 目的:多義性の解消(出現啓と見出し対応の曖昧性を含む:日本語ローマ字表記、短縮表記に起因) 制約:入手可能なデータ量が限られており、ラベル付けも困難 → WordNet階層知識を利用した、データスパースネス・・・ 提案:密度推定を語義仮説に適用し、単語間で語義仮説の偏りを最大化 分布仮説:文脈が類似した語は類似の意味を持つ → 仮説の分布がかたよるほど尤もらしいと仮説→教師なし学習基準 まとめ 教師なし語義曖昧性解消方式を提案 密度推定を語義仮説に適用し、偏り(密度)を最大化 近傍語間の依存性を反映した同時推定 信頼性は、近傍語に含まれる異なり語の種類数に依存するとの知見が得られた 藤田早苗、藤野昭典(NTT)少数のラベルありデータからの語義曖昧性解消 辞書例文を利用したラベルありデータ獲得と、データ偏りに強い・・・ 問題 人手構築されたラベルありデータは、各語義数文〜数十文程度 ラベルありデータが全くない語義も存在 未知語義:辞書には定義されているが、ラベルありデータがない語義 新語義:タグ付与基準の辞書に定義されていない語義 提案 ラベルありデータの自動獲得法 辞書の例文と、入手が容易なラベルなしデータから高い精度の擬似ラベルありデータを作成 利点:辞書の例文を介して、例文より長く信頼度の高いラベルありデータを獲得 未知語義のラベルありデータも獲得可能 半教師あり学習法 識別モデルと生成モデルの並列学習・統合により、データ全体に適した分類ルールを獲得可能にする汎用的な・・・ 新納浩幸、佐々木稔(茨城大)外れ値検出手法を利用した新語義の検出 従来手法 WSDの信頼度 WSI 外れ値検出 提案手法 教師付きLOF + 生成モデル 鈴木啓輔、佐藤理史、駒谷和範(名大)アナグラム生成における文節列の意味的適格性の判定法の検討 アナグラムの定義 読み制約を満たす 文法的に適格(文法的に正しい) 意味的に適格(意味が通じる) 与えた文節集合の文節で構成される 文節の一般化 内容語を、より一般的な上位語や類語に置換 文節係り受けの一般化 文節の一般化を基に、文節係り受けを一般化する 質疑 一般化するときに素直なやり方は意味クラスに置換する。 頻度の高い単語に置換した理由は? しきい値の決め方? 渡邉陽太郎、水野淳太、岡崎直観、乾健太郎(東北大)隠れ変数を持つ識別モデルによる文間意味関係の学習 文間関係認識 ニ文間の意味関係を認識する問題 多様な言語現象を捉える必要のある難しい課題 概要 アライメントを隠れ状態とした学習 まとめ 文間関係認識のための条件付確率場のモデルを提案 文間の対応関係(アライメント)を隠れ変数としてモデル化 NAtural Logicの枠組みの導入による構成的な意味関係の導出 意味関係のみからパラメータ学習 周辺尤度最大化、Belief Propagationアルゴリズムの利用 |