Presentation Note##後藤「かな漢字変換」 ###CONTENT: 変換候補の優劣の決め方 文字数の区切り方(Ngram) ⇒ 意味が変わる 構文解析と並列に行われる。 同音語の区別。助動詞があれば意味は特定されやすい ⇒共起辞書 (どの単語が一緒に出やすいか) : ヒューリスティクスに作成されている。 ⇒ 大統領は法案が通過すれば直ちに交付するつもりである。 文脈からの同音語の選択 ⇒語のニューラルネットワーク 系列ラべリング(CRF++) 3-gram, 前の品詞データを用いるだけでもかなり低い 連想配列? Google Set(Baysian Set) 汎化 (Distant supervision) 動詞の汎化、格フレーム(Frame Net) ⇒ Bootstrop法 深層格および動詞の汎化辞書の作成 ###KEY: かな漢字変換、ヒューリスティック、系列ラべリング Kytea, 汎化, Distant supervision, ###MEMO: フォントが小さい 後のニューラルネットワーク ##高橋「換」 ###CONTENT: テキストマイニングについてNo.2 テキストマイニングの実用例 質問応答処理 富士山高さは? ⇒ 3776メートル 聞いてる箇所はどうやって取り出すか? 何だけではないはず 情報抽出 機械翻訳:エスぺランド 文脈⇒本音 を抽出できたら面白い(間接表現) 中間方式 ⇒ EU圏で盛ん(英語⇒フランス語、ドイツ語に直していく) 中間言語を使う意義は少ない⇒アジア圏で トランスファー方式 テキストマイニングの基礎 1.テキスト処理 テキスト解析、固有表現解析、構文解析 2.辞書の整備⇒単語の汎化 3.データの分析 検索手法 全文検索 係り受け利用検索 文書構造検索 クロス分析(共起分析): 特徴分析 特徴:共起解析 時系列分析 噂の広まり方、 ホットワード 定期的...こっちは進んでる 突発的...かなり難しい 評判分析: 概念関係認識の矛盾の発見の研究( 課題RTE Task7) 数値関係の常識関係の推論、矛盾発見:ACL論文. ACE:関係抽出 モダリティ解析 ⇒ 評判分析 非事実型質問 Y型質問応答、How型質問応答 ###MEMO: 表記ゆれ、まとめあげ(JUMAN) ⇒ たくさんあるWordNet Speaker Deckの調子が悪くアップロードできなかったため 直接ファイルを上げます。 |