2nd Week - 2013.01.14, 2013.01.17

Presentation


Note


##後藤「かな漢字変換」
       ###CONTENT:
        変換候補の優劣の決め方
        文字数の区切り方(Ngram) ⇒ 意味が変わる
        構文解析と並列に行われる。

        同音語の区別。助動詞があれば意味は特定されやすい
            ⇒共起辞書 (どの単語が一緒に出やすいか) : ヒューリスティクスに作成されている。
            ⇒
            大統領は法案が通過すれば直ちに交付するつもりである。                          
        文脈からの同音語の選択
            ⇒語のニューラルネットワーク

          系列ラべリング(CRF++)
            3-gram, 前の品詞データを用いるだけでもかなり低い
            連想配列? Google Set(Baysian Set)

        汎化
        (Distant supervision) 動詞の汎化、格フレーム(Frame Net)
            ⇒ Bootstrop法
        深層格および動詞の汎化辞書の作成     
       

    ###KEY:
        かな漢字変換、ヒューリスティック、系列ラべリング
        Kytea, 汎化, Distant supervision,
       
       
    ###MEMO:
        フォントが小さい
        後のニューラルネットワーク
     
##高橋「換」
       ###CONTENT:
        テキストマイニングについてNo.2
       
        テキストマイニングの実用例
            質問応答処理
                富士山高さは? ⇒ 3776メートル
                聞いてる箇所はどうやって取り出すか? 何だけではないはず

            情報抽出
            機械翻訳:エスぺランド
                文脈⇒本音 を抽出できたら面白い(間接表現)
                中間方式 ⇒ EU圏で盛ん(英語⇒フランス語、ドイツ語に直していく)
                    中間言語を使う意義は少ない⇒アジア圏で
                トランスファー方式
                   
        テキストマイニングの基礎
            1.テキスト処理
                テキスト解析、固有表現解析、構文解析
            2.辞書の整備⇒単語の汎化
            3.データの分析
                検索手法
                    全文検索
                    係り受け利用検索
                    文書構造検索
                クロス分析(共起分析):
                特徴分析
                    特徴:共起解析
                時系列分析
                    噂の広まり方、 ホットワード
                            定期的...こっちは進んでる
                            突発的...かなり難しい
                評判分析:
               
        概念関係認識の矛盾の発見の研究( 課題RTE Task7)
            数値関係の常識関係の推論、矛盾発見:ACL論文. ACE:関係抽出
            モダリティ解析 ⇒ 評判分析
        非事実型質問
        Y型質問応答、How型質問応答
               
    ###MEMO:
        表記ゆれ、まとめあげ(JUMAN)  ⇒ たくさんあるWordNet
 

Speaker Deckの調子が悪くアップロードできなかったため
直接ファイルを上げます。

Ċ
山本和英,
2014/01/13 18:47
Comments