4thWeek - 2014.01.30

自然言語処理研究室 B3ゼミ 第4回
==============================
last update:2014.01.30

発表スライド
---------------

    反省:
        色々な論文を広く読んでから⇒まとめるという作り方をした方が良い
        俯瞰的内容と仰望的内容があるともっと良いと思う
        関連論文は5個は拾っておきたいところ
    jKeywords:
     ##推論エンジン
        Foxy - 東北大学乾研究室
    ##質疑応答システム:
        Non-Factoid質問(Why, How)…山中,
        Factoid型質問
            Watson … 動的にKBを構成しなおせるらしい. Watson
    **述語項構造** → 言語学会必須
    含因関係, 言い換え ,
    ##a世界知識, 関係因子, 関係の自動拡張
    Freebase, DPedia, YAGO → 日本語に拡張できそうな話. 企業はやってるはず…表にでてこない
   
   
    メタオントロジー, ラフ集合

    質問:

高橋 - コーパスについて
---------------
    * 「ベーシックコーパス」… 言語学に基づいた書籍
   
    * コーパスとは
        言語のデータベース
        実例を用いる
         書き言葉と話し言葉...BCCWJ(少納言)

    * データ規模 … 大きければ大きいほど良い(統計的根拠 規模100倍⇒精度10倍)
        大規模 ~ 1億語の程度が目安.
        超大規模コーパス
        研究目的ごとの二最適なコーパスサイズがあるとする
        e.g. 中学生の英作文コーパス;  中学生

    * コーパスデータの収集方法
        1. 悉皆的収集方法
            構築コスト小. 理想的
        2. 均衡的収集方法
            信頼度高い
            層化抽出…カテゴリごとに収集する.
            無作為抽出…無作為に標本を取り出す. 
            Q.比率をどうするか
        3. 大規模収集法
            母集団との関連性が強い.
       
    ####コメント;
        言語処理の分野…大規模好まれる
        言語学の分野…均衡コーパスが好まれる.

    ####Note:
        書き言葉と話し言葉の分布が決まってる→調査
        話し言葉コーパスの収集は非常に難しい
            音声言語,環境,ハイコンテクスト
            Webの言葉は話し言葉とはまた性質が違う.


後藤 - オントロジー構築の基礎
---------------
    * 構成要素の構築
        概念クラス, 下位クラス, 上位クラス
        意味リンク is-a関係, has-a関係   

    * インスタンスモデル 最初のやつと比較??
       
    * 概念の特殊化 ⇔ 一般化(汎化?)
        インスタンスの規模を小さくする

    * 意味リンクの代表例
        1. hasPartリンク … 集合
        2. 属性リンク … 物の物理量などの性質を表す
        3. 関係リンク …
        4. subClassOfリンク(一般-特殊リンク) … 推移律が成り立つ
        5. instanceOfリンク(抽象-具体リンク) …

    * 論文紹介
        小林暁雄,増山繁,関根聡.Wikipediaと汎用シソーラスを用いた汎用オントロジー構築手法
          
    ####Note:
        is-a関係の最下層≃インスタンス
        オントロジー → 大体はis-a関係をまとめたもの
        トリプル;関係抽出 ACEを調べてみる
        * 言語資源
            Freebase(Google管理,一番でかい), DBpedia, YAGO(Wikiをもとに)
        楽天…関係抽出,属性抽出

        TODO:上位下位関係 楽天とNICT+柴木,桜井さんの修士論文
            abst:is-a関係の跳躍しすぎを改善する

        半教師有学習-オントロジーではベーシック,

        Distant Supervision
 
    反省:
        色々な論文を広く読んでから⇒まとめるという作り方をした方が良い
        俯瞰的内容と仰望的内容があるともっと良いと思う
        関連論文は5個は拾っておきたいところ


Comments