2013.12.26

コーパスについて
    種類:言語データの質、収集方法、利用目的
    言語データの質    話し言葉コーパス
    収集方法        サンプルコーパス
                    モニタコーパス
    利用目的        汎用コーパス
                       特殊目的コーパス
    EDR コーパス, 日本語話し言葉コーパス…

    コーパスを使うときの注意:
        利用に関する規定をよく読む。
        権利関係が出てないものは使うのはNG
   

コーパスへの言語情報の付加:タグ付きコーパス
    タグ:形態素情報、構文情報、意味情報等々…
    言語情報の付加方法:
        言語処理ツールを用いて自動的につける
        上によって自動付与した結果に人間が必要な修正を加える
        全て人間が付ける
    意味情報が付加されたコーパスは少ない→意味解析の難易度。だからこそ研究の価値あり
    コーパスのタグ付与する意義:再利用性、創造性

コーパスからの語彙知識の獲得
    共起知識の獲得
        コーパス中で数単語程度の近さで共起する2つの単語の間の相互情報量を計算
        I(x,y) = log_2(P(x,y)/P(x)P(y))
        同一の動詞と共起しやすい名詞の類似度は高い
    推論規則・言い換えの獲得
        同一の名詞と共起しやすい表現の類似度は高い
        表現間の類似度測定が可能;幾何平均を用いる
    翻訳知識の獲得
        日本語、英語の文に対して相互情報量を求め翻訳知識を獲得する
        2言語間での出現位置の相関が強いほどそれらの表現の組は2言語間で対訳関係にある可能性が高い

その他の研究動向
    辞書定義からの獲得
    構文解析済みコーパスからの獲得
    未解析コーパス、Webからの獲得
        雑音の除去が必須

コーパスへの情報付加の自動化
    nグラムモデルを用いた日本語形態素解析
    nグラム:ある単語及びその直前のn-1個の単語の組
    確率的文脈自由文法を用いた英文構文解析
    日本語分の統計的係り受け解析
        係り受け=確率の掛け算

分類器の学習技術の適用
    チャンキング
    意味的曖昧性解消
    主観情報抽出


Comments