コーパスについて 種類:言語データの質、収集方法、利用目的 言語データの質 話し言葉コーパス 収集方法 サンプルコーパス モニタコーパス 利用目的 汎用コーパス 特殊目的コーパス EDR コーパス, 日本語話し言葉コーパス… コーパスを使うときの注意: 利用に関する規定をよく読む。 権利関係が出てないものは使うのはNG コーパスへの言語情報の付加:タグ付きコーパス タグ:形態素情報、構文情報、意味情報等々… 言語情報の付加方法: 言語処理ツールを用いて自動的につける 上によって自動付与した結果に人間が必要な修正を加える 全て人間が付ける 意味情報が付加されたコーパスは少ない→意味解析の難易度。だからこそ研究の価値あり コーパスのタグ付与する意義:再利用性、創造性 コーパスからの語彙知識の獲得 共起知識の獲得 コーパス中で数単語程度の近さで共起する2つの単語の間の相互情報量を計算 I(x,y) = log_2(P(x,y)/P(x)P(y)) 同一の動詞と共起しやすい名詞の類似度は高い 推論規則・言い換えの獲得 同一の名詞と共起しやすい表現の類似度は高い 表現間の類似度測定が可能;幾何平均を用いる 翻訳知識の獲得 日本語、英語の文に対して相互情報量を求め翻訳知識を獲得する 2言語間での出現位置の相関が強いほどそれらの表現の組は2言語間で対訳関係にある可能性が高い その他の研究動向 辞書定義からの獲得 構文解析済みコーパスからの獲得 未解析コーパス、Webからの獲得 雑音の除去が必須 コーパスへの情報付加の自動化 nグラムモデルを用いた日本語形態素解析 nグラム:ある単語及びその直前のn-1個の単語の組 確率的文脈自由文法を用いた英文構文解析 日本語分の統計的係り受け解析 係り受け=確率の掛け算 分類器の学習技術の適用 チャンキング 意味的曖昧性解消 主観情報抽出 |