研究室‎ > ‎卒業生のみなさまへ‎ > ‎梶原 智之‎ > ‎B3ゼミ‎ > ‎第1回‎ > ‎

情報抽出とMUC

情報抽出

    自然言語で記述されたテキストから何らかの構造的な情報を
    自動的または半自動的に抽出するタスクおよびその周辺技術のこと

MUC:Message Understanding Conference

  • 参加システムの評価を行うプロジェクト
  • 参加者は自然言語の基礎的な技術やパターンマッチングの技術を利用してタスクに取り組む
  • 情報抽出で利用されている技術を分析し次の5つの要素技術を特定した
    • 人名や地名などの固有表現を認識する固有表現抽出:named entity recognition
    • 同じ指示対象を指す表現を同定する照応解析:anaphora resolution
    • 固有表現で示される対象の属性を抽出するテンプレート要素抽出:template element extraction
    • 複数の対象間の関係を抽出する関係抽出:relation extraction
    • イベントの情報を抽出するイベント情報抽出:event extraction

固有表現抽出

    固有表現
            人名・組織名・地名といった固有の名前を持つ対象を指す表現
                MUCは固有表現として「人名」「組織名」「地名」「日付」「時間」「割合表現」「金額表現」の7種類を対象に設定した。
             固有表現はテキストのドメインや情報抽出のタスクに依存しているという点には注意が必要。
    固有表現抽出
            テキストから固有表現を抽出するタスク
          質問応答や要約タスクなどでも幅広く使われ、自然言語処理の基本的ツールのひとつ。

参考文献
    言語処理学会(2009)『言語処理学事典』共立出版


Comments