意味解析とは? → テキストをある種の意味表現に直すこと 大規模言語資源時代の意味談話処理 → 大規模言語資源のインパクトに焦点をあてる(大きく分けて3つ) 1. 個々の部分問題において外部資源の利用 ・訓練事例のデータスパースネスに対応(方法論的には従来の延長) ※詳細はなし 2. 意味解析モデル構築と知識獲得の融合 3. 実応用の広がり ※詳細はなし *意味解析を情報抽出で考える 情報抽出: ドメインを区切り,少数の意味クラス・談話クラスだけを考える(応用指向的・垂直的) 意味クラス付きのパターンを考えればできるのではないか → 解析モデルと知識獲得がいったい → パターンベースの情報抽出(以下の3つを考えることで,知識獲得を行う) 知識1:関係を表すパタン 知識2:関係パタンの言い換え 知識3:語の意味クラス ↓ ↓ 情報爆発時代になって・・・ ↓ 単一文書 →Web時代→ 複数文書(Web)情報抽出 知識獲得 →大規模化→ 知識獲得 パタンのカバレッジ,関係の種類,クラス数が十分に増える → 十分に他種類で十分にオープンなクラスで出来る ------------------------------ bootstrapping 意味ドリフトをどう解決するか?(Never-Ending Language Learner) → 多用な手がかりを併用 → 意味クラス間の排他制約 → 意味クラスの制約 → 関係間の依存関係 ------------------------------ 課題: ・抽出対象は明示的な関係のみ ・モダリティ(事実性),時間,量化等との統合 ↓ 一般関係認識としての意味談話解析 (従来の意味解析に相当) 一般関係認識のためのパタンを獲得 → 明示的に書かれた関係をパタンで抽出 (従来の談話解析に相当) 非明示的な関係を同定 まだほとんど研究がされていない. ・Semantic enrichment ・論理ベースのアプローチ テキストに埋め込まれた非明示的な関係=明示的な情報(観察)に対する説明(仮設) スケーラブルな推論エンジン DARPA モダリティはどう扱うのか? モダリティのバリエーションをパタンのバリエーションだけでは扱えない 評価関数ってどんなものなのか なるべくいい仮説が残るような評価関数 → 人によって意見が分かれるところ 生成問題なので評価が難しい.ある程度みんなが納得するような評価にどう落としこむかが課題 実体/関係のクラスをどう決めるのか 一般化(クラスの粒度)のさじ加減が非常に難しい 1. 固定のセット ドメイン毎?などに人間が設計 → ドメインオントロジーとテキストの対応関係を考える 2. クラス粒度を自動選択 3. 文脈類似度によるクラスタリング 4. クラスタも作らない Compositional Distributional Semantics パタンの定義は? → 素朴な意味でのパタンからどんどん一般化してきている もしかするとパタンというのはもう相応しくないのかもしれない → 各関係をとる手がかりのfeatureの組み合わせ.従来のような教師ありでfeatureの重みを決めるのではなく, 半教師あり学習 |