自然言語処理研究室 B3ゼミ 第4回 ============================== last update:2014.01.30 発表スライド --------------- 反省: 色々な論文を広く読んでから⇒まとめるという作り方をした方が良い 俯瞰的内容と仰望的内容があるともっと良いと思う 関連論文は5個は拾っておきたいところ jKeywords: ##推論エンジン Foxy - 東北大学乾研究室 ##質疑応答システム: Non-Factoid質問(Why, How)…山中, Factoid型質問 Watson … 動的にKBを構成しなおせるらしい. Watson **述語項構造** → 言語学会必須 含因関係, 言い換え , ##a世界知識, 関係因子, 関係の自動拡張 Freebase, DPedia, YAGO → 日本語に拡張できそうな話. 企業はやってるはず…表にでてこない メタオントロジー, ラフ集合 質問: 高橋 - コーパスについて --------------- * 「ベーシックコーパス」… 言語学に基づいた書籍 * コーパスとは 言語のデータベース 実例を用いる 書き言葉と話し言葉...BCCWJ(少納言) * データ規模 … 大きければ大きいほど良い(統計的根拠 規模100倍⇒精度10倍) 大規模 ~ 1億語の程度が目安. 超大規模コーパス 研究目的ごとの二最適なコーパスサイズがあるとする e.g. 中学生の英作文コーパス; 中学生 * コーパスデータの収集方法 1. 悉皆的収集方法 構築コスト小. 理想的 2. 均衡的収集方法 信頼度高い 層化抽出…カテゴリごとに収集する. 無作為抽出…無作為に標本を取り出す. Q.比率をどうするか 3. 大規模収集法 母集団との関連性が強い. ####コメント; 言語処理の分野…大規模好まれる 言語学の分野…均衡コーパスが好まれる. ####Note: 書き言葉と話し言葉の分布が決まってる→調査 話し言葉コーパスの収集は非常に難しい 音声言語,環境,ハイコンテクスト Webの言葉は話し言葉とはまた性質が違う. 後藤 - オントロジー構築の基礎 --------------- * 構成要素の構築 概念クラス, 下位クラス, 上位クラス 意味リンク is-a関係, has-a関係 * インスタンスモデル 最初のやつと比較?? * 概念の特殊化 ⇔ 一般化(汎化?) インスタンスの規模を小さくする * 意味リンクの代表例 1. hasPartリンク … 集合 2. 属性リンク … 物の物理量などの性質を表す 3. 関係リンク … 4. subClassOfリンク(一般-特殊リンク) … 推移律が成り立つ 5. instanceOfリンク(抽象-具体リンク) … * 論文紹介 小林暁雄,増山繁,関根聡.Wikipediaと汎用シソーラスを用いた汎用オントロジー構築手法 ####Note: is-a関係の最下層≃インスタンス オントロジー → 大体はis-a関係をまとめたもの トリプル;関係抽出 ACEを調べてみる * 言語資源 Freebase(Google管理,一番でかい), DBpedia, YAGO(Wikiをもとに) 楽天…関係抽出,属性抽出 TODO:上位下位関係 楽天とNICT+柴木,桜井さんの修士論文 abst:is-a関係の跳躍しすぎを改善する 半教師有学習-オントロジーではベーシック, Distant Supervision 反省: 色々な論文を広く読んでから⇒まとめるという作り方をした方が良い 俯瞰的内容と仰望的内容があるともっと良いと思う 関連論文は5個は拾っておきたいところ |