芋野美紗子、吉村枝里子、土屋誠司、渡部広一(同志社大)語概念連想を用いた複数単語からの連想語生成手法の提案 背景:情報システムの充実・ロボットへの期待感の高まり 自然言語による操作やコミュニケーション 言葉の意味を解釈できるか 違和感のない操作や反応が行えるか 常識や連想 常識的な反応 人間なら自然と行える反応→常識が影響 連想:ある情報から 新たな情報を生み出す 違う情報とつなぎ合わせる 概念ベース:機械的に構築された知識ベース 属性も概念として定義されている 概念ベースの構造 属性の連鎖的な構造:雪→白い→下る 関連度計算方式 概念動詞の関連性を数値(関連度)で表現 語概念連想の役割 多彩な表現、データ量の限界 → コンピュータに人間らしい連想能力を構築する 複数語からの連想語生成手法 複数の語から新たな語を連想する 入力語から人間が自然と連想する語を生成する 入力:概念ベースで定義される複数の語 関連語の取得 属性の取得 入力語を概念と見る 属性は関連がある語 属性の取得範囲 一時属性→概念の意味定義 二次属性→一次属性の意味定義 逆引き概念の取得 入力語を属性に持つ 何らかの関連がある 同義語・類義語による拡張 入力語を拡張 同義語・類義語からも関連語を取得 共通関連語法:全ての入力に共通する関連語を取得 全ての入力後に共通→全入力語から連想可 共通する関連語を取得(共通関連語) 入力語:夏、水、運動 共通関連語:水泳、熱 雑音処理 雑音となる関連語→入力語との関連が薄い 入力語と共通関連語の関連度を算出 評価方法 入力語とそこから連想される語100セット 精度・再現率 まとめ 自然言語による操作やコミュニケーション 人間の常識や連想能力の必要性 概念ベースと関連度計算方式による語概念連想 質疑 概念ベースをどういう風につくったか? → 国語辞書の見出し語:概念 説明文を形態素解析:属性 新聞で共起して出てくるもの:属性 連想語を大きく分類すると、似たもの同士の単語と、文中で共起する単語に分かれる。 それらを考慮したか? → 人間がどうやって連想するかを実現してはいない 中村紘規(京大)、泉朋子(NTT)、柴田知秀、黒橋禎夫(京大)内容語および機能語との共起分布を用いた術部の同義判定 背景 自然文において述部は分の意味の中心 述部の同義判定は、機械翻訳や情報検索、対話システムなどに有用 関連研究 人手によるリソース 分類語彙表 類語大辞典 LCS辞書 精度は高いがカバレッジや辞書作成コストの問題 大規模コーパスから自動判定 提案手法 述語項と共起する機能語の分布も加える 述語項:用言とそのガ格、ヲ格、ニ格を組み合わせたもの →用言の曖昧性解消の役割がある 分布類似度計算 1.素性の抽出 述語項に係る用言および述語項が係る用言を抽出 述語項と素性の間の自己相互情報量を要素としたベクトルを作成 2.素性ベクトルの値を適切な値に変換 3.ベクトル間の類似度を計算 評価セット 正例:同義・含意 負例:反意・その他 まとめ 内容語素性と機能語素性を組み合わせることにより高い精度で述語項の同義判定 質疑 テストデータはどうやってつくった? → データはブログからランダムにとってきた。 → 二人の評価者の評価が一致したものを用いる。 最適な関数を見つけるという立場からは制約を受けている格好になるが? → この形にしたのは、先行研究に則って。 鈴木良生、田添丈博(鈴鹿高専)、椎野努(愛工大)機械翻訳文言い換えシステムにおける学習機能の拡張 背景:既存の英日翻訳システム 短い英文にはそれなりの精度 目的:不自然な日本語となった機械翻訳文に対して、言い換えを行い、より自然な日本語訳を行う 学習機能の問題点 完全に一致する文節を一致文節として考えるため、助詞などが多少異なるだけで一致せず、学習できない → 曖昧一致文節の導入 レーベンシュタイン距離 情報理論において、二つの文字列がどの程度異なっているかを示す数値 曖昧一致文節の導入、n対mの学習→F値が向上 まとめ 曖昧一致文節の導入、n対m文節による学習は有効 正解数に対し、学習成功数が少ない 学習成功数を増やしつつ、 質疑 翻訳の質を上げるためには、翻訳のモデルを上げる方法と、今回のアプローチとがある。 今回のアプローチ(言い換え)の特徴は? → 学習データ以外から言い換え知識が得られると、強みになる。 河合剛巨、橋本力、鳥澤健太郎、川田拓也、佐野大樹(NICT)定義文から自動獲得した言い換えフレーズペアの分析 言い換え候補:web上の定義文対より自動獲得したフレーズペア → 自明ではない有益なフレーズペアを自動検出 先行研究 web上の定義文からの言い換えフレーズペアの自動獲得 同概念の異なる定義文に含まれるフレーズをペアとし、言い換えらしさを判定 自明ではない言い換えや含意関係のペアが下位に多く存在 語彙資源を用いたアライメントの分類 対応付けの度合いで4分類し、同義性の高いと考えられるallとpartialよりフレーズペアを検出 動詞含意関係の負例 データベース構築前の動詞対の自動獲得では含意を持つ可能性が高かったが、人手検証で負例と判断された動詞対 まとめ 自動獲得したフレーズペアを語彙資源を用いたアライメントにより分類し、分類結果から、 自明ではない言い換えおよび含意関係のフレーズペアを自動検出 質疑 誤った例について → 体言間を関連語対で対応付けてしまったもの:容易に取り除ける → 動詞含意関係の負例を含むフレーズペアの失敗例:方法を考える必要がある 同義の割合より含意の割合が高い 同義と含意を分ける方法 → 同義と含意を分けるには別の知識が必要になる 吉岡直輝、松本和幸、北研二、任福継(徳島大)印象尺度に基づいた文章言い換え手法 背景:相手や場面に応じて言葉を選ぶ必要がある 従来:主語によって動詞を言い換える 本研究:名詞も言い換え、文全体の印象を変える 提案手法:入力文+目標の印象→その印象を持つ出力文 語感の辞典:中村明「言葉のニュアンスの違いについて書かれた辞典」 新聞記事:頻出単語はFormal ブログ:頻出単語はCasual 新聞記事の出現頻度が200位以内の単語かつ新聞記事のみに出現→Formal まとめ:新聞記事コーパスとブログコーパスを用いて単語のCasual/Formal分類 質疑 尊敬語も謙譲語もFormalに分類されると思うが、使い分けはできるか? → 今回は考慮していないが、先行研究と組み合わせれば上手くできると考える。 実験で正解はどうやって決めたか? → 単語ごとの正解率。単語の前後を見て、意味が変わらず言い換えてるか。人手でアンケート。 アンケートはあてになるのか?(単語は4人、文は1人にアンケート) → アンケートには個人差があるが、軸は学術的なもの(中村)。 正解に2種類(意味が合ってるか違ってるか、FormalかCasualか) → タグは違うけど、意味が合ってるという評価は行なっていない 宇野真人、島津明(JAIST)法令文の構造的書き換え 法令文 一文が長い 文が複雑 特定の用語や構文を使用 要件効果構造:要件部と効果部からなる 要件部:成立する条件を示す 効果部: 目的:法令文を分割し、複数の要件・効果を明示する ゼロ代名詞があれば、補完を行う 要件が埋め込み文のときは、それを抽出する 提案:法令文をパタンマッチにより構成要素に分割 埋め込み文を分割 構成要素同士を合成し、要件・効果文を生成 文の切れ目として、読点前の表現に着目する まとめ 法令文の要件効果構造を書き換え、複数の要件と効果として 質疑 一般の文にも適用できるか? → 制約が強いので、このままでは一般の文には使えない。 宮尾祐介(NII)、嶋英樹(CMU)、金山博(日本IBM)、三田村照子(CMU)大学入試センター試験を題材とした含意関係認識技術の評価 まとめ センター試験の知識を問う設問を利用し、含意関係認識評価データを作成・提供 質疑 NOになるデータはどう作った? → 矛盾するテキストを探す。見つからなかったら、キーワードで探す。 正答率が意外といいというのは何が起こっている? → YとNを間違えても、コンフィデンススコアに助けられているかも。 対応する記述が見つからないというのはNOなのか? → Yにもかかわらず、対応する記述が見つからない。日本史や政治経済で。 事実は正しいけど根拠にならないテキストを混ぜておく必要性は? → 考慮していく。 |