評価表現と文脈一貫性を利用した教師データ自動獲得によるクレーム文検知

背景

  • 近年のWebの普及により、Web上には大量のレビューが存在している
  • 特に否定的なレビュー(クレーム)を効率よく把握したい
    • 企業:商品・サービス改善のための情報に
    • 顧客:不利益を未然に防ぐために
  • 現状のWebサービスでは文書レベルでクレームか否かを判断している
    • 実際には「クレーム」とされる文書の中でも、クレーム内容はその一部である
    • 「非クレーム」とされる文書の中にも、一部クレーム内容を含む場合がある

提案

  • 文レベルでのクレームの検知
  • ナイーブベイス法を適用し、クレーム文を自動検出
    • 教師データの自動生成
    • ナイーブベイズ法の拡張


「クレーム文」の定義

  • 苦情(商品やサービスに対して、不満な感情や不満な点をあらわしているもの)
    • 最初に案内された部屋がカビ臭かったので残念でした。
    • 何故同じ室料でこのような違いが有るのでしょうか? など
  • 要求(商品やサービスに対して、不満な点を解消するための要望を述べているもの)
    • リムジンバスも2回を乗降場にして下さい。 など
  • 「クレーム文」としない要求文(肯定的な要求)
    • これからも、一流ホテルとして、世界中に愛されるホテルであってほしいです! など


教師データの自動生成

  • 格文ラベル付け
    • 評価表現辞書を利用し、否定表現を含む文に対してクレーム文としてラベル付けを行う。
    • クレーム格文:カレーが不味い
      • 評価表現辞書に存在する単語エントリ(「不味い/否定極性」)が含まれる場合
    • クレーム格文:カレーが美味しくない
      • 肯定表現の後続3単語以内に「ない」「にくい」「避ける」などの語が現れる場合
    • 非クレーム格文:カレーが美味しい/カレーが不味くない
      • 上の2つのクレーム格文において、否定表現と肯定表現を入れ替えた場合
  • 近接文ラベル付け
    • 評価表現の文脈一貫性の考えに基づき、クレーム格文の周辺からクレーム文を抽出する
    • 評価表現の文脈一貫性
       → 評価表現に基づいてクレーム文として選ばれたクレーム格文の前後文脈に位置する文は、やはりクレーム文である。


結果

  • 粗ラベル手法(ベースライン)
    • レビュー文書単位に付与されている「感想・情報」および「苦情」ラベルを、それぞれ「クレーム」「非クレーム」とみなす。
    • レビュー文書内の各文に文書と同じラベルを割り当て、教師データとして用いる。
    • モデルは通常のナイーブベイズモデルを用いる。
  • 人手による手法(ベースライン)
    • 教師データ生成用のレビュー集合からランダムに抽出し、文分割後、人手でラベル付けを行ったものを教師データとして用いる。
    • モデルは通常のナイーブベイズモデルを用いる。

粗ラベル手法 ×
人手による手法 ×
提案手法


質問の時間・ディスカッション

  • トラベル・宿泊という分野ならではの例は?
     → ◯◯が悪かったけど、対応が良かったという例。
  • 半教師あり学習にすれば性能が上がるのでは?
  • 真当なクレームと理不尽なクレームは分けないのか?
  • 提案手法における教師データの質は?
     → 適合率:0.65 , 再現率:0.4〜0.5
  • いい意見が続くとガセじゃないの?
     → 良いことと悪いことを一緒に(両方)書く場合が多い(日本人の特徴?)

Comments