背景
- 近年のWebの普及により、Web上には大量のレビューが存在している
- 特に否定的なレビュー(クレーム)を効率よく把握したい
- 企業:商品・サービス改善のための情報に
- 顧客:不利益を未然に防ぐために
- 現状のWebサービスでは文書レベルでクレームか否かを判断している
- 実際には「クレーム」とされる文書の中でも、クレーム内容はその一部である
- 「非クレーム」とされる文書の中にも、一部クレーム内容を含む場合がある
提案
- 文レベルでのクレームの検知
- ナイーブベイス法を適用し、クレーム文を自動検出
「クレーム文」の定義
- 苦情(商品やサービスに対して、不満な感情や不満な点をあらわしているもの)
- 最初に案内された部屋がカビ臭かったので残念でした。
- 何故同じ室料でこのような違いが有るのでしょうか? など
- 要求(商品やサービスに対して、不満な点を解消するための要望を述べているもの)
- 「クレーム文」としない要求文(肯定的な要求)
- これからも、一流ホテルとして、世界中に愛されるホテルであってほしいです! など
教師データの自動生成
- 格文ラベル付け
- 評価表現辞書を利用し、否定表現を含む文に対してクレーム文としてラベル付けを行う。
- クレーム格文:カレーが不味い
- 評価表現辞書に存在する単語エントリ(「不味い/否定極性」)が含まれる場合
- クレーム格文:カレーが美味しくない
- 肯定表現の後続3単語以内に「ない」「にくい」「避ける」などの語が現れる場合
- 非クレーム格文:カレーが美味しい/カレーが不味くない
- 上の2つのクレーム格文において、否定表現と肯定表現を入れ替えた場合
- 近接文ラベル付け
- 評価表現の文脈一貫性の考えに基づき、クレーム格文の周辺からクレーム文を抽出する
- 評価表現の文脈一貫性
→ 評価表現に基づいてクレーム文として選ばれたクレーム格文の前後文脈に位置する文は、やはりクレーム文である。
結果
- 粗ラベル手法(ベースライン)
- レビュー文書単位に付与されている「感想・情報」および「苦情」ラベルを、それぞれ「クレーム」「非クレーム」とみなす。
- レビュー文書内の各文に文書と同じラベルを割り当て、教師データとして用いる。
- モデルは通常のナイーブベイズモデルを用いる。
- 人手による手法(ベースライン)
- 教師データ生成用のレビュー集合からランダムに抽出し、文分割後、人手でラベル付けを行ったものを教師データとして用いる。
- モデルは通常のナイーブベイズモデルを用いる。
|
質 |
量 |
粗ラベル手法 |
× |
◎ |
人手による手法 |
◎ |
× |
提案手法 |
◯ |
◎ |
質問の時間・ディスカッション
- トラベル・宿泊という分野ならではの例は?
→ ◯◯が悪かったけど、対応が良かったという例。 - 半教師あり学習にすれば性能が上がるのでは?
- 真当なクレームと理不尽なクレームは分けないのか?
- 提案手法における教師データの質は?
→ 適合率:0.65 , 再現率:0.4〜0.5 - いい意見が続くとガセじゃないの?
→ 良いことと悪いことを一緒に(両方)書く場合が多い(日本人の特徴?)
|
|