レビュー文章の自動分類におけるテキストの前処理手法の検証

  1. 目的
    • カスタマーレビューを投稿できるサイトが多くなっている
    • 有益な情報源
    • 膨大な量のデータ
    • 書き手の状態を推測して分類すること
    • 分類をおこなうための前処理
    • レビューを肯定的か否定的かの2種類で分類する研究
  2. 手法
    • 機械学習を用いた自動分類
    • SVM
    • 学習用データのうち頻度の上位10%,20%,30% を切り捨てたデータ 
    • 下位の10%,20%,30%を切り捨てたデータ
    • 切り捨てなし
  3. 結果
    • 60%の前後
    • 上位10%を切り捨てたデータは一番良い結果で、全要素使用とほぼ同じ精度
    • 下位を 切り捨てた場合、精度が下がる。
      • なぜtf-idfを使わないかを質問した。「今後の課題」そうな答えが出しました。
Comments