- 目的
- カスタマーレビューを投稿できるサイトが多くなっている
- 有益な情報源
- 膨大な量のデータ
- 書き手の状態を推測して分類すること
- 分類をおこなうための前処理
- レビューを肯定的か否定的かの2種類で分類する研究
- 手法
- 機械学習を用いた自動分類
- SVM
- 学習用データのうち頻度の上位10%,20%,30%
を切り捨てたデータ
- 下位の10%,20%,30%を切り捨てたデータ
- 切り捨てなし
- 結果
- 60%の前後
- 上位10%を切り捨てたデータは一番良い結果で、全要素使用とほぼ同じ精度
- 下位を
切り捨てた場合、精度が下がる。
- なぜtf-idfを使わないかを質問した。「今後の課題」そうな答えが出しました。
|
|