前処理の有効性を調べたい 英語と日本語のレビューを用いて,言語の違いと前処理にどのような関係があるのかを調査する 精度:日本語は文字3-gram,英語は2-gramで最高 → 単語や文字の組み合わせが意味を持ち,かつ他のデータと共通のものが現れやすいため? 課題: 文字N-gramと単語N-gramは単純に比較できない 英語の方は,人手で見てテキストを分類できるかどうかを確認しているのか? → 確認していない タグがついている場合は,むしろ家族で行ったか一人で行ったかなどを明示的に書かないのでは? → そこは考慮すべきだった ※一人の場合と複数の場合では,書いている記事内容が異なる → この記事内容を利用することで,一人か複数か判定できるだろう 英語の場合も文字N-gramは使えるのでは? → ある程度Nを大きく取れば使えるだろう SVMで実験を行うためには,チューニングをきちんと行った後に実験をすると良い |