エッセイの著者の性別推定 なぜエッセイデータを扱ったのか? blogのほうが著者の個性が出るのでは?コメント情報などの付属情報も扱える → テキストデータだけでやりたかった 年代や家族の有り無しを推定しようとすると,意味の 新たに加えていくとしたらどういうfeatureがあるのか? → 年齢も可能だと考えられる → 精度も考えるとしたら,新たな素性を考えることも重要 ※blogじゃなくてエッセイを扱うことの意味 → blog情報の信頼性問題がある.はっきりと性別が正しいデータを扱いたい → プロフェッショナルな作家が書いたテキストを扱いたい.おそらくアマチュアのほうが簡単 → どのくらいの年代の人が書いたかはトライする.その先何ができるかは今後の課題 → やりたいのはテキストだけからやりたい.それ以上プラスαの情報を扱うことは考えていない |