Weblogの評価では評価表現を抽出してその表現が否定か肯定かを判断することが不可欠。 評価表現と周辺情報をナイーブベイズ分類器とEMアルゴリズムを組み合わせて学習することで、ブログから「評価対象・属性・評価語」の三つ組みを収集する。 評価対象・属性・評価語 例えば「この店のラーメンはスープが旨い」ならそれぞれ<評価対象>「この店のラーメン」、<属性>「スープ」、評価語「旨い」 手順 文分割 文の切れ目となる可能性が高いいくつかの記号とhtmlタグを用いて文を分割。 少数やイニシャル、固有名詞中の句点などを除外するためヒューリスティクスを用いる。 三つ組み抽出 「評価対象・属性・評価語」 評価語の候補には形容詞、形容動詞、動詞の「ある」が候補対象。 サ変名詞や「雪のような肌」のような比喩表現が使われることもあるが、今回は対象外。 次に、評価表現候補に係る文節中から評価対象と属性を見つける。 しかしこの二つの特定は困難である。 経験的に属性には抽象名詞が多く対象には具体名詞が多い。 評価表現と評価対象の候補はこの二つに限定した。 抽象名詞と具体名詞の判別にはNTTの日本語語彙体系を用いた。 また「~度」「~性」という語尾をもつ名詞も抽象名詞とした。 機械学習で用いる素性
訓練データ 人手でタグ付したラベル付きデータを訓練データとする。 評価 1035のラベル付きデータのうち、1034を訓練データとし最後の1つで精度を見るということを1035回行った。 精度は70%くらい エラー解析 素性が不十分、係り受け解析器などのエラー、モデルの未熟さに起因する エラー解析に載っていた例をみると、肯定的か否定的かの判定は間違っていたけど、評価対象、属性、評価語の抽出はうまくいっているように見えた。 |