単独剽窃検知―所与の一文書だけから剽窃箇所を推定する―

溝江 将,田中久美子
単独剽窃検知―所与の一文書だけから剽窃箇所を推定する―
NLP2011 C2-5 pp.488-491 (2011)

剽窃:取得した情報を出典を明示せずに不正に利用すること

単独剽窃検知
  1. ただ一つの文書が与えられ,
  2. 文書中で想定される著者以外の者が書いたことが疑われる部分を見つけ出す.
広い意味での著者確認問題

入力:単一文書
出力:剽窃の疑われる部分

Steinの方法

剽窃部分の占める割合が50%未満である文書
5000字ずつの部分文書にわけ,
それぞれに対応する特徴量ベクトルをとする.

ある部分文書について,それが剽窃を含む部分である事象を,それが剽窃を含まない部分である事象をとする.
このとき,が剽窃を含む部分であるかについての仮設を最大事後確率推定で決める.
に関する仮設



として決定.

ただし,各特徴量の条件付き確率密度関数は
剽窃部分は一様分布に
非剽窃部分は正規分布に従うとする.

Steinの方法の問題点

ひとつの文書から剽窃を行ったとすると,剽窃箇所の特徴量は正規分布に従うはず.
剽窃の大き文書に対して適切な判断が行えない.
(剽窃の多い文書については推定された平均値が,非剽窃部分の心の平均から大きく外れる)

提案手法

複数のone-class SVMに投票させる

実験

  1. Steinの手法
  2. 提案手法
  3. Steinの手法が非剽窃部分と判断した部分に提案手法をさらに適用

実験結果

  • 提案手法はSteinの方法より適合率が高い.短い剽窃箇所をきちんんと判断.
  • Steinの方法+提案手法では適合率が下がり,再現率が上がる.
  • 剽窃が多い文書に対してはSteinの方法+提案手法のF値が高い
  • 全体としてはSteinの方法のみがよい
Comments