相田 太一‎ > ‎文献紹介‎ > ‎

2019/02/14

論文:More is not always better:balancing sense distributions for all-words
担当:福嶋さん

作られた時代
    GC:昔
    WW:最近
DOM:1つの語によって複数の語義があるが、最頻出の語義が全体を占める割合
出現頻度の少ない語義(LFS)のデータを増やしてもLFSの結果は良くなるとは限らない
IMS:中身はSVM。いじりやすいから「フレームワーク」と呼んでる。
SVM自体には頻度は関係ない。→SVMは低頻度問題に良さそう
最も多いものをMFS、それ以外をLFSとしている
手動より自動の方が良い?:作られた時代が関係していた。(言葉遣い、ジャンル(内容)など)
これから語義曖昧性解消のためにデータを集める人向け。4000文片っ端からやる以外にある?:時代。普通に集める。データ数を揃えなくて良い。

Comments