論文:More is not always better:balancing sense distributions for all-words 担当:福嶋さん 作られた時代 GC:昔 WW:最近 DOM:1つの語によって複数の語義があるが、最頻出の語義が全体を占める割合 出現頻度の少ない語義(LFS)のデータを増やしてもLFSの結果は良くなるとは限らない IMS:中身はSVM。いじりやすいから「フレームワーク」と呼んでる。 SVM自体には頻度は関係ない。→SVMは低頻度問題に良さそう 最も多いものをMFS、それ以外をLFSとしている 手動より自動の方が良い?:作られた時代が関係していた。(言葉遣い、ジャンル(内容)など) これから語義曖昧性解消のためにデータを集める人向け。4000文片っ端からやる以外にある?:時代。普通に集める。データ数を揃えなくて良い。 |