20150910語彙統制のための同義語集合の資源化


・研究の概要
提案:語彙(表現)をまとめあげて語彙の数を減らすことにより、過疎性・組み合わせ爆発といった諸問題の軽減を目指す
今回:語彙のまとめあげに同義語集合を用いた。今回は同義語集合を集めた。
結果:同義語集合を上位下位関係のものと類義語に分けて集めたところ、上位下位:約350個、類義:約21,000個集まった。
今後:応用処理で効果を確かめる。


・補足情報
細かい前処理は原稿に記載しています。

・質疑応答の内容や補足

 - 質問A
 同義語になると、そもそも何が同義語かという定義がなかなか難しくて、言語依存だったり文化依存だったり、文脈依存だったりします。
例えば、おじとかおばとかは発音では区別がつかないのですが、漢字になる区別ができる、でも英語だと全部uncleとかauntとなって区別できない。これは同義語かどうかというのは難しいですよね。あと、先ほどクーラーとエアコンがありましたけど、エアコンじゃなくてクーラーが欲しいと言われれば、そのクーラーは暖房機能がないものを指す。文脈に依存しますよね。そういう時に、同義語っていうのはなかなか定義が難しいとは思うのですが、作業者が複数ならなかなか一致が取れないと思うんですけども、今回その辺はどういう意味で同義語を定義されたのでしょうか。

>まず、複数の人でこの言葉を同義語かどうかを判断するとなると、議論になるので一人で一貫して作業を行っています。
もう一つは、エアコン、クーラーも文脈によって異なるのですがそれを多分言い出すとすべての言葉が文脈によって決まってしまうので今回はこれは初めての試みでまず荒く集めて効果を確認して、ダメならエアコンとクーラー違うよねと分けていこうと考えています。
 - おじとかおばっていうのは?
>今は初めて言われて気づきましたが、
 - 水が熱いと、火の暑い はどうでしょうか?
>熱い、暑い 僕一人の主観で分類しているんですけど、僕なら分けます。
使われ方が全然違うため、組み合わせ問題として考えた時に使われ方が全く違うものを同じとして見ると、たぶん副作用がでるため別にしようと考えています。

 - 質問B
今回はデータを構築するということだったのですが、データを構築した暁には応用をすると書かれているのですが、どういった応用を考えていますか?どういうところが一番効果がある考えているのか、教えてもらえますか。応用によってたぶん作り方は変わってくると思うのですが。
>応用については、構文解析に聞くのではないかなと考えています。依存構造解析のときに似たような語が使われているという情報が取りやすくなり、構文解析の性能があがるんじゃないかというふうに考えています。
 - 意味的な解析とかそういうところはやらないんですか?
>意味的な解析までは、考えていないです。
 - あと、固有表現とか、人名とかの固有名詞はどうしますか?
>固有名詞は一切触っていないです。

 - 質問C
今の応用の話に関係があるのですが、一番最初に「きくきくきく」、を同義語とするのはちょっと乱暴ではないかという話だったんですが、それはどういうふうな応用するかということにかかってくるかということに関係があると思うのですね。
門構えと聞くと耳へんの聴くは、私達は書いていてもあまり意識しないですが、言べんの訊くっていうのは明らかに、何か尋ねるとかそういう意味で意図的に使っていると思うんですね。
そういう意味であるならば、この4つを一緒にするというのは乱暴だと思うのですけれども、応用を踏まえた同義語の統制とはどういうことを考えていますか?
>一言でいうと、使われ方が似ているものなので、言偏のきくのように明らかに動作が違うものは分けたいというところです。

・発表内容や質疑応答に関する自己評価

応用を見越した説明をするべきだったと思う。仮にその説明が入っていれば、応用について議論ができたかもしれない。
発表自体は良かったと感じている。また質疑応答も簡潔に答えられたと思う。
Comments