東宏一,掛谷英紀 国会議員のツイッター分類とその応用 NLP2012 A3-4 pp.559-562 (2012) 1.はじめに国政選挙など各政党が独自のマニフェストを提示,有権者に信を問う 選挙後にはマニフェストと異なる政策が実施される場合がある →マニフェストだけでは判断できない 各議員が選挙の前後を通じて継続的に発信している情報を収集,統計的に分析 目的 ある特定の政治テーマに対して,各議員の立場を明らかにすること 原子力発電所の是非に関する議論を対象 (立場を明確にしている議員が少ない) 手法1 最大エントロピー法による議員の立場分類 手法2 名詞との共起を用いた議員マップ出力 2.学習指標の収集と分析2011年7月に知識人19名分のツイート2011年10月に国会議員125名分のツイートを収集 Chasenによる形態素解析,品詞は名詞のみを利用 3.最大エントロピー法による議員の立場分類教師信号原発推進・維持派9名,原発反対派10名の知識人のツイート ・原発問題に関連するキーワードをまとめた辞書によるフィルタリング ・ツイートを形態素解析,原発問題に関連があると思われる名詞345個を抽出したもの 名詞の例:「原発」「東電」「エネルギー」「ソーラー」など ・日本語評価極性辞書(名詞編)によるカテゴリ分け ・日本語名詞に人手でポジティブな意味合いを持つもの,ネガティブな意味合いを持つもの,どちらにも属さないもの,の3種類の評価極性を付与したもの 10分割クロスバリデーション(交差検定)による実験 学習アルゴリズム:最大エントロピー法 →原発用語辞書のみを利用した分類器が,正解率が最も高い →次の実験はこの分類器を利用 政治家のツイートによる実験 収集した125名中,比較的著名な20名を選出 4.実験結果の検証被験者に,抽出したツイートを読んでもらい,原発推進,原発反対,どちらとも言えない,の3種類に分類してもらう.原発推進派・反対派に特に近いと分類された各カテゴリ上位4名の議員のツイート 原発擁護辞書とのマッチ度が高い発言を各議員につき10件抽出 被験者:政治的な話題にあまり詳しくない20代の男性 本文のみを読んで判断 分類器によって反対派寄り分類された議員は被験者によって「反対派」 と判断された割合が最も高かった 推進派 「どちらとも言えない」 5.名詞との共起を用いた議員マップ出力手法1では議員同士の距離はわからない→議員のマップ出力 原発関連のキーワードと日本語評価極性辞書との共起を用いる マップの出力にはSOM(自己組織化マップ)を用いる SOMのアルゴリズムにはTorus型を用いる 入力ベクトルの作成 属性:原発関連のキーワード 属性値:共起によるキーワードの出現頻度 原発関連のキーワード:TermExtractを用いて,知識人のツイートより専門用語を抽出,その中で特に原発問題に関連が深いと考えられるキーワードを抜粋 例:「原子力発電」「自然エネルギー」「太陽光発電」 これらのキーワードと,日本語評価極性辞書中の名詞との共起を調べる. ネガティブな名詞と共起→出現数をマイナス値 ポジティブな名詞と共起→出現数をプラス値 すべての文についてこの共起を調べ,出現数を合算,発言数で割って出現頻度とする. 実験結果の検証 マップ上に見られる議員集団ごとに4つのクラスタを設定 各クラスタにおける特徴的なネガティブ・ポジティブキーワードから, クラスタによって自然エネルギーに対する姿勢の違いがあることが読み取れた 民主党,菅内閣に対する評価もクラスタによって異なることがわかった. 「本会議 2日目」に戻る |