国会議員のツイッター分類とその応用

東宏一,掛谷英紀
国会議員のツイッター分類とその応用
NLP2012 A3-4 pp.559-562 (2012)

1.はじめに

国政選挙など
各政党が独自のマニフェストを提示,有権者に信を問う

選挙後にはマニフェストと異なる政策が実施される場合がある
→マニフェストだけでは判断できない

各議員が選挙の前後を通じて継続的に発信している情報を収集,統計的に分析


目的
ある特定の政治テーマに対して,各議員の立場を明らかにすること

原子力発電所の是非に関する議論を対象
(立場を明確にしている議員が少ない)

手法1
最大エントロピー法による議員の立場分類

手法2
名詞との共起を用いた議員マップ出力


2.学習指標の収集と分析

2011年7月に知識人19名分のツイート
2011年10月に国会議員125名分のツイートを収集

Chasenによる形態素解析,品詞は名詞のみを利用

3.最大エントロピー法による議員の立場分類

教師信号
原発推進・維持派9名,原発反対派10名の知識人のツイート
原発問題に関連するキーワードをまとめた辞書によるフィルタリング
  ・ツイートを形態素解析,原発問題に関連があると思われる名詞345個を抽出したもの
   名詞の例:「原発」「東電」「エネルギー」「ソーラー」など
日本語評価極性辞書(名詞編)によるカテゴリ分け
  ・日本語名詞に人手でポジティブな意味合いを持つもの,ネガティブな意味合いを持つもの,どちらにも属さないもの,の3種類の評価極性を付与したもの

10分割クロスバリデーション(交差検定)による実験

学習アルゴリズム:最大エントロピー法
→原発用語辞書のみを利用した分類器が,正解率が最も高い
→次の実験はこの分類器を利用

政治家のツイートによる実験
収集した125名中,比較的著名な20名を選出

4.実験結果の検証

被験者に,抽出したツイートを読んでもらい,原発推進,原発反対,どちらとも言えない,の3種類に分類してもらう.

原発推進派・反対派に特に近いと分類された各カテゴリ上位4名の議員のツイート
原発擁護辞書とのマッチ度が高い発言を各議員につき10件抽出

被験者:政治的な話題にあまり詳しくない20代の男性
本文のみを読んで判断

分類器によって反対派寄り分類された議員は被験者によって「反対派」      と判断された割合が最も高かった
       推進派                 「どちらとも言えない」

5.名詞との共起を用いた議員マップ出力

手法1では議員同士の距離はわからない
→議員のマップ出力

原発関連のキーワードと日本語評価極性辞書との共起を用いる
マップの出力にはSOM(自己組織化マップ)を用いる
SOMのアルゴリズムにはTorus型を用いる

入力ベクトルの作成
属性:原発関連のキーワード
属性値:共起によるキーワードの出現頻度

原発関連のキーワード:TermExtractを用いて,知識人のツイートより専門用語を抽出,その中で特に原発問題に関連が深いと考えられるキーワードを抜粋
例:「原子力発電」「自然エネルギー」「太陽光発電」

これらのキーワードと,日本語評価極性辞書中の名詞との共起を調べる.

ネガティブな名詞と共起→出現数をマイナス値
ポジティブな名詞と共起→出現数をプラス値

すべての文についてこの共起を調べ,出現数を合算,発言数で割って出現頻度とする.

実験結果の検証
マップ上に見られる議員集団ごとに4つのクラスタを設定
各クラスタにおける特徴的なネガティブ・ポジティブキーワードから,
クラスタによって自然エネルギーに対する姿勢の違いがあることが読み取れた
民主党,菅内閣に対する評価もクラスタによって異なることがわかった.

「本会議 2日目」に戻る
Comments