マイクロブログの特徴
- 一般の個人が書いている
→ マイクロブログの内容から、一般の人々が何をし、何を思っているかを抽出できる可能性がある。 - 人と人の間のつながりに関する情報を入手しやすい
→ follow関係を元にしたコミュニティ抽出などの分析にも向いている。 - まさに「今」現在の実世界に関する情報を発信している
→ 時にはマスメディアよりも早く情報が伝達される。 - これまでのテキストとは異なる言語使用が行われている
→ 140文字以内という長さの制約のため。 - チャットのような対話的なコミュニケーションが行える
→ mention機能を用いて、複数人で非同期的で対話的なコミュニケーションを行うことができる。
マイクロブログを対象にした分析
- ブログと同様な分析技術
- Authority , Influencer 分析
- 評判分析
- 実世界の動向の予測
- 書き手の属性推定
- トピック同定
- トレンド分析
- 自動要約
- 情報の信頼性評価
- マイクロブログに特徴的な分析技術
- social sensor としてのマイクロブロク分析技術
- イベント検出(今起きている出来事を検出する)
- 緊急時のコミュニケーション手段
- tweets 用のテキスト処理ツール
Authority , Influencer 分析
- tweetsのランキング : 検索要求との照合、retweet数
- ユーザのランキング : follower数
評判分析
- tweetを 肯定的/否定的/中立的 に分類することが目的
- 教師あり学習を元にした評判分析器では、ラベル付き訓練データをどのように入手するかが問題
→ tweets集合は時系列データであり、時々刻々内容(データの性質)が変化するため、訓練データの更新が必要 - 単語の長音化は重要語を強調する(特に、極性(positive/negative)を含む単語の検出に寄与する。)
実世界の動向の予測
マイクロブログ中の記述から、次のようなものを予測できる。
書き手の属性推定
- 書き手の年齢や性別がわかれば、「20代の女性に人気のレストラン」といったように、属性による分類ごとに分析結果を示すことができる。
→ 他の分析技術との組み合わせにより、より深みのある分析を実現することが可能。 - 書き手の居住地域がわかれば、「ある都市に住むユーザにのみ宣伝を配信する」といったマーケティング利用ができる。
- 全ユーザのうち、26%のユーザしか市レベルの情報を発信していない
- 全tweetsのうち、0.42%のtweetsにしか位置情報が付いていない
- 特定の場所と相関の強い単語が存在する
トピック同定
- 内容に応じてタグを付与し、トピック(ユーザの関心)を同定
→ タグを利用した検索や推薦が可能になる - ユーザの関心はユーザの属性の一種と考えることができる
→ ターゲット広告への利用が可能
トレンド分析
- キーワードの出現頻度の推移から、そのキーワードが「いつ」「どの程度」注目されたかを知ることが可能
- トレンド分析技術を利用したサービスとして buzztter がある
自動要約
- キーワードに肉付けを行う
→ trending phrase を含む tweets 集合から、その phrase を包含する最頻出の句を抽出する。
情報の信頼性評価
- マイクロブログは一般の個人が日常的に記述するものであり、すべての情報が正しいという保証はない
- 教師あり学習に基づく分類器を用いる研究が多いが、特筆すべきものはまだない
Social sensor としてのマイクロブログ
- 地震の震源や台風の軌道を特定
- インフルエンザの流行を予測
緊急時のコミュニケーション手段としてのマイクロブログ
- 自然災害(鍛冶、台風、洪水、地震)など緊急時のコミュニケーション手段として注目されている
- 固有名抽出と、教師あり学習により得られた分類器から、災害の状況判断や安否確認
Tweets 用のテキスト処理
- 未知語問題→ノーマライゼーション
- 省略 : u = you
- 音声置換 : b4 = before
- 単語の長音化 : goooood = good
質問の時間
- 属性推定において、真値はどのように得るか?
→ プロフィールを信じる , 人間が記事を読んで判断 - 評判分析・実世界の動向の予測・トレンド分析において、 Twitter というメディアを扱える人だけの情報に偏るのではないか?
→ 政治の世論調査などでは、tweetした人からの情報しか得られないので、偏った結果になってしまう iPodなどメディアと関連の強い内容に関しては、tweetの情報と世間の認識にはあまり差がないと予想される - ノーマライゼーションによって、情報の強調度(重要性)は失われないか?
→ メタデータとして保存し、復元して利用することが可能 - Tweets用のテキスト処理の汎用性は?
→ 「わああい」「やったーーー」など、例えばロシア語では単語の長音化は発生しない - 情報の信頼性の評価において、嘘ほどきれいなストーリーになっているのでは?
→ 信憑性の判断はこれからの課題
|
|