マイクロブログマイニングの現在

マイクロブログの特徴

  • 一般の個人が書いている
     → マイクロブログの内容から、一般の人々が何をし、何を思っているかを抽出できる可能性がある。
  • 人と人の間のつながりに関する情報を入手しやすい
     → follow関係を元にしたコミュニティ抽出などの分析にも向いている。
  • まさに「今」現在の実世界に関する情報を発信している
     → 時にはマスメディアよりも早く情報が伝達される。
  • これまでのテキストとは異なる言語使用が行われている
     → 140文字以内という長さの制約のため。
  • チャットのような対話的なコミュニケーションが行える
     → mention機能を用いて、複数人で非同期的で対話的なコミュニケーションを行うことができる。


マイクロブログを対象にした分析

  • ブログと同様な分析技術
    • Authority , Influencer 分析
    • 評判分析
    • 実世界の動向の予測
    • 書き手の属性推定
    • トピック同定
    • トレンド分析
    • 自動要約
    • 情報の信頼性評価
  • マイクロブログに特徴的な分析技術
    • social sensor としてのマイクロブロク分析技術
      • イベント検出(今起きている出来事を検出する)
      • 緊急時のコミュニケーション手段
    • tweets 用のテキスト処理ツール


Authority , Influencer 分析

  • tweetsのランキング : 検索要求との照合、retweet数
  • ユーザのランキング : follower数


評判分析

  • tweetを 肯定的/否定的/中立的 に分類することが目的
  • 教師あり学習を元にした評判分析器では、ラベル付き訓練データをどのように入手するかが問題
     → tweets集合は時系列データであり、時々刻々内容(データの性質)が変化するため、訓練データの更新が必要
  • 単語の長音化は重要語を強調する(特に、極性(positive/negative)を含む単語の検出に寄与する。)


実世界の動向の予測

    マイクロブログ中の記述から、次のようなものを予測できる。
    • 選挙結果
    • 商品の売上
    • 株価


書き手の属性推定

  • 書き手の年齢や性別がわかれば、「20代の女性に人気のレストラン」といったように、属性による分類ごとに分析結果を示すことができる。
     → 他の分析技術との組み合わせにより、より深みのある分析を実現することが可能。
  • 書き手の居住地域がわかれば、「ある都市に住むユーザにのみ宣伝を配信する」といったマーケティング利用ができる。
    • 全ユーザのうち、26%のユーザしか市レベルの情報を発信していない
    • 全tweetsのうち、0.42%のtweetsにしか位置情報が付いていない
    • 特定の場所と相関の強い単語が存在する


トピック同定

  • 内容に応じてタグを付与し、トピック(ユーザの関心)を同定
     → タグを利用した検索や推薦が可能になる
  • ユーザの関心はユーザの属性の一種と考えることができる
     → ターゲット広告への利用が可能


トレンド分析

  • キーワードの出現頻度の推移から、そのキーワードが「いつ」「どの程度」注目されたかを知ることが可能
  • トレンド分析技術を利用したサービスとして buzztter がある


自動要約

  • キーワードに肉付けを行う
     → trending phrase を含む tweets 集合から、その phrase を包含する最頻出の句を抽出する。


情報の信頼性評価

  • マイクロブログは一般の個人が日常的に記述するものであり、すべての情報が正しいという保証はない
  • 教師あり学習に基づく分類器を用いる研究が多いが、特筆すべきものはまだない


Social sensor としてのマイクロブログ

  • 地震の震源や台風の軌道を特定
  • インフルエンザの流行を予測


緊急時のコミュニケーション手段としてのマイクロブログ

  • 自然災害(鍛冶、台風、洪水、地震)など緊急時のコミュニケーション手段として注目されている
  • 固有名抽出と、教師あり学習により得られた分類器から、災害の状況判断や安否確認


Tweets 用のテキスト処理

  • 未知語問題→ノーマライゼーション
    • 省略 : u = you
    • 音声置換 : b4 = before
    • 単語の長音化 : goooood = good


質問の時間

  • 属性推定において、真値はどのように得るか?
     → プロフィールを信じる , 人間が記事を読んで判断
  • 評判分析・実世界の動向の予測・トレンド分析において、 Twitter というメディアを扱える人だけの情報に偏るのではないか?
     → 政治の世論調査などでは、tweetした人からの情報しか得られないので、偏った結果になってしまう
       iPodなどメディアと関連の強い内容に関しては、tweetの情報と世間の認識にはあまり差がないと予想される
  • ノーマライゼーションによって、情報の強調度(重要性)は失われないか?
     → メタデータとして保存し、復元して利用することが可能
  • Tweets用のテキスト処理の汎用性は?
     → 「わああい」「やったーーー」など、例えばロシア語では単語の長音化は発生しない
  • 情報の信頼性の評価において、嘘ほどきれいなストーリーになっているのでは?
     → 信憑性の判断はこれからの課題

Comments