ソーシャルメディア「Twitter」を利用した音声データ収集の試み

背景

  • 大量の書き起こし付き音声データが必要
  • 音声データはWebから容易に収集できる環境が整ってきた
  • 音声データに書き起こしやタグを付与するには多くのコストがかかる
  • 現状では、既存の整備された音声コーパスを使わざるをえない
    → 音声データとその書き起こし文章を低コストで収集
    → ソーシャルメディア「Twitter」に注目


システムの特徴

  • つぶやきを音声で入力できる
     → 携帯端末からの入力作業の負担を軽減させることができる
  • テキスト情報だけでなく、つぶやいた音声も合わせて投稿できる
     → 音声でのコミュニケーションが可能になる
     → 音声とその書き起こしを同時に収集できる


システム開発における問題点と解決策

  • 音声認識誤り
    • 音声認識結果をテキストボックスに出力し、ユーザが訂正を行ってから投稿する
  • 音声認識時間
    • 大語彙連続音声認識エンジン"Julius"では、5秒の入力音声に対して35秒の処理時間を要する
    • Googleの音声認識APIを用いることで、高速化に成功
  • 投稿可能文字数
    • 短縮URLサービス"bit.ly"のAPIを利用


質問の時間・ディスカッション

  • 文字入力による"つぶやき"と音声入力による"つぶやき"の言い回しの違いは?
  • Twitterでは次々に新しい語句が現れると考えられるが、音声認識誤りを防ぐために、それにいかに対応していくのか?
  • 実際に音声を聞いたユーザはどれくらいいたか?
  • 語句の表記の崩れや新しい言い回しのため、Twitterでは形態素解析が難しい
  • 文字数が少ないので、Twitterでは共起関係がよく効く

Comments