背景
- 大量の書き起こし付き音声データが必要
- 音声データはWebから容易に収集できる環境が整ってきた
- 音声データに書き起こしやタグを付与するには多くのコストがかかる
- 現状では、既存の整備された音声コーパスを使わざるをえない
→ 音声データとその書き起こし文章を低コストで収集 → ソーシャルメディア「Twitter」に注目
- つぶやきを音声で入力できる
→ 携帯端末からの入力作業の負担を軽減させることができる - テキスト情報だけでなく、つぶやいた音声も合わせて投稿できる
→ 音声でのコミュニケーションが可能になる → 音声とその書き起こしを同時に収集できる
システム開発における問題点と解決策
- 音声認識誤り
- 音声認識結果をテキストボックスに出力し、ユーザが訂正を行ってから投稿する
- 音声認識時間
- 大語彙連続音声認識エンジン"Julius"では、5秒の入力音声に対して35秒の処理時間を要する
- Googleの音声認識APIを用いることで、高速化に成功
- 投稿可能文字数
質問の時間・ディスカッション
- 文字入力による"つぶやき"と音声入力による"つぶやき"の言い回しの違いは?
- Twitterでは次々に新しい語句が現れると考えられるが、音声認識誤りを防ぐために、それにいかに対応していくのか?
- 実際に音声を聞いたユーザはどれくらいいたか?
- 語句の表記の崩れや新しい言い回しのため、Twitterでは形態素解析が難しい
- 文字数が少ないので、Twitterでは共起関係がよく効く
|
|