永田 亮, 河合 綾子, 須田 幸次, 掛川 淳一, 森広 浩一郎自然言語処理, Vol.17, No.2, pp.51-65 (2010)
1.はじめに
- 従来のコーパスは大人の文章を集めたものが中心
→子供の文章を集めたコーパスは少ない - 特に、書き言葉を収録した"大規模な"コーパスは存在しない
- 先行研究で利用されてきた子供のコーパスは一般には公開されていない
→研究や教育に自由に利用できる状態にはない - 本論文では「こどもコーパス」を作成
2.子供コーパスの構築の難しさ - 書き手の確保の難しさ
- 一般に、子供が書いた文章は出版されていない
- 謝金支払いによる書き手の募集も難しい
- データ収集に関する難しさ
- 子供にとっては、継続的に文章を書くことは難しい
- 興味の維持や負担の軽減が必要
- データの記録と管理に関する難しさ
- 紙媒体を用いては、”誰がいつ何を書いたか”を記録・管理できない
- 著作権に関する難しさ
- 研究に自由に利用するためには、書き手の同意が必要
- 子供の場合、保護者から同意を得なければならない
- データ整備の難しさ
- 判読不可能な文字、意味不明な文字列、句点の抜け、表記の誤り、文法誤り
→これらは大人が書いている一般のコーパスではあまり生じない問題
3.提案する構築方法 - 言語データの収集方法
- 書き手の確保の難しさの解消
- 図書をテーマとしたブログを利用した言語データの収集方法を提案
- 総合的な学習の時間に行われる情報発信の活動(ブログ)に着目
- 一度に多くの子供を対象にして言語データの収集が可能
- 言語データの収集のために、学校のカリキュラムから外れることもない
- 書籍情報をバーコードリーダーで読み取り、子供は文章の作成に集中
- データ収集に関する難しさの解消
- ブログ上で履歴を閲覧できることにより、情報発信の活動の促進が期待される
- データの記録と管理に関する難しさの解消
- ブログのユーザ管理機能で子供を識別可能
- ブログのログ機能で誰がいつ何を書いたかを記録可能
- 著作権に関する難しさの解消
- 法律家・教員・研究者の三者で同意書を作成
- 学習目的を明らかにするべく、言語データの収集が学習活動の一環であることを明記
- コーパス構築の教育的・学術的意義を明らかにすべく、コーパス構築の目的と意義を記載
- しかし、同意書の作成には1年の年月を要した(今後の課題)
- コーパス構築のためのガイドライン
- ブログ特有の課題
- 不明瞭な文区切りへの対処
- 括弧表現への対処(これは構文構造を括弧でアノテーションする場合の課題であり、対象外)
※アノテーション:言語分析の結果(解釈)をコーパスデータに付与すること(言語処理学会(2009)『言語処理学事典』共立出版) - 誤字、方言、顔文字などの多様な形態素への対処
- 基本方針
- 収集した言語データを可能な限りそのままの形でコーパスに収録
→誤字、方言、顔文字などの多様な形態素はそのまま使用
- 不要と思われるものも、目的によっては重要な情報となる可能性がある
→例えば、意味不明な文字列は学習意欲をなくした子供の自動判別につながる可能性がある
- 例外として、個人名の処理(個人情報保護の観点から)、文分割処理などがある
- 文分割処理
- 一文一行形式とし、文末記号("。","!","?","."など)で改行する
- 文末記号がない場合→作業者の主観で、文末として判断された箇所を改行する
- 読点を用いた文末表現→これも作業者の主観で改行(読点:"、"や",")
- 文末記号+顔文字の場合→顔文字の直前に文末記号がある場合は改行する
- 引用符中の文末記号→引用符中では文末記号があっても改行しない
- 文の途中に改行がある場合→改行を消す
4.こどもコーパス - 対象:小学5年生(10〜11歳)81人(3学級)
- 期間:8ヶ月
- 形態素数:39269(「茶筌」より)
- 形体:書き言葉(本の推薦文「おすすめメッセージ」:総合的な学習の時間に情報発信の学習活動の一環として)
- 特徴:トレース可能→いつ誰が何を書いたかという履歴が参照可能
特徴:他の子供のブログの内容を検索・閲覧可能 - 人数、期間、形体素数において、公開されている書き言葉の子供コーパスとして最大
- さらに、形態素情報をコーパスに付与することを計画している
- 子供が書いた文章に対応できるように、既存の形態素に関するガイドラインの拡張が必要
- 形態素情報付きコーパスがあれば、子供の書いた文章専用の形態素解析が開発できる
→さらに詳細な子供の文章の分析につながると期待
- 問題点
- データの偏り(本の推薦文なので、本に関する単語に偏っている)
- 入力方法(かな漢字変換を用いて入力するため、子供が知らない漢字を使用している可能性が高い)
- ブログ上の文章(語用や文体が、紙と鉛筆で書く通常の作文とは異なる可能性がある)
参考文献 中條晴美, 内山将夫, 中村隆宏, 山崎淳史. 子供話し言葉コーパスの特徴抽出に関する研究. 日本大学生産工学部研究報告B, 39 (2006) 国立国語研究所. 児童の作文使用語彙. 国立国語研究所報告, 98巻 (1989) 守屋慶子, 森万岐子, 平崎慶明, 坂上典子. 児童の自己認識の発達:児童の作文の分析を通して. 教育心理学研究, 20(4), pp.205-215 (1972) など
|