1日目はPCを非持参だったため、余裕のある時間を使って書き起こす。 書き起こしのあまりの面倒さに、いくつかの発表を省略←すみません。 全体的に、全力なメモレベルです。 X1:コーパスアノテーション ① 時間情報表現 二〇〇三年十月二十日 → 一意 月曜日、午後五時、二時間 → × → これらをアノテーションの規格に沿って文脈情報も用いて一意の時間軸にあてはめる。 ② 係り受け、並列 並列や同格などの関係を独自にBCCWJに対して設定した。 係り受け解析では表現しきれないところをコレでカバー 集まって→来る ・・・ これは1個にまとめれるよっていうことで、係り受けとは別の記号を付与 ③アノテーションforアノテーション by 徳永先生 !アノテーションがうまくいかないとき、アノテーション過程についてリアルタイムで記録し、それをアノテーションすればいい(メタ・アノテーション) (通常はガイドラインをつくって、何かあれば後でまとめてフィードバック) ↑自動とアノテータの努力で作成していく アノテータの振る舞い 1.テキストを読む→2.アノテーションについての判断→3.アノテーション 収集データ ・観察データ(1,3) :視線(eye-tracker)、ツール操作(アノテーションツール) ・潜在的データ(2,3) :意思決定過程(対話分析、ペア・アノテーション) ↓ 有用な情報の発見、アノテータ・アノテーションの質の評価、アノテータの育成 ④データサイズが多い方がいいのか、データのカバレッジが高い方がいいのか。 「nownをverb」について。 Lang-8を使用。←日本語学習者の日本語を直していくフリーのサイト 結果、毎日新聞より、BCCWJの方が、precisionもrecallも高い。 これは語彙の使用範囲の問題らしい。 |