論文:Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction 担当:多田さん
- どういうアノテーションをする?:population, interventions and outcomeの3つ
- percent data dropped (p.14)?:難しい(定義したdifficultyの高いもの)を落とす
- どれくらい難しいものを落としたのか、を示すと(横軸にすると)良さそう:future work
- difficulty (p.8) クラウドワーカーと一致したら難しいの?
- 数字が高いほど難しい
- 相関が高い方が簡単になりそう。。。
- クラウドワーカーと専門家が一致したら簡単になりそう
- どちらか一方しか注釈をつけていなかったら難しい
- universal sentence encoder:先行研究。transformerを使っているらしい。いろんなタスクを解かせたもの。
論文:Addressing Troublesome Words in Neural Machine Translation 担当:丸山さん
- nmtにとって翻訳するのが難しい単語:troublesome wordを定義
- どんな単語が集まった?:わからない
- わかれば最後の処理がいらなくなる
- 人が見た時のdifficult wordではないかもしれない
- もっとたくさん作れそう
- troublesome word のなかでbleuスコアを算出
- low:低頻度
- amb:曖昧性
- others:それ以外
|