概要 情報検索や機械翻訳など多くの言語処理のタスクにおいて、固有表現認識(Named Entity Recognition)処理を行うことでパフォーマンスが向上する。これまでアラビア語におけるNERシステムは、標準アラビア語を対象とした開発が行われ、大規模な固有名詞辞書等を作成することで高い精度を実現していた。しかし、TwitterなどのソーシャルメディアにおけるNER処理は少なく、従来法を適用するためには辞書等を作成する時間とコストがかかる。そこで、本論文ではLSTMとCRFを組み合わせたモデルを提案する。大規模辞書を用いずに単語と文字Embeddingから得られた特徴のみから推定を行い、従来手法と比べて大幅に性能が改善した。 参考文献
発表スライド[URL] |