アノテーション支援ツールのbratを用いる。 様々なタイプのアノテーションに対応する。 apacheを立てることにより、複数人での同時編集などにも対応するようである。 公式ページ(http://brat.nlplab.org/index.html) 導入スタンドアロンでひとまず動作させる。 本家ページのリンクより、ダウンロードする。gitでクローンしても良い。 本家ページのインストールガイドに則って導入すれば動く。 install.shファイルを実行し、ユーザとパスワードを設定。 python standalone.pyで起動する。 ブラウザで表示されたURLへアクセスし、アノテーションツールが表示されればインストール完了となる。 形態素解析アノテーションとしての利用例 /brat/data以下に作業ディレクトリを作成する。
chmod 777 /brat/data/workでパーミッションを変更しておく。 /brat/dataディレクトリにある設定ファイル4つ(annotation.conf, kb_shortcuts.conf, toolsconf, visual.conf)を/brat/data/workにコピーする。 今回は品詞付与を行うため、annotation.confを書き換える。 もともとは固有表現(entity)をアノテーションするツールだったので、品詞付与用のカテゴリはない。 そこで、[entity]以下の要素を品詞に書き換えることにより品詞付与を行う。
書き換えて保存後にbratでアノテーションをすると、entityに品詞リストが付与されているはずである。 後はどんどんアノテーションを進める。 なお、アノテーション結果は、「ファイル名.ann」という名前で作業対象ファイルと同じディレクトリに保存されている。 中身は、「Tタグ番号\tタグ 始点 終点\tタグ付けした文字列」が一行ずつ記載されている。 プログラムやコマンドから扱いやすい形式である。 |