日英特許データベースからシソーラスを自動的に構築する手法の提案 上位、下位概念の抽出 日本文での「AやBなどのC」、「AやBなどのC」、英文での”A, such as B and C"といった定型表現に着目して抽出する。 例えば「染料や顔料などの着色剤」という文なら「着色剤」といった上位概念に対して「染料」、「顔料」が下位概念であることがわかる。 日英の用語の対応づけ 統計的機械翻訳ツールGIZA++を使用し、フレーズテーブルを作成した。 まず日本語の上位概念下位概念を作成したフレーズテーブルを用いて単独で翻訳 次に得られた訳語からすべての組み合わせで上位概念下位概念の候補を作成する。 英語特許データベースから上位下位概念に当てはまるものがあれば、日英の用語を対応付けする。 |