仕事量基準を用いたコーパスからの定型表現の自動抽出

北 研二,小倉 健太郎,森元 逞,矢野 米雄
仕事量基準を用いたコーパスからの定型表現の自動抽出
情報処理学会論文誌 Vol. 34, No. 9,pp. 1937-1943 (1993)

慣用表現や定型表現をコーパスから自動抽出するために「仕事量基準」という概念を導入

単語列に対して

 単語列の長さ(語数)
 単語列のコーパス中での出現回数

単語列に対する仕事の削減量を以下で定義.



単語列が単語列の部分単語列であるとするとき
の出現回数のうち,回についてはが参照されるので,純粋にが参照されるのは




の両方を定型表現として採用する場合には




一般に,共通の部分単語列を持つ単語列の集合




を同時に定型表現と考える場合,共通の部分単語文字列
に対しては,





上記の計算をすべて行うには,膨大な量の計算が必要になる
そこで,以下の近似を用いて計算量を削減する.

*再計算は隣り合った文字列どうしに限る.
**「隣り合った」とは,ひとつの文字列の左端または右端に文字をひとつ連接させることによって,もうひとつの文字列が得られることをいう.
**文字列の長さが2以上離れているものについての再計算は,隣り合った文字列同士の再計算に帰着されるという考え.

*再計算は一度だけに限る.
**ABC,ABE,ABという文字列が採用されていて,上位から順に計算していったとき,ABCが取ってこられた時点でABの再計算が行われているので,ABEが取ってこられてもABの再計算は行わない.
**上位から順に計算する場合,後からされる再計算ほどKの値に与える影響が少ないという理由. 


「文献紹介」に戻る
Comments