研究室‎ > ‎卒業生のみなさまへ‎ > ‎山形 祐輝‎ > ‎知識‎ > ‎

テキストマイニング

・テキストマイニングとは
ユーザが一連のツールを利用して文書集合を対話的に分析すること。

・文書集合
文字で書かれた文書の集まり。文書集合に含まれた文書の数は、数千から数千万に及ぶ。
文書集合には静的(static)なものと動的(dynamic)なものがある。
    ・静的:集合に含まれる文書が初期状態から変化しない。(小説、記事 etc)
    ・動的:文書の追加や更新が時間経過と共に行われる。 (webサイト etc)

・文書
ある文書集合中にある一単位のテキスト情報。
1つの文書が含まれる文書集合は1つとは限らず、複数の異なる文書集合にも、あるいは同じ文書集合の中の複数の部分集合の要素にもなり得る。
文書は非構造データとされているが、言語学的側面からみると詳細な意味的及び構文的構造を示している。
    ・自由形式文書(弱構造文書):レポート、論文、記事のように構造を示す活字情報やレイアウト情報、マークアップ記号をほとんど持たない文書。
    ・半構造文書:Eメール、HTML形式のWebページのようにフィールド情報を示すメタデータを容易に取り入れられるような詳細で一貫した整形要素を持つ文書。

・文書の素性
文書を明示的に構造化された中間表現に変換するために、文書の内容を的確に表現し得る簡潔な素性の集合の発見が必要である。
この素性の集合は文書表現モデルと呼ばれ、個々の文書はこのモデルに含まれる素性集合で表現されるものとする。
文書は大量の素性を持つ。また、その各素性にはばらつきがあり、文書集合に現れる集合のうち、1つの文書に出現するのは数%しかない。
代表的な素性の例として以下の4つが挙げられる。
・文字   :文書を構成する最小単位。文字,数字,特殊文字,スペースは、単語,ターム,概念といったより高位の意味的内容を持った素性を構成する要素となる。
・単語   :漢字のような表意文字を用いる場合を除く、意味を表現する最小単位。元の文書の意味を支えるもの。
・ターム:何らかの情報抽出手法を使って生のコーパスからそのまま抽出された、単一の語及び複数の語からなる句。
・概念   :人手、統計的な処理、規則的な処理、あるいはこれらを併用した手法によって、文書を特徴付ける素性として生成されるもの。
例) 私は長岡駅へ行きたい。
  文字:私,は,長,…,た,い,。        単語:長岡駅,行く
  ターム:私,長岡,駅,長岡駅,行く    概念:人,場所,願望,etc

・システム構成
一般的なテキストマイニングのシステム構成は以下のようになる。

    ・前処理:テキストマイニングの核となる知識発見処理のためのデータ準備に必要な手順、処理及び手法。
    ・マイニング処理:テキストマイニング処理の心臓部。パターン発見、傾向分析、知識発見アルゴリズムが含まれる。
    ・プレゼンテーション層のコンポーネントとブラウジング:GUI、パターン閲覧機能、クエリ言語アクセス機能、さらに可視化ツールや最適化ツールも含まれる。
    ・改良手法:冗長な情報をフィルタアウトしたり、関連性の強い情報を集めるクラスタリングをしたりする手法。後処理とも言われる。

・中核となる手法
・分布
※前提として、ここでの分布は数学的に正しいものではなく、分布が示す性質が成立するので「分布」と呼んでいる。
概念分布とは、或る概念の下位ノードにある概念の分布である。各下位概念には0〜1の値が与えられており、足しても1になるとは限らない。
概念分布のうち知識発見に重要なものとして概念比率分布というものがある。この分布はある文書集合に対して、選択された概念のそれぞれが付与された文書集合が占める比率を表している。また、条件付き概念比率分布も用いられる。
テキストマイニングで分布を比較する際の基準となる分布の一つとして概念階層中の兄弟概念ノードにおける平均分布が用いられる。
・近接頻出集合
文書集合から得られる基本的特徴パターンとして頻出概念集合がある。頻出集合は本来、相関ルールを見つける際に定義されるものであるが、他のテキストマイニングの目的に利用可能な情報を多く含んでいる。テキストマイニングにおける頻出集合はその頻出集合に含まれた概念の論理的クエリとみなすことができ、包含関係による半順序関係が成り立つため、頻出集合の部分集合は常に頻出集合である。頻出集合の発見は、パターン発見、相関ルール発見の準備として有用である。
近接頻出概念集合は概念に関する二つの頻出集合の間に成り立つ方向のない関係を規定するものである。これは二つの集合の重複度合いを図ることで定量化することが可能である。また、概念集合間の有向な関係も定義可能であり、相関の一種と考えることが可能である。
・相関
相関とは、概念間、または概念集合間における有向の関係である。
A,Bをそれぞれ概念集合とすると、相関ルールは一般的にA⇒Bと表される。これは「AであればBであるという傾向がある」ことを示している。
この相関ルールは、サポートと確信度という基本的な指標で定量化可能。
より正確に相関ルールは以下のように定義される。
・r={t1,...,tn} を文書集合、またはrの中の個々の文書にはm個の概念からなる概念集合R={I1,...,Im} の部分集合が付与されているとする。
・Aを概念、t を文書とすると、Aが文書 t に付与されている場合は t(A)=1、付与されていない場合は t(A)=0と表す。
・WがRの部分集合であるとき、t(W)=1はA∈Wであるすべての概念Aに対してt(A)=1であることを意味する。
・XをRの部分集合とするとき、(X)={ t| ti(X)=1 }と定義する。すなわち(X)は、Xに含まれる全ての概念が付与されている文書 ti の集合である。
・ある数値σ(サポートの閾値)に対して|(X)|≧σであるとき、Xはσ被覆という。
W⊆RかつB⊆R\Wであるとき、文書集合 r 上の相関ルールをW⇒Bと表す。この相関ルールにおいてWを条件部(LHS)、Bを結論部(RHS)と呼ぶ。W∪Bがσ被覆であり、かつ|(W∪B)|/|(W)|≧γであるとき、文書集合 r は確信度の閾値γ(0<γ≦1)とサポートの閾値σで相関ルールW⇒Bを満たすという。これは、Wに属する概念が付与されている全ての文書は、少なくともγの比率で概念Bも付与されており、さらにWとBに含まれている概念全てが付与されている文書が少なくともσ件あることを意味している。
相関ルールは、概念間の関係性を一般的に説明するするために有用である。これに対し極大相関は、少し特殊な概念間の関係を表す。これは、ある概念から見ると相関があるが、別の概念から見るとあまり相関がないといった種類の概念間の相関も説明できる。

参考文献
「テキストマイニングハンドブック」 ローネン・フェルドマン,ジェイムズ・サンガー 著 辻井潤一 監訳 IBM東京基礎研究所 訳 東京電機大学出版局

サブページ (1): 補足説明
Comments