・テキストマイニングとは ユーザが一連のツールを利用して文書集合を対話的に分析すること。 ・文書集合 文字で書かれた文書の集まり。文書集合に含まれた文書の数は、数千から数千万に及ぶ。 文書集合には静的(static)なものと動的(dynamic)なものがある。 ・静的:集合に含まれる文書が初期状態から変化しない。(小説、記事 etc) ・動的:文書の追加や更新が時間経過と共に行われる。 (webサイト etc) ・文書 ある文書集合中にある一単位のテキスト情報。 1つの文書が含まれる文書集合は1つとは限らず、複数の異なる文書集合にも、あるいは同じ文書集合の中の複数の部分集合の要素にもなり得る。 文書は非構造データとされているが、言語学的側面からみると詳細な意味的及び構文的構造を示している。 ・自由形式文書(弱構造文書):レポート、論文、記事のように構造を示す活字情報やレイアウト情報、マークアップ記号をほとんど持たない文書。 ・半構造文書:Eメール、HTML形式のWebページのようにフィールド情報を示すメタデータを容易に取り入れられるような詳細で一貫した整形要素を持つ文書。 ・文書の素性 文書を明示的に構造化された中間表現に変換するために、文書の内容を的確に表現し得る簡潔な素性の集合の発見が必要である。 この素性の集合は文書表現モデルと呼ばれ、個々の文書はこのモデルに含まれる素性集合で表現されるものとする。 文書は大量の素性を持つ。また、その各素性にはばらつきがあり、文書集合に現れる集合のうち、1つの文書に出現するのは数%しかない。 代表的な素性の例として以下の4つが挙げられる。 ・文字 :文書を構成する最小単位。文字,数字,特殊文字,スペースは、単語,ターム,概念といったより高位の意味的内容を持った素性を構成する要素となる。 ・単語 :漢字のような表意文字を用いる場合を除く、意味を表現する最小単位。元の文書の意味を支えるもの。 ・ターム:何らかの情報抽出手法を使って生のコーパスからそのまま抽出された、単一の語及び複数の語からなる句。 ・概念 :人手、統計的な処理、規則的な処理、あるいはこれらを併用した手法によって、文書を特徴付ける素性として生成されるもの。 例) 私は長岡駅へ行きたい。 文字:私,は,長,…,た,い,。 単語:長岡駅,行く ターム:私,長岡,駅,長岡駅,行く 概念:人,場所,願望,etc ・システム構成 一般的なテキストマイニングのシステム構成は以下のようになる。 ・前処理:テキストマイニングの核となる知識発見処理のためのデータ準備に必要な手順、処理及び手法。 ・マイニング処理:テキストマイニング処理の心臓部。パターン発見、傾向分析、知識発見アルゴリズムが含まれる。 ・プレゼンテーション層のコンポーネントとブラウジング:GUI、パターン閲覧機能、クエリ言語アクセス機能、さらに可視化ツールや最適化ツールも含まれる。 ・改良手法:冗長な情報をフィルタアウトしたり、関連性の強い情報を集めるクラスタリングをしたりする手法。後処理とも言われる。 ・中核となる手法 ・分布 ※前提として、ここでの分布は数学的に正しいものではなく、分布が示す性質が成立するので「分布」と呼んでいる。
・近接頻出集合
・相関
参考文献 「テキストマイニングハンドブック」 ローネン・フェルドマン,ジェイムズ・サンガー 著 辻井潤一 監訳 IBM東京基礎研究所 訳 東京電機大学出版局 |