文献紹介 1

 タイトル Web上に公開されたシラバス情報の自動収集
 著者 山田 信太郎、伊東 栄典、廣川 佐千男
  2002

目的
Web上に公開されているシラバスの情報の抽出・統合を行い、目的に適した情報の整理、提供を行うシステムの構築

大まかな手順
1.シラバスデータの性質分析
2.Web上に公開されているシラバスデータの収集
3.HTMLのシラバスデータのレコード項目への切り分け
4.切り分けられたデータを用いて知識を獲得

シラバスデータの分析
・シラバスデータの性質
実際に公開されている52サイトを人手で調査。
多くの場合、項目名と項目値のペアで構成されている表形式である。(ちなみに本学は表形式)
ただし、項目値が同じでも作り手によって項目名が違う場合がある。(「担当教員」と「担当者」etc.)
・メタデータの作成
項目値と項目名とで一対一の対応がとれるように、項目値をもとにメタデータを作成。
項目値1つに対し項目名を1つに定め、元の項目名を置き換える。(「担当者」→「担当教員」)

シラバスの自動収集
・検索システムによる収集
収集の一段階として、Web上のページデータ検索システム(Google等)を利用しシラバスを自動収集する。
シラバスデータが得られそうなキーワードで検索し、得られたページを解析、リンクがあればリンクされたページを解析、これを何段階か行う。
ただし、データを得るファイルをtextファイル、htmlファイルに限定する。
・ノイズ除去
一次段階で得られたデータからノイズ(シラバス以外のページ)を除去する。
・リンク構造
通常、シラバスデータへのリンクをリストとして持つページが存在し、シラバスデータ単独で存在することは稀。

・特徴抽出
シラバスに関連する単語の出現頻度からページの特徴抽出を行う。
出現頻度による評価関数を用いて、ページのスコア付けを行う。
関連する単語が多数出現すればシラバスデータの可能性が高くなる。

実験
検索システム:Google、キーワード:シラバス、リンクをたどる段数:5
として実験を行った。
Googleから得られたURL数:649
一次段階で収集した結果 452サイト 80446個のファイル

評価
'www.a'で始まる20サイト4281ファイルについて評価を行った。
まず、人手でシラバスデータのファイルであるかを判断し、シラバスデータのファイルリストを作成。
これをもとに深さ毎に以下の二つを求めた。

・Hit率:その深さでのシラバスファイル数/その深さの全ファイル数
・Cover率:その深さでのシラバスファイル数/正解集合のファイル数

この結果、深さ3以降のCover率の上昇は緩やかであった。
したがって、リンクをたどる数を3より増やしても効果は薄いことが分かる。

次に、深さ2のファイル群に対しスコア付けを行った。
結果、スコアが0.4を超えた時点でシラバスデータファイルとその他のファイル数が逆転した。
また、あるスコア未満のファイルを切り捨てた場合、スコアが0.5を超えるとCover率が大幅に下がり、Hit率の増加幅も小さくなった。
したがって、深さ2、スコア0.4以上という条件でノイズが減らせることができる。
この時、Hit率9割、Cover率8割である。

考察
リンクをたどる深さは2または3で十分。
理由は上記のリンク構造をもっていることがあげられる。
評価関数による判別はスコア0.4を基準にファイルを分けることが適している。
スコアが低かったシラバスデータについて、メタデータ作成時のサンプリング数の不足があげられる。
また、項目名が存在せず、表形式でないシラバスデータは得ることができない。
スコアが高かったその他のファイルは、入試案内や、学内ニュースサイト等があった。

自分の意見
・評価の方法が項目名によるスコア付けなので、表形式でない場合でも各項目に分かれているものが多いため、そのまま利用できるのではないかと思う。
・評価の際に'www.a'の20サイトを利用しているが、'www.a’から始まるサイトの場合、同じ学校のシラバスになることがあるので、無作為に選んだ方がいいのではないかと考える。
・また、評価するサイト数が20では全体の約4%であるため、評価を行うサイト数を増やした方がよりよい評価ができるのではと考える。
・Web上に公開しているシラバスの中にはPDFのものもあるため、この場合は使えない?
・リンク構造について、確かにそのようになっているが、中にはGoogle等で検索してでたページから3〜4回ほどリンクを辿らないとリストがあるページに行けないものもあるため、深さはもっと必要?
Comments