B4ゼミ 第6回(2013/5/10) 第4回(2013/4/26) 第1回(2013/4/4)
1月からゼミが開始された:
ここに以前のコアタイムでの資料と合わせてゼミ資料も置いていく 第11回(2013/3/26) - 発表者と発表資料(未掲載分は入手次第載せていく):
第10回(2013/3/19) - 発表者と発表資料(未掲載分は入手次第載せていく):
第9回(2013/3/19) - 発表者と発表資料(未掲載分は入手次第載せていく):
第7回(2013/3/5)
- 発表者と発表資料(未掲載分は入手次第載せていく):
第6回(2013/2/27)
- 発表者と発表資料(未掲載分は入手次第載せていく):
第5回(2013/2/12) - 発表者と発表資料(未掲載分は入手次第載せていく):
第5回(2013/2/5) - 発表者と発表資料(未掲載分は入手次第載せていく):
第4回(2013/1/29) - 発表者と発表資料(未掲載分は入手次第載せていく):
第3回(2013/1/22) - 発表者と発表資料(未掲載分は入手次第載せていく):
- 松本 A Framework of a Mechanical Translation between Japanese and English by Analogy Principle - Makoto Nagao
- スライドは随所訂正箇所があるので後に、訂正したものをあげときます。
- 訂正箇所:
- タイトル:A Framework of が抜けてる
- リファレンスを最初に持ってくる。いつ/どの出版物に掲載されているものかなど
- 途中で出てくる、「残念/ながら/明日は/行け/ません」において、長尾先生はそのような一語一語の変換によっての翻訳はうまくいかないのでblock of words to block of words での訳しかたが良いといっている。(完全に自分の読解力のなさによるもの
- 宮西 機械学習を用いた日本語表現のチャンキング
- 機能表現と内容表現とあるがこれらをどう識別させるか?
- JUMAN&KNPでの解析ではJUMANは機能表現を検出しない、KNPが検出する
- ChaSen&CaboChaではChaSenが機能的表現をまとめて検出
- しかし、機能的用法と内容的用法の区別ができない:同音表現での場合のはなし→ 例)「〜にあたって」
- 検出器の作成
- YamChaの利用:SVMを用いたチャンキングツール
- 複合辞DBの利用
- 機能表現のクラス判別、チャンキング
- 先生:ある単位で区切ること。文もある意味チャンキング、連語、単語、形態素などでのチャンキング
- 井手上さん:最終的に、文字単位でチャンキングしていってタグをもたせれるようになれれば
- チャンクタグ:
- IOB2フォーマット
- F/AM/CYB
- 上記の組み合わせ:6種類
- 素性の種類
- 形態素素性、チャンク素性、チャンク文脈素性 ←ここらあたりで見失った
- 先生&井手上さん:結局、話のすり代わりになっていないか? 元々は機能表現、内容表現の区別が目的だったのでは?
- 用語:
- SVM (Support Vector Machine):
- 井手上さんに聞いたら:グラフでのプロットをあるグループ分けするときにあたってのその境界線をつくってくれるもの?
- IOB2フォーマット
- 機能表現
- 内容表現
- 自立語
- 付属語
- チャンキング
- 参加者:井手上さん、山本先生
- 感想:英語力、読解力と共に国語用語(自立語、付属語など)の欠落を実感(痛感)し始めてる今日この頃です。自分への言葉:落ち着いて、全体の流れを把握しよう。
- 井手上さん、山本先生ご参加ありがとうございました。
第2回(2013/1/17) - 発表者と発表資料(未掲載分は入手次第載せていく):
- 松本 A Preliminary Approach to Japanese-English Automatic Translation - Susumu Kuno
- 準備不足により支離滅裂状態な内容の説明となったのでオーディエンスには何も届かなかったかと思われる。
- follow-up: 1961年のものであり、当時のパソコンの普及率を考慮すると、文献最後にあった「Since the system proposed in this paper has neither been developed in complete detail nor been tested on a machine,」というのもうなずけるが、逆に紙と鉛筆だけでこの発想へと結びつくということにすごい&びっくりである。
- 宮西 「言語処理における識別モデルの発展-HMMからCRFまで-坪井祐太、鹿島久嗣、工藤拓」
- データ構造の講義で習った木、グラフなどによって文字列中の単語間の関係(係り受けの関係)を表現することができる。その構造データを使ってマッピングを行う際に問題がいくつかある。
- ラベリング問題:固有表現抽出のさい固有表現の始まりとその後に続く固有表現に行うラベル付与
- マッピング問題:単語列とラベル列のリンキング
- などなど、しかし、今回は出力の構造は固定、ノードのラベル付のみを行う問題について
- 単語列の入力x に対してラベルの出力 y とみたとき、それぞれのxに対応するyを出力させるのだが、それらの対応関係をが必要。手段として過去の事例(学習データ)と統計的推論を使う。
- 先生:入力xに対してのxの集合をXと表記したときの英語でのXの読みは”large x”ではなく、”capital x”と読む/書く。Yも同様。
- 学習データはどの位ひつようになるのか?
- 先生:ある人は無限データだったらちゃんと答えが出せるという人と、出せないという人がいる。前者の場合は有限の膨大なデータをそのまま使う、後者はどうコンパクト化と高精度を保つかを考える必要がある。
- 統計的推論:
- 条件付き確率分布 Pr(y|x)
- 予測: y^ (Capped y) = arg max( y ∈ Y) Pr(y|x)
- 2つの問題点:
- Pr( y | x )をどのような形にするか
- どのようにPr(x|y;θ)を求めるか
- ここで登場する式Pr(x|y;θ)はパラメータthetaによってPr(y|x)の値が決まるというもの
- 隠れマルコフモデル(HMM)において
- 文献:なぜここで突然隠れマルコフモデルが出てきたのかに対しては、「配列に対してのラベル付与問題では、古くより隠れマルコフモデルが用いられ、様々なタスクにおいて成功を収めてきた。」とある。
- 用語:
- HMM:隠れマルコフモデル HIdden Markov Model
- CRF (Conditional Random Field)
- 無向性のグラフィカルモデル、それぞれの頂点は分布が推論されるべき確率変数を表現する。
- CRFの確率モデルは Pr(y|x) = exp( theta, phi(x,y) ) / Sigma exp (theta, phi(x,y) ) となる。
- 識別モデル
- 先生:最近できたモデルで今回の年次大会に注目:ちゃんとした理由もなく、流行っている理由で使用されているケースが多々。
- 先生:今回の年次大会(他学会を見学に行く時においても言えることであるが)を見に行くにあたって、自分の考えを持ちながら聴く。全部を受け身で聞くな!
- 生成モデル
- 識別モデル
- ベイズの定理
- argmax
- 尤度(ゆうど)
- 最尤推定
- 素性(そせい)
- 先生:”すじょう”ではない、feature の f
- Π(総乗)
- NLPにおいて出てくる数学は総和(Σ)、総乗などぐらい、微積などといったような”難しい”数学はでてこない
- 参加者:山本先生
- 感想:人が発表されているときは疑問に思ったことなどでもいいから質問していこう・・・っていうことを先週第1回ゼミで先生が言われたのですが、話の内容についていくのに必死すぎて何も挙手できずにおわった。
第1回(2013/1/10)
- 発表者と発表資料(未掲載分は入手次第載せていく):
- 松本 機械翻訳について
- 質問でNLPと人工知能の分野の違いなどが出てきたが最終的には違いはあるがせんびきは曖昧で人にもよりけりとなり、NLP-istならNLP-istの考え方があったりなどということであった。
- 品質改善でのPre-edited, Control, Sublanguageにおけるコストの違いという質問というのも上がったが、これは真嘉比先輩曰く、一概にはこれはこうだからこれが一番コストがかかるなどと断定付は出来ず、用途や対象言語などいろいろと様々な条件により違いが起こる。
- 自分も気になっていたことで、Bilingual Sytemにおいて一方向のほうが多いという記述があるが、なぜなのか? 真嘉比さん's Answer:例えば、日本語と英語を例にとってみると、日本語→英語における変換と英語→日本語における規則性が異なったりなどと容易にできることではないので別システムになってしまう・・・というような答えだった。
- では、グーグルなどでの英語→日本語と日本語→英語は別個のものということなのか?に対しては、これはグーグル先生が統計的アプローチによりまた違う考え方になる。:(参照:google項目@MTアプリ・リストにStatisticalと書いてある)
- 江原教授の規則方式機械翻訳と統計的後編集における評価方法BLEU、NISTでの評価方法とはどう異なるのか?これには先生曰く、現時点での把握はただ一致するかどうかだけをみる評価だと認識していればいいよとのことであった。
- NIST@wikipedia(英語版)
- BLEU@wikipedia(英語版)
- これらを読むと(実はNISTしか読んでいないが)、NISTはBLEUの基に作られたものである。BLEUはn-gramに基づいた指標を計算するものであるが、NISTはn-gramがどのくらい情報的?(informative)なのかも同時に調べてくれるみたいである。例えば正当なn-gramが見つかって、そのn-gramがレアであればあるほど、そのn-gramには重い比重が与えられる。("on the"みたいなn-gramはとても低い比重となる)補足として、NISTは文長には関係しないみたいである。
- 次週:論文を読んでその内容に関することのプレゼン&勉強会
- 宮西 形態素解析における解析器と辞書との組み合わせによる違い
- IPADicとUniDicを使用したとのことであったが、この2つの違いは何か?に対してコストが違うということであった。これは下記にあるコアタイムで使用した奥村学先生の「自然言語処理の基礎」での日本語の形態素解析(P.25 2010/10/28発行版)に記述されているラティス・グラフでのリンク付する際のコストの話である。
- モルコフモデルについて気になったが、これについては発表者への次週までの課題となった。
- 実行結果をHTMLファイルで出力させることによって異なるところに色付けするところにスゴイとおもった。
- 実行例で最高裁が|最高裁|と|最高|裁|と区切られているものがあったが、発表者が察するに辞書によるものかと。先輩曰く、これは品詞にチェックをいれるとなんでかわかるかもというようなアドバイスがあった。
- 真嘉比先輩によると解析器(辞書?)によっては半角/全角でも結果が異なるらしい。これはunicode.normalize(?)メソッドを使うことで統一できるらしい。
- (発表者の実験途中の)現段階ではどの解析器と辞書の組み合わせが最良かと尋ねると、これは入力によって異なるので一概にこれはこれとは判断できかねる。これは真嘉比先輩も同意で使い分けが必要とのことであった。
- 参加者:真嘉比さん、山本先生
- 感想:初のゼミということでコアタイムと異なり先生、先輩の参加があり、プレゼン中の質問もあり、緊張しぃの自分にはいい意味でチャレンジであった。
- 参加者へはこの場を借りて、ありがとうございました。
B3コアタイムの時間において自然言語処理の基礎を勉強中
以下にコアタイムの流れを箇条書き形式で示していく。
第1回(2012/11/30)
- コアタイムの利用についての話し合い
- 結果:自然言語処理の基礎 奥村学著 コロナ社出版 を使って勉強していく予定。
第2回(2012/12/10)
第3回(2012/12/17)
- 残りの章が第7章だけということで7章も分担し合った。
- 発表資料(未掲載分は入手次第載せていく):
- 感想:
- スタートにもたついてしまった。予定した時間には開始できること。
- 二人共よくできたプレゼンだった。宮西さんはスライドの出来と要所要所に具体例などを口頭で説明しわかりやすかった。アロゴくんもホワイトボードを使いつつの口頭説明でポイントポイントを声にアクセントをつけてしゃべってくれるのでわかりやすかった。
- 二人の出来と自分の資料・発表を比べ落胆しつつ、次への向上心へとつながったらと期待。あと、時間内に終わらなかったので分担量が多かったのかもと、分担を提案した当人なので責任を感じている。
- 予定:今週の水曜3限に残りの分(アロゴ7章 7.5情報抽出〜7.8まとめ)を終わらせる。
第4回(2012/12/19)
- 発表資料(未掲載分は入手次第載せていく):
- 感想:
- 最後に紹介された質問応答の分野にすこし興味が?
- 最後に今回のコアタイムにおいての本の要約・説明プレゼンにおいてたくさんのことが学べた。自然言語の処理の基礎知識はもちろんのこと、他にもプレゼンの仕方、スライドの作成法(どのように工夫してスライド情報から伝達できるか等)。しかし、どれもまだまだであるということはしかり。
|
|