相田 太一‎ > ‎B3ゼミ‎ > ‎

第5回

相田「トピックとLDA」

LDAは人の目でなく機械で判別できるの?:
この式は何を説明して(求めようとして)いるのか。有力とは?:
難しい式が出てこない。足し算と掛け算だけ。
次回からは難しくなるが、説明はざらっとでよい。


守谷「言語モデル」

スパース性:データが疎らであること
言語モデルのイメージ:その順序で来るかどうか?長くしていくと1文になる?
ある単語の後に別の単語が来るかどうか、をパラメータwとして行列で表し、それを勾配で更新していく。→連接可能行列はいらない。その代わりになるのかも。
評価はPerplexityで行う。

RNN最終的な出力Pi?:学習データ内にある確率。「私は」、「私の本は」等
出力は単語の数だけ?:多分そう。過去n個を考慮する。出力確率は学習データに対してそれっぽいかどうか。
    yi-k:後ろn個の単語をみる。これはn-gramと同じ。


鈴木「BERT」

Feature-based:word2vecもそう。事前に分散表現を学習して、それを用いる。
Finetuning:追加の学習。タスクに適したものを学習。
BaseとLargeの違い?:パラメータが違う。学習時間も違う。
前後の文脈から判断しているから強い。
今まで:タスク固有の手法→BERT:汎用性高。ベースに学習させておけば対応可。
学習コストが高いのは事前学習のみ。それ以外はそんなに高くない。
ELMo:TransformerのDecoderを使用
BERT:TransformerのEncoderを使用
翻訳:Transformerと逆翻訳Back-translationが流行り。


吉澤「自己組織化写像」

PCA(主成分分析):線形。軸をずらすイメージ。
SOM(自己組織化写像):非線形。使い道?あまりない。テキストマイニングの視覚化?
初期はどこかに1列で並べておいた方が良い。
近い2つのデータを選ぶ方法
    ・内積 argmax
    ・ユークリッド距離 argmin
データが疎なところにノードは集まらず、密なところに集まりやすい。
最終的にはマップを作りたい。視覚化。
クラスタリング的な側面がある。
P21の黒線は境界。k-means法の位相付きとも言われる。
「構造の発見」と「最高の予測」は両立しない。:どの分野にも言える。
人間の理解を最高の予測に近づける?

Comments