相田「トピックとLDA」 この式は何を説明して(求めようとして)いるのか。有力とは?: 難しい式が出てこない。足し算と掛け算だけ。 次回からは難しくなるが、説明はざらっとでよい。 守谷「言語モデル」 スパース性:データが疎らであること 言語モデルのイメージ:その順序で来るかどうか?長くしていくと1文になる? ある単語の後に別の単語が来るかどうか、をパラメータwとして行列で表し、それを勾配で更新していく。→連接可能行列はいらない。その代わりになるのかも。 評価はPerplexityで行う。 RNN最終的な出力Pi?:学習データ内にある確率。「私は」、「私の本は」等 出力は単語の数だけ?:多分そう。過去n個を考慮する。出力確率は学習データに対してそれっぽいかどうか。 yi-k:後ろn個の単語をみる。これはn-gramと同じ。 鈴木「BERT」 Feature-based:word2vecもそう。事前に分散表現を学習して、それを用いる。 Finetuning:追加の学習。タスクに適したものを学習。 BaseとLargeの違い?:パラメータが違う。学習時間も違う。 前後の文脈から判断しているから強い。 今まで:タスク固有の手法→BERT:汎用性高。ベースに学習させておけば対応可。 学習コストが高いのは事前学習のみ。それ以外はそんなに高くない。 ELMo:TransformerのDecoderを使用 BERT:TransformerのEncoderを使用 翻訳:Transformerと逆翻訳Back-translationが流行り。 吉澤「自己組織化写像」 PCA(主成分分析):線形。軸をずらすイメージ。 SOM(自己組織化写像):非線形。使い道?あまりない。テキストマイニングの視覚化? 初期はどこかに1列で並べておいた方が良い。 近い2つのデータを選ぶ方法 ・内積 argmax ・ユークリッド距離 argmin データが疎なところにノードは集まらず、密なところに集まりやすい。 最終的にはマップを作りたい。視覚化。 クラスタリング的な側面がある。 P21の黒線は境界。k-means法の位相付きとも言われる。 「構造の発見」と「最高の予測」は両立しない。:どの分野にも言える。 人間の理解を最高の予測に近づける? |