相田 太一‎ > ‎B3ゼミ‎ > ‎

第6回

鈴木「Multi-Task Deep Neural Networks for Natural Language Understanding」

双方向のTransformer
BERTとの違い?:知識共有。BERTは事前学習以降共有されてない
Single-Sentence Classificationは何を判断している?:GLUEだとSST-2(映画の感想文からネガポジ判定)、CoLA(言語学的に正しいかどうか)など
タスクのデータ量の偏りは影響しない?:シングルタスクよりマルチタスクの方が結果が良い。大丈夫かも。
Text SimilarityやRelevance Rankingでデータセットが1つしかない。
少ないデータでここまでBERTと差が付いた理由?:わからない。



吉澤「変分ベイズ法の基礎理論」

自己無矛盾条件:おおよその形がわかるということ
1-of-K表現はほぼonehot表現と意味的に似てる(日本人のもの?)



相田「LDAとサンプリング近似法」



守谷「パーセプトロンとニューラルネット」

パーセプトロンとニューロンの違い:パーセプトロンはステップ関数、ニューロンはステップ関数以外
ニューロンの表すものは文献によって異なる
ReLU関数は画像に使われる。言語処理には?:わからない。ReLU関数はシグモイドなどと違って初期値が変わってくる。初期値が変わると大変。
パーセプトロン:出力は2値。基準の線を引いて区別。

Comments