鈴木「Multi-Task Deep Neural Networks for Natural Language Understanding」 双方向のTransformer BERTとの違い?:知識共有。BERTは事前学習以降共有されてない Single-Sentence Classificationは何を判断している?:GLUEだとSST-2(映画の感想文からネガポジ判定)、CoLA(言語学的に正しいかどうか)など タスクのデータ量の偏りは影響しない?:シングルタスクよりマルチタスクの方が結果が良い。大丈夫かも。 Text SimilarityやRelevance Rankingでデータセットが1つしかない。 少ないデータでここまでBERTと差が付いた理由?:わからない。 吉澤「変分ベイズ法の基礎理論」 自己無矛盾条件:おおよその形がわかるということ 1-of-K表現はほぼonehot表現と意味的に似てる(日本人のもの?) 相田「LDAとサンプリング近似法」 守谷「パーセプトロンとニューラルネット」 パーセプトロンとニューロンの違い:パーセプトロンはステップ関数、ニューロンはステップ関数以外 ニューロンの表すものは文献によって異なる ReLU関数は画像に使われる。言語処理には?:わからない。ReLU関数はシグモイドなどと違って初期値が変わってくる。初期値が変わると大変。 パーセプトロン:出力は2値。基準の線を引いて区別。 |