相田 太一‎ > ‎B3ゼミ‎ > ‎

第8回

守谷「ニューラルネット3」

誤差逆伝播:重みの更新に使う
Affine変換:行列の内積を計算。今回は重みと入力。これは前処理。これを活性化関数に突っ込むとニューラルネットになる。
→実装すればわかる
CBOW:コンテキストからターゲットを予測
Skip-gram:ターゲットからコンテキストを予測
CNN
  • pooling:nnの枠を用意。44が33。maxプーリング(枠の中の最大値を代表の値にする)など。
    例)4×4行列に2×2の枠でmax pooling
 2
1
 1
 3
 31
        ↓
左上
 2
 1
Max = 2
        ↓
 2  
   
   
これを1つずつずらして繰り返す
        ↓
 2
 5
 5

  • ストライド:枠をずらす量。普通は1(1つずつずらしていく)だが、2、3にすると出力の行列の次元を減らせる。
    例)上と同じ。ストライド = 2の時
左上
 2
 10
Max = 2
     ↓
右上
ストライド = 2より、枠を2つずらす。
03 
31 
Max = 3
繰り返す
     ↓
2
5
より少ない次元数になる。


鈴木「雑談対話システムにおけるdeep learning」

seq2seq:エンコーダ、デコーダの2層。問題:1問1答しかできない。文脈が考慮されない。
階層的(HRED):エンコーダ、コンテキスト(文脈をベクトルに)、デコーダの3層。問題:Aには必ずBと返して、多様性がない
潜在変数HRED(VHRED):HREDのコンテキストに確率的なノイズを加える
検索:持ってるデータベースから次の発話にあったものを選択。→識別に近い。
雑談は振れ幅があるから、正解が多い。人手だと大変なので、自動で評価したい。
評価モデルADVMT。単言語、多言語に対応?:様々な言語で学習させ、対応可能にしたい。言語依存しない部分は共通。他はその都度学習?
対話システムに個性?:年齢などは多分データベース。話し方などはニューラルネットを使う
コーパス:作る、探す、なくてもできるやつをやる。


相田「パラメータ推定法」

参考にした論文:本当に全ての事象に対してαが必要だと言える?


吉澤「VAEとGAN」

画像においてKL情報量を最小化すると出力画像がぼやける。→Jensen-Shannon divergenceを最小化
学習の速さ。VAEとGANで違う?:そんなに変わらない?工夫次第で早い。最新のものは早いかも。

Comments