守谷「ニューラルネット3」 誤差逆伝播:重みの更新に使う Affine変換:行列の内積を計算。今回は重みと入力。これは前処理。これを活性化関数に突っ込むとニューラルネットになる。 →実装すればわかる CBOW:コンテキストからターゲットを予測 Skip-gram:ターゲットからコンテキストを予測 CNN
例)4×4行列に2×2の枠でmax pooling
↓ 左上
↓
↓
例)上と同じ。ストライド = 2の時 左上
↓ 右上 ストライド = 2より、枠を2つずらす。
Max = 3 繰り返す ↓
より少ない次元数になる。 鈴木「雑談対話システムにおけるdeep learning」 seq2seq:エンコーダ、デコーダの2層。問題:1問1答しかできない。文脈が考慮されない。 階層的(HRED):エンコーダ、コンテキスト(文脈をベクトルに)、デコーダの3層。問題:Aには必ずBと返して、多様性がない 潜在変数HRED(VHRED):HREDのコンテキストに確率的なノイズを加える 検索:持ってるデータベースから次の発話にあったものを選択。→識別に近い。 雑談は振れ幅があるから、正解が多い。人手だと大変なので、自動で評価したい。 評価モデルADVMT。単言語、多言語に対応?:様々な言語で学習させ、対応可能にしたい。言語依存しない部分は共通。他はその都度学習? 対話システムに個性?:年齢などは多分データベース。話し方などはニューラルネットを使う。 コーパス:作る、探す、なくてもできるやつをやる。 相田「パラメータ推定法」 参考にした論文:本当に全ての事象に対してαが必要だと言える? 吉澤「VAEとGAN」 画像においてKL情報量を最小化すると出力画像がぼやける。→Jensen-Shannon divergenceを最小化 学習の速さ。VAEとGANで違う?:そんなに変わらない?工夫次第で早い。最新のものは早いかも。 |