論文:Nonparametric Spherical Topic Modeling with Word Embeddings 担当:吉澤 Von Mises-Fisher(vMF)の良さ?:単位円。円に沿うような分布。距離をきちんと取れる?:距離(コサイン距離)と方向(角度)があるが、方向で取り出せる。 距離はあまり意味がなく、方向をみるなら球で考えた方がよさそう。 Stick-breaking process(sbp)でトピック無限、Θがトピック。 xdnとμkのコサイン距離はvmfの対数尤度に等しい、結局どちらを採用?:両方を最適化に用いる。(xdnとμkのコサイン距離)ー(vmf対数尤度)=0 計算時間が早くなったのは角度だけを考慮したから?:わからない。 1つの文書に対してsbpを適用。単語分布ごとに区切ってトピックΘとして、離散的に表す。トピック数を考えなくて良い。 vmfとshdpはどう関与しているの?:それぞれ独立。vmfを適用できるようにshdpをつけたした。 →どっちのおかげでよくなったの?:わからない。 |