相田 太一‎ > ‎B3ゼミ‎ > ‎

第11回

吉澤:上位語・下位語の抽出

手がかり語ごとの解決策?:「〜として」は怪しい。
最近の動向?:LSTMを用いた系列ラベリング(2017)。
自分でデータを作ってそれを用いるのも良さそう。
「としては」:後半部に変な文がくることが多かった。「の」の曖昧性。
シソーラスの上位、下位概念がわかると何が嬉しい?:特許の文書は新しい単語が多い。出てきた新しい単語はどの概念に位置するのか、辞書的に使うことができる。


相田:分類と検索

  • 情報の小さいもの(本、文書など):日本十進分類法
  • 情報の大きいもの:Wikipedia
で扱うといいと思う。


守谷:マルチモーダル学習

画像を分割→人の顔、ギターの特徴量を抽出→画像説明を生成
人は先に物をイメージするため、画像と言語で対応つければもっといいものができそう。


鈴木:研究構想(内部)

Comments