丸山 拓海‎ > ‎

PACLIC32 参加報告

 全体の総括
言語学寄りの発表が多かった。学習者に関する分析や音声系の発表もいくつか見受けられ、新鮮だった。

■ 発表の総括
辞書に活用を組み込むアイデアをいただいた。また、FluencyやAdequencyの評価については、参照文よりも出力結果がよくなることに関して質問を受けた。text simplificationでは、よく見かける現象なので、今後、説明する時は注意したい。


 聴講メモ
    Improving Japanese semantic-role-labeling performance with transfer learning as case for limited resources of tagged corpora on aggregated language 
    Takuya Okamura, Koichi Takeuchi, Yasuhiro Ishihara, Masahiro Taguchi, Yoshihiko
    小規模なデータによる転移学習で術後項構造解析の性能を改善。転移学習を行うのは出力層のみ。

    Classifying and Extracting Data from Facebook Posts for Online Persona Identification
    Hazel Brosas, Eugene Lim, Danica Sevilla, Denise Silva and Ethel Ong 
    情報をパーソラナリズ化するために、人をいくつかのカテゴリに分類したいという動機。
    データは、各人に5つのラベルを付与(Foodie, Gamer, Melancholic etc.)したものを使用。
    モデルは、N-gram・TF-IDFを特徴量とし、いくつかの分類器(gradient boosting classifier, logistic regression)を比較。

    Syllables for Sentence Classification in Morphologically Rich Languages
    Madhuri Tummalapalli and Radhika Mamidi 
    各言語がそれぞれのタスクに合わせて、特徴量やシステムを作っている。どのタスク、言語にも共通した特徴量を作りたい。
    character-ngramを意味のある単位(Syllables)に変更する。
    CNN, multi-CNN(characterとsyllablesを入力)を利用し、sentiment analysis, Question classificationでsyllablesの効果を検証。
    結果としてrich languagesにおいて、syllablesを利用することで性能を改善。

    Chinese Spelling Check based on Neural Machine Translation
    Chiao-Wen Li, Jhih-Jie Chen and Jason Chang 
    似ている形・発音のものを間違う傾向にある。
    confusion set(正しいものと間違っているもののペアが含まれている辞書: 33,551pairs)を使ってデータを自動生成し、
   トレーニングセットに追加することでNMTによるspelling checkerの性能を改善。
   トレーニングデータに現れない間違いに対しても、対応できる。
   confusion setはedit logから収集。
   トレーニングデータに間違いを埋め込むのと、単純に辞書ベースの置換とは、何が違うのか?

    Suspicious News Detection Using Micro Blog Text
    Tsubasa Tagami, Hiroki Ouchi, Hiroki Asano, Kazuaki Hanawa, Kaori Uchiyama, Kaito Suzuki, Kentaro Inui, Atsushi Komiya, Atsuo Fujimura,
    Ryo Yamashita, Hitofumi Yanai and Akinori Machino
    Fake news detectionの研究。ここでは、Suspicion casting post (SCP) detectionとsuspicious article (SA) detectionの2つのタスクを定義。
    ユーザー側の「疑わしい」という発言を利用して、ある記事がfakeかどうかを検出する。
    
        Suspicion casting post (SCP) detection
        SNSの記事を入力とし、個人の見解かSCPかを判定する
        "misinformation", "fake"などのキーワードを含む記事を収集し、0,1ラベルを付与することでデータセットを構築。

       Suspicious article (SA) detection
       Suspicion casting post (SCP) detectionの結果を用いて、その記事のsuspiciousness scoreを算出する。
       同じ記事を参照しているものを集めて、0, 1を付与し、データセットを構築する。


    Automatic Error Correction on Japanese Functional Expressions Using Character-based Neural Machine Translation
    Jun Liu, Fei Cheng, Yiran Wang and Yuji Matsumoto 
    次の2つのステップで、Functional Expressionのerror correctionを行う。
    1. Functional expression detection (BILSTM-CRF model)
    2. Error detection and correction (Seq2seq)

        Functional expression detection (BILSTM-CRF model)
        文字レベルの系列ラベリングタスクとして解く(IBEO tags)。
        Lang-8 Learner Corpora, Tatoeba, HiraganaTimes, BCCWJを利用。

        Error detection and correction (Seq2seq)
        real dataとartificial dataの2つにおいて、word-based methodとcharacter-based methodの2つのseq2seq modelを利用し、実験。
        artificial generated errorは、正しい文に対して、subtitution(活用の変形), injection(助詞等の追加), deletion(文字の削除)を加えることで生成。
        character-basedのseq2seqの方が良い結果に。
        2つのステップ(Functional expression detection + Error detection and correction)に分けるメリットはどこにあるのか?
Comments