強化学習問題として要約を定式化する → 要約の生成過程自体を定式化する 状態:要約文そのものと状態変数 行動:現在の状態から新しい状態に遷移 insert(文の追加),comp(文圧縮),finish 報酬:報酬が与えられるのは終状態の場合のみ.報酬最大化は,要約スコア最大化 文圧縮はどのように行なっているのか? → カンマで区切って,最も良さそうなものを選択 言語モデル的なものをどこかに入れないといけない.文の良さを測る 具体的にどういうAgentが学習されたか.分析すると有効な知見が得られるはず. 強化学習のゴール? → 将来得られる報酬の和の期待値が最も大きいもの |