C1-1 音象徴の機械学習による再現:最強のポケモンの生成 ?C1-2 造語の過程に基づく複合オノマトペの検出手法 また、よろよろ+しくしく=よろしく みたいなのもある。←これも頻度情報で閾値を用いてカット。 入力:オノマトペ辞典内のABAB型505個 → コーパス:知恵袋 → 出力:子供の順位リスト(人手でチェック) ?C1-3 Wikipediaのエントリ構造と編集距離を用いた専門用語抽出の試み C1-4 放送ニュースの基本語彙の抽出
NHKのニュースにおける基本語彙 現在ある基本語彙1500語では自然な文は不可能。 頻出用語、時事用語、専門用語は書き換えずに説明した方がいい。 頻出用語→ニュース基本語彙となるのではないか。(基本語彙と特徴が似てる) 条件: 頻度が高い これだけだと流行やジャンルに偏る C1-5 実テキスト解析をささえる語彙知識の自動獲得
ブログやTwitterの未知語・品詞の獲得
ex) ワタシ、爽健美茶派です。→ ワタシ/、/爽/健/美/茶/派/です/。
上記な現在の分かち書きをwikiから「爽健美茶」を獲得し、上位語として清涼飲料を取ってくる。
さらに、読み、異表記、カテゴリも取ってくる。
ex)カサつく
webテキストから取ってくる。
Wikiの場合↓
単一形態素の場合はJUMAN、複数形態素の場合はKNPを用いる。
ex) JUMANにて。
単語 上位語 カテゴリ
ロナウジーニョ サッカー選手 人
A1-6 照応・共参照解析に基づく文章の首尾一貫性の指標
照応の問題。首尾一貫の先行研究は英語で、sub/obj/その他で分ける。そこで、提案手法はハ/ガ/ヲ・ニ/その他で分ける。
○○は~。これが~。しかし××は~。 ←「しかし」で主語が変わる。このように順番に書かれているものは読みやすく、この状態が首尾一貫らしい。
○○は~。しかし××は~。これが~。 ←「しかし」で主語が変わるが、最後の文がどの話題について書かれているかが曖昧になる。これはダメ。
A1-7 日本語学習者の作文の誤り訂正に向けた単語分割
先行研究は文が単語に分割されていることが前提となっている。提案手法は分かち書きされていなくても使用可能。
ex) でもじよずじゃりません → で/もじ/よ/ず/じゃ/り/ま/せ/ん
↓
でもじょうずじゃありません → で/も/じょうず/じゃ/あ/り/ま/せ/ん
誤り・・・正しい単語に入れ替えると、正しい文になる文字列
学習者の文とそれを訂正した文を分かち書きしたもののコーパスを使用。
①変化している部分を検索
削除
でもじ よ ょう ず じゃ あ りません
挿入 挿入
②単語の切れ目を見つけて、単語を検索。
でも|じよず| じゃ| りません
でも|じょうず|じゃ|あ|りません
A1-8 解説文作成における文章技術と評価の分析
目標:書く力をつけること
教育的には答えを教えるのではなく、考えてもらえる支援を・・・。
A1-9 外国語母語話者が作成する日本語技術文書を対象とした訂正履歴の分析
日本の企業が外国人に開発を依頼するオフショア開発が多く行われている。
外国人技術者(かなりの日本語ができる)が日本語技術文書の全てを日本語で作成し、日本人によるチェックが行われる。
せっかくオフショアでコストを下げようとしているのに、日本人のチェックはコストがかかる。
間違えやすい点をチェック
①中国語母語話者が犯しやすいもの 53% ←助詞の変更・追加、動名詞の混合など
②技術文書的に不適切 23%
③文脈依存の大きな範囲の修正 13% ←語彙選択、表記ゆれなど
④文脈理解に支障がでる 11%
C2-3 機械翻訳文言い換えシステムにおける学習機能の拡張
不自然さを言い換えで直す。
ex) I saw an old doctor.
古い 医者に
年老いた 医者に
C2-5 印象尺度に基づいた文章言いかえ手法
敬語への言いかえだけでなく、名詞も適切なものを。
ex) ギャルとランチを食べた。
先行研究 ギャルとランチを頂いた。(丁寧な「頂いた」を使用しているのにもかかわらず、「ギャル」「ランチ」はカジュアル過ぎる)
提案手法 女性と昼食を頂いた。
名詞と動詞で同義語取得。そして共起(カジュアルやフォーマルな単語との共起)でカジュアルなのか、フォーマルなのかを設定。
印象辞書により属性(フォーマル、カジュアル)を用いた。
評価結果としては、印象が変わらなかった。(「する」「なる」との共起で間違った名詞が多かったらしい)
C2-6 法令文の構造的書き換え
法令文は文が長く、特徴的な用語・構造を用いる。
その構造をうまく理解し、短く分けたり、ゼロ代名詞の問題を解いたりしようというもの。
C2-7 Supervised Recognition of Entailment Between Patterns
「一休」の話。
・・・英語は難しいです。
C2-9 大学入試センター試験を題材とした含意関係認識技術の評価
センターの知識を問う問題(問題が「以下の中から正しいものを選べ」で4択とかになっているもの)は教科書を見ればわかる。
つまり、これから含意・非含意の文が取り出せるのではないかという話。
「教科書」と「各選択肢」が含意・非含意の文となり、「各選択肢」の正誤が含意か非含意かのラベルとなる。
評価:4択を解こうとすると、ランダム(25%)よりいい(56%)。 |