研究室‎ > ‎卒業生のみなさまへ‎ > ‎杢 真奈見‎ > ‎文献‎ > ‎

Sublanguages and Controlled languages

Richard I. Kittredge
SUBLANGUAGES AND CONTROLLED LANGUAGES
The Oxford Handbook Of Computational Linguistics pp.430-447 (2005)

-----

  • SUBLANGUAGES 特殊言語

特殊言語とは、一般的には見慣れないが、ある分野においてよく使われる単語のことを指します。

例えば野球に関する記事に置いてRBIsというものがよく使われるようです。
これはruns-batted-inの略で「打点」を意味します。

また、sweepという単語があるのですが、野球においての次のような使用方法と、
 The Redbirds opened the campaign… by sweeping Lavel 10-4 and 12-5.

昆虫学における使用方法では
 Males swept hind legs over vegetation…
 They sweep the vegetation at the forest edge.

このように、分野によって意味が変わります。

野球だと「全勝」、昆虫学では「さっと通る」といった意味になります。

こういった単語レベルでの特殊言語の他に、構文レベルでの特殊言語もあります。

 (1)Golds slumped.  金の暴落
 (2)Check reservoir full.  貯蔵が満たされているチェックする
 (3)Knead and knead.  (パン生地などを)こねる
 (4)Becoming cooler tomorrow.  明日は涼しくなる

それぞれ上記のように訳せます。
しかし、これらの文章は標準の英文法によると非文法的だと考えられます。

(1)については、goldは数えられない名詞なのに複数形になっています。
(2)については、単語が省略されており、オリジナルは
 Check that the reservoir is full.
となります。
(3)については、他動詞なのに目的語をとらず、かつ、動詞を2回反復するということは標準英文法には含まれません。
(4)については、動名詞+形容詞+副詞というパターンは存在しません。

どれも訳せるようで、英文法にはそぐわないものばかりです。
それでもたいてき標準英語にそった構文パターンをあてにします。なぜなら、基本的に上記のものは省略のプロセスによる部分が大きいからです。しかもその省略プロセスは英語において比較的共通項があります。
それでも特殊言語のためには、コーパスを用意する必要があります。
このコーパスは少量で十分です。

なぜ特殊言語を研究するのか?

特殊言語の研究は全言語の縮図としての言語システムを研究できるから。

特殊言語は語学者やコンピュータ学者にとってとてもわかりやすい自然言語の情報伝達メカニズムをつくっています。
 
  • CONTROLLED LANGUAGES 制限言語

制限言語とは特別な目的、よくあるのは非英語圏の人のための技術マニュアルを書くために処理された“自然言語”の制限したバージョンです。

典型的な制限言語は文法、辞書の定めた一部のみを使用し、専門のドメインの用語を加えたものです。
制限言語は1930年くらいから“教えられて”いますが、非専門者や非英語圏の人達がさらに利用しやすい専門言語をつくることが最近の研究です。

有名な例として、AECMA簡約英語があります。主に宇宙産業で使用されています。
これは1979年に欧州人主導で始まり、数十の産業会社の共同実験により、動翻訳が容易となりました。

制限言語は宇宙関係や乗り物の取り扱い説明書だけでなく、電話、ソフトウェア等の重要な例を引用するマニュアルに使用されます。
また、国境警察やパイロットなどの危険かつ重要な指示のための対話にも応用されます。

現在は様々な形式の簡約英語が幅広く与えられています。

  • 制限言語をつくるときの仮定

 ① 英語圏で非専門家の人のために専門用語や見慣れない書き方を通訳する必要がある。
 ② 非英語圏が読みやすくなるように一部の言語で書く。
 ↓
 ① 専門テキストを“一般的な”標準言語へ換言する。
 ② 単語と構文の制限により標準化したテキストを単純な形式へ換言。

    •  AECMA簡約英語

有名な宇宙産業や航空機で使われています。

  • 3種類の単語

 ① 明確な非専門で一部の言語(基本名詞、動詞、形容詞、副詞と同様に、全ての重要な前置詞、冠詞、接続詞を含む)である約950の基本“認可”単語
 ② ある規則に従って20のカテゴリーに分けた制限されていない専門名(それぞれユーザーの組織を選べるが、形容詞と名詞だけ使用)
 ③ ユーザー使用の工場プロセスの6つのカテゴリーで示す専門動詞(例:ing形は使ってはいけない 等)

簡約英語は単語や文構造を管理する約55のルールを持ちます。
(例:2語をハイフンで結んだり結合して書かれている単語を分解する)

この中には句読点関連もいくつか含まれます。

しかし、他のルールは少し曖昧(例:1つの文には1つのトピック)か妥当なゴール(例:テキストをキープしながら長さと構造を変化させてみる)でのみ表現されています。

 
    • なぜ制限言語を使うのか?

多くの工業やサービス産業は取り扱い説明書の質と均一性の向上のために制限言語を使用します。

制限言語文書の相対的な平易さと明瞭さは翻訳することの必要性を小さくします。
(世界中の宇宙飛行士はアメリカ人の技術者が書いたマニュアルを完璧に理解できないだろうが、制限言語によるマニュアルだと理解できる。)

制限言語文書はたやすく人、または翻訳するコンピュータに伝えられます。これは、曖昧さや複合構文を除去し、単語や省略を標準化しているのでそれぞれに役立ちます。

 

    • 現在の制限言語の研究

新しい制限言語の作成や新しい文書作成者のための規制の標準を適合させることは専門家、技術のライター、ユーザーの徹底的な協力が求められます。

十分なケアがないと、文書の平易化が重要な意味をおとしたり、別な方法が専門家の意図を曲解した形で伝わるといった潜在的な危険があります。

制限言語によるマニュアルを書くための1ページごとのコストは最初のうち、今までのマニュアルよりもとても高いです。
明らかに、投資の様にユーザーコミュニティーが大きい時だけ正当化でき、経済的で他の利益が見込めて、かつ標準化を実施するに至れます。

宇宙産業が制限言語の利益に出会っているのに対して、不安定な製品をつくっているような小さな産業は同じだけの利益を獲得できません。
それにもかかわらず、規則的な基盤によるマニュアルをつくる産業は制限言語を無視してすることはできないので、詳細なコストと利益の解析が行われている。

多くの制限言語を使用している組織は技術ライターに特殊標準と一致していることを保証する制限言語チェックソフトで実験している。

しかし、まだ精度が低く、再現率も低いことが知られています。

 

    •  特殊言語と制限言語の関係


特殊言語と制限言語の概念の間にはコンピュータ言語学におけるいくつかの混乱があります。

数学において、制限言語は標準言語の体系的な一部分としての特殊言語の1つであると論じられていました。

しかしながら、制限言語は上記で論じられているように自然特殊言語ではありません。
(制限言語:英文法に従ってる、特殊言語:英文法に従ってない)
(制限言語:人がある目的のためにつくった言語、自然特殊言語:自然に発生した特殊言語)

制限言語は1つか複数の関係した特殊言語を、①専門で英語圏の人々と②非専門家で英語圏または専門家で非英語圏(たまに両方)の人々の間のコミュニケーションを促進する形へ標準化しようとしています。

 

  • 特殊言語と制限言語の違い


この2つの違いは理論的観点から重要であり、自然言語処理システムの設計のために実用的な成果を持っています。
特殊言語は自発的に発生する自然語学のサブシステムであり、専門家コミュニティーの暗黙知識により発展してきました。

多くの特殊言語、特にサイエンスライティングに使われるそれらは、文長や構造の複雑さに制限がない通常言語のようであり、それで理論的に特殊言語の文は無限セットあるといえます。
対して、多くの制限言語は文長に上限(通常25語程度)があり、構造にもたいてい制限がある。それで制限言語の文は有限セットあるといえます。

制限言語の有限性は、特に複合名詞の制限において、制限言語解析と翻訳の有効なツールを設計することを可能にします。

  • 今後

制限言語はまだ不十分である。理由は、

 ① 非英語圏の人々の言語センスの包括問題。(いろいろな国の人がいるから。)
 ② 英語圏の人々の専門知識のレベルの違い。

これらの問題の解決のために、制限言語の設計では特殊言語の原理のさらなる理解が必要です。

また、特殊言語で十分表現されたテキストが与えられても、結局、テキストの言い換え時に読み手の専門知識と合うかどうかが要求されます。

    • 関連研究 

特殊言語の記事として、

 Kittredge and Lehrberger 1982
 Grishman and Kittredge 1986

これらはこのフィールドの概要を例と共に提供している。

制限言語では、Controlled Language Applications Workshops(CLAW-96、CLAW-98、CLAW-2000)がある。

批評としては

 Goyvaerts 1996
 Heald and Zajac 1996

CLAW workshopsから整理した成り行きについての情報は

http://www.controlled-language.org/←既に閉まっているようです。

※CLAWは簡単に調べただけでも2006までは追えたが、その後は不明。
最新の制限言語のワークショップとしては、Workshop on Controlled Natural Language (CNL 2009)を見つけました。

AECMA簡約英語の情報は

http://www.aecma.org/←こちらもイマイチ。

Comments