平成7年度 委託研究ソフトウェアの提案 |
一方,近年大量の電子化された言語データの入手が可能になったことを反映し て,文法や語彙に関する知識を言語データから自動もしくは半自動的に抽出す る研究が行なわれている.しかし,抽出された知識を評価するための客観的な 基準を設けることは難しい.特に抽出された知識を既存の他の知識と統合して, 総合的な枠組の中で評価するための基盤作りはまったく進んでいないと言って よい.技術の進展のためにはこのような評価のための基盤作りが重要である.
また,上記のような文法体系の性能に影響を与えるのは主に語に記述された文 法的な知識および解釈に影響する構文的意味的な優先性に関する知識である. このような知識は言語の語彙の量が膨大であること,また,分野によって語の 使われ方や意味が異なることから,短期間に完全なものを構築することは不可 能である.今後は,言語の具体的な用例などをもとにこのような言語知識を抽 出する研究が重要であり,こうして得られた知識の精度を客観的に評価する枠 組やシステムの存在が重要である.自動抽出された言語知識の評価に関する研 究はまだ始まったばかりで,総合的な評価を行なうことのできるシステムや方 法論は存在しない.本研究では,このような評価のための基盤作りをもう一つ の目的とする.
平成7年度は1)の文法をHPSG(Head-driven Phrase Structure Grammar)をベー スにして開発し,さらに他の様々な文法体系や語の構文意味記述の体系をHPSG 記述に変換するためのツール群の試作を行なう.HPSGをベースとする文法は特 に英語についてはすでにいくつかの機関で開発が行なわれているが,教科書的 な文を対象にしたものしか存在せず,現実的な文を対象にしたものは開発され ていない.本研究では英語および日本語に対して,実用性を目指したHPSG文法 の開発を行なう.HPSGを代表とする単一化文法の特徴は,文法規則が個別の構 文構造を説明するのではなく,文法規則全般に成立するような原理を中心とし て文法を記述し,個別の語に依存する言語現象は語のレベルに記述することで ある.語彙的な知識をHPSGの素性構造によって表現する方法を提案することに より,用言の格フレーム構造やシソーラスのような様々な語彙的知識をHPSG文 法の上にマップすることが可能であると考えている.平成7年度はある程度の 適用範囲をもつ英語および日本語のHPSG文法を記述することを目的とし,いく つかの語彙知識記述の体系をHPSGの語彙記述に変換するツール群の開発を行な う.また,開発された文法を実際に実行する環境を構築する必要がある.その ため,その動作状況を観察することによって文法や語彙知識の修正や拡張を可 能にするための言語解析システム(上記の2)のプロトタイプの開発も平成7年 度に実施する.
平成8年度は,日英文法の修正と拡張を引続き行なうとともに,文法・語彙知 識の評価のための言語解析システムの開発を行なう.言語解析システムの性能 は,HPSGのような宣言的な方法で記述される知識以外に,実際の言語運用の場 面で重要になる様々な優先性の規則によって左右される.宣言的な記述が可能 な解釈を網羅的に生成する能力をもつのとは対象的に,優先性の規則は,語と 語の自然な意味的なつながりや文脈上の解釈によって解釈間の優先性を決定し てくれる.言語処理システムの開発にはこのような知識を統合的に利用するこ とが重要である.一方,言語処理のために利用される個々の知識は,統合的な 観点から構築されることは少ない.特に,近年大規模な言語データが利用可能 になってきたことを反映して,大規模テキストデータからの言語知識の抽出の 研究が盛んに行なわれているが,動詞の格フレーム,名詞の意味的な類似性, ある種の構文現象の曖昧性解消のための知識のように特定の言語知識のみを抽 出する研究が多い.このような知識をより広い統合的な利用を考慮して評価す ることはほとんど行なわれていない.本研究では,言語処理のための語彙に関 する宣言的知識および優先性に関する知識を統合的な視点で評価できる枠組を 構築を行なう.これにより,言語知識の評価を客観的に行なうことのできる基 盤を提供するだけでなく,言語解析のおける個々の言語知識の影響や重要性を 評価することが可能になる.
NAIST-HPSGおよびNAIST-JPSGは,自然言語のための単一化文法として代表的で あり,かつ理論的に最も整備の進んだHPSG(Head-driven Phrase Structure Grammar)を実用的な文法として整理したものである.ただし,これを特定の文 法体系であるHPSGだけに留まらず,HPSGの記述能力を活かすことによって,現 存の様々な文法体系および語彙記述(格フレームなど)からの変換のためのツー ル群を用意する.これにより,次のような2つの機能の実現を容易にすると考 えられる.すなわち,様々な語彙および文法知識を融合して実行するシステム の実現を促進すること,および,統合的な解析システムの下で個々の(語彙的, 文法的)知識の評価を行なうこと,である.
SAX+システムは,従来我々が開発してきた汎用の構文解析システムをさらに拡 張したものである.上記のNAIST-HPSGおよびNAIST-JPSGを基本的な文法記述言 語とし,様々な優先度規則の記述を許すことによって,曖昧性の解消された最 も優位な解釈結果を出力する.文法および語彙に表現された優先順位付けのパ ラメータの重みなどを自由に設定することにより,それぞれの知識が解析結果 に及ぼす影響を客観的に観測可能な環境を提供し,語彙および文法開発者のた めの支援環境と開発された語彙知識,文法知識の評価環境を実現する.
www-admin@icot.or.jp