next up previous
Next: 汎用日本語処理系のツール群の公開 Up: 自然言語処理システム Previous: 概要

言語データの蓄積

以上の方針のもとで、文法・辞書を対象に言語データの収集、整備を行った。 文法に関しては論理型プログラミングにおける単一化文法の延長上にある句構 造文法の枠組みと、従来から特に日本語を対象として適用されてきた係り受け 文法の枠組とにしたがって日本語文法を試作した。新しい言語現象に出会うた びに文法を修正していく方針では,文法が大きくなるにつれ体系全体の整合を 取ることが困難になるので、日本語の言語現象を分類し、それぞれの現象を押 える文法規則を網羅的に記述する方針をとった。この文法に関しては、日本国 内のみならず、近年日本語処理に対する興味が高まってきている諸外国の研究 機関からの利用希望も数多く寄せられた。

このような文法規則の開発にあたっては、支援ツールの整備が必須なので、作 成中の文法を実際に利用して解析を行い、評価、修正を容易にする文法開発支 援環境Linguistや、現実のテキストから指定された言語現象を抽出するKWICな どのツール類を試作した。

また、文脈規則に関しては、新聞社説の文章を対象とし、隣接する文の間の関 係や文中の語の間の照応関係から文脈構造を抽出する実験を行った。この結果 からはいわば文脈文法に相当する文脈解析規則が収集された。

辞書に関しては、形態素情報を中心にした語彙辞書を整備し、約10万語、 15万形態素程度の情報を蓄積し、多くのシステムで利用された。