平成7年度 委託研究ソフトウェアの中間報告

(18) EDR 辞書を用いた日本語解析ツール

研究代表者:田中 穂積 教授
      東京工業大学 大学院 情報理工学研究科


[中間報告]

1) 研究進捗状況
我々は,一般化LR法の枠組で,形態素解析と統語解析を統合化して行なう新 しい自然言語解析システムMSLRのプロタイプを開発している.MSLRは,使用辞 書としてはEDR日本語辞書(EDR辞書と略記)を用いる.プロトタイプのMSLRの解 析精度を上げる,MSLRの本格的なツール化を目指し,これまでに以下の研究を 行なった.

(1) EDR辞書に含まれる形態素間の接続表の問題点の抽出と改良,
(2) EDR辞書に適合した日本語文法の設計と開発,
(3) LR表高速生成プログラムの開発,
(4) LR表への制約伝播法の組み込み,
(5) ユーザインタフェースの試作.

2) 現在までの主な成果
前項(1)の,EDR辞書に含まれる形態素間の接続表の問題点の抽出と改良,に ついては,実験により,既存の接続表には接続ミスが含まれており不十分であ ることが判明したので,完全な接続表の作成を目指して研究を進めた.具体的 には,人手により形態素に分割した25万文のEDRコーパスを利用し,このコー パス中では形態素間の接続が許されるにもかかわらず,接続表では接続不可能 とされているものを自動的に抽出し,EDR接続表の改良を行なった.得られた 接続表は,EDR辞書を用いた日本語解析の基礎知識となるものである.

(2)の,EDR辞書に適合した日本語文法の設計と開発,については,比較的緩 い日本語文法を試作した.この文法は,文節を抽出することを主眼としており, かかり受け関係の解析までは行なわない.現在までに開発した規則数は数百で あり,解析結果の数を減少させることを基準にし,現在この日本語文法規則を 洗練化を進めている.

(3)の,LR表高速生成プログラムの開発,については,LR表の生成過程で作ら れるアイテムのデータ構造に工夫をこらし,重複アイテムの登録を避けるモジュー ルの高速化をはかり,従来のLR表生成プログラムと比較して,十分な高速化を 実現することが可能となっている.ATRで用いているLR表生成プログラムでお よそ3000の対話用文法を用いてLR表を作成する時間と比較して,本研究で作成 したLR表生成ぷるグラムは,実に1000倍近い高速化を実現している.これは, 文法の規模が大きくなるにつれて,高速化の効果が大きいことを意味している.

(4)の,LR表への制約伝播法の組み込み,については,アルゴリズムをインプ リメントして実用に供し得るモジュールを開発した.これらは(3)とともに, (1)と(2)の実験ですでに使われ,その有効性が確認されている.従来の方法と 異なり,本研究で開発した制約伝播アルゴリズムは,LR表生成段階で制約伝播 を行なうものであり,無駄な中間生成物を極力避けるアルゴリズムになってい るので,高速化を果たすとともに使用メモリー量の抑制が可能になる効率の良 いアルゴリズムであることが実験的に確認されている.

(5)の,ユーザインタフェースの試作,については,本システムをツールとし て使用する時に重要となるものであり,解析中途の部分解析木の視覚表示機能, これらのスクロール機能,などについては試作が完了している.

3)今後の研究概要
EDR接続表については,解析結果の数を増大させる一因として,形態素カテ ゴリーの部分的な再編成が必要なことが明らかになってきている.これは助詞 の形態素カテゴリーであり,現在,その再編成の作業を進めているところであ る.この作業は,形態素カテゴリー数が多く,作業量が意外に多いことが判明 しており,作業を円滑に進めるためのツールの作成が終了したところである. 今後,この作業を迅速に進め,試用版を本年度中には完成させる予定である. この試用版には,ユーザインタフェースモジュールも付与する予定である.本 システムのKLIC版についての検討を進める予定である.

4)今年度目標成果
形態素カテゴリーの部分的再編成を行なった新しい接続表と,開発した日本 語文法を用いた,日本語解析用のツールのプロトタイプシステムMSLRを開発す る.このシステムには田中研究室で新たに開発した高速LR表生成モジュール, 制約伝播モジュールが組み込まれ,これらにユーザインタフェースの試作版を 付与する予定である.



www-admin@icot.or.jp