(44)文分割ツール
マ シ ン:UNIXマシン
環 境:UNIX
言 語:CESP
ソース量:85 KB
文 書:マニュアル (日本語)
概要
ある基準以上の長さの文を接続助詞の位置で適当な長さの幾つかの文に分割す
るツール
機能
一般には長ければ長いほど構造が複雑になり曖昧性が増加するため、長文は計
算機による自然言語処理を困難にする最も大きな課題となっていた。以下の機
能を有する本ツールにより、長文の曖昧性が減少し自然言語処理の解析精度の
向上を期待できる。
- 接続助詞の位置で長文を分割
- 第一文は文末を終止形に変換、第二文は先頭に接続詞を付加
- 現在は13種類の接続助詞的表現 (ので、た結果、けれども、ときに、ので
はなく、だけでなく、につれて、てから、た上で、と、というように、あまり、
かわりに) で分割可能
- 接続助詞が複数存在する場合は、分割優先規則に則って適切な分割点を決
定
- 時制規則に従って適切な時制に変換
- 入力は予め文を形態素毎に区切り必要な文法情報を付与したデータ
- 形態素解析システムLAXと接続することで表層文字列を分割可能
実行例
- 入力文:
- 彼は音楽会へ行くかわりにレコードを買った。
- 分割文:
- 彼は音楽会へ行かなかった、そのかわりレコードを買った。
FTP
- 文分割ツール [81K]
www-admin@icot.or.jp