導入ガイド(2)

WinMoprh の導入ガイド

WinMorph は形態素解析システムの GUI ベースのフロントエンドソフトウェアです.形態素解析システムの作成で説明したように,Breakfast を使った形態素解析システムは,DOS プロンプトからのコマンドインタフェースを通じて利用します.形態素解析システムをより利用し易く,そしてアプリケーションへの形態素解析技術の利用を促進することを目的として WinMorph は開発されました.
無償公開されている WinMorph 1.0 は Windows95/98 オペレーティングシステムで動作します.ISF日本語形態素解析規則 (wjpmph15) が添付されており,Breakfast の GUI フロントエンドとして機能するほか,チュートリアルが充実していることが特徴です. 使用許諾条件と動作環境を確認の上でダウンロードして利用します.

動作環境

WinMorph 1.0 は Windows95/98 オペレーティングシステムで動作します.このソフトウェアは VisualBasic 5.0 (SP3) で開発されました.WinMorph 1.0 のインストールには,ディスクの空き領域として約 22 Mバイト必要です(但し,ISF日本語形態素解析規則 (wjpmph15) 以外の形態素解析規則と辞書を利用する場合には,利用する形態素解析辞書のサイズに依存してディスク容量が変わります).

WinMorph のダウンロード

上記ファイルをダウンロードした後,tgz (tar + gzip) 形式に対応した圧縮解凍ソフトウェアを使って展開します.本節では,WinZip を使った展開例を示します(WinZip の版によってはその手順が異なることもあります).

  1. ファイルマネージャもしくはエクスプローラを開き,winmorph.tgz をマウスでダブルクリックします.
  2. WinZip が起動するので [Extract] ボタンをクリックします
  3. Extract ウインドウが開きますから, ここで [Extract To] に配布セットのファイルを展開したいディレクトリ名を入力します. 通常は C:\ を指定します
    (注) Use Folder Names の項目がチェックされている必要があります. このとき,上記で指定したディレクトリの下にディレクトリ"winmorph" が作成され,ファイルのコピーが行われます
  4. Extract ウインドウの [Extract] ボタンをクリックします. 配布セットが展開されてコピーされます

winmorph.tgz の展開が成功した場合には,C:\winmorph ディレクトリの下に"setup" や "Winmorph-J", "Winmorph-E" などのサブディレクトリが作成されています.下記のディレ
クトリ構成を確認してください.

\setup WinMorph プログラム
\Howto WinMorph ガイド(HTML)
\Manmorph 形態素解析規則解説書
\Winmorph-C Winmorph 説明書(中国語,Wordファイル)
\Winmorph-E Winmorph 説明書(英語,Texファイル)
\Winmorph-J Winmorph 説明書(日本語,Texファイル)
\Winmorph-K Winmorph 説明書(朝鮮語,Wordファイル)
\Wjpmph15 IFS日本語文法規則(形態素解析規則)
copyright 著作権表示
use-of-software-J.txt 利用条件(日本語,テキスト)
Readme-J.html READMEファイル(日本語,HTML)
Readme-E.html READMEファイル(英語,HTML)
Readme-j.txt READMEファイル(日本語,テキスト)
Readme-e.txt READMEファイル(英語,テキスト)
winmorphbkimg.gif 背景画像ファイル(Gif ファイル)
winmorphimg.gif WinMorph 画像ファイル(Gif ファイル)
use-of-software-E.txt 利用条件(英語,テキスト)
Readme-K.html READMEファイル(朝鮮語, HTML)

展開後,Howto\winmorph.html を読んで WinMorph をインストールします.

WinMorph のインストール方法

WinMorph をインストールします.サブディレクトリ setup に "setup.exe" があることを確認
します.

Windows95 を利用している場合,次の手順でインストールをします.(C:\ディレクトリの下に,インストールしたディレクトリ winmorph があるとします).

  1. エクスプローラーを使ってサブディレクトリ setup にある"setup.exe" をクリックする.
    もしくは [スタート], [ファイル名を指定して実行(R)] を選択して,名前の部分に,「C:\winmorph\setup\setup.exe」を指定する."setup.exe" を実行すると下図のセットアップウィンドウが開くので [OK] ボタンを押します.
  2. インストール先のディレクトリを C:\Program Files\WinMorph\ からC:\winmorph\program\ に変更します.

    [ディレクトリ変更(C)] ボタンを押して,ディレクトリを設定し,[OK] ボタンを押す
  3. セットアップボタンをクリックしてインストールを開始する.正常に終了すると次のセットアップ終了のメッセージが出力されるので,[OK] ボタンを押して終了する

セットアップが終了すると次のようにサブディレクトリ program に"winmorph.exe" ファイル
など3つのファイルができます.確認します. これでセットアップは終了です.



WinMoprh の利用

WinMorphの使い方を Breakfast のそれと比較して説明します.WinMorph は Breakfast を形態素解析エンジンとするフロントエンドソフトウェアで,GUI 操作によて形態素解析システムを作成し,ウィンドウからの日本語文章(テキスト)入力が可能で,解析結果の出力をウィンドウに表示します.ウィンドウに表示した文章や結果は,CSV 形式等の指定形式で任意のファイルに出力することができますから,解析結果を表計算ソフトウェアなどで集計したり,Perl や AWK で自作したフィルタリング等のアプリケーションでも利用することができます.

形態素解析システムの作成

形態素解析エンジンとして利用する Breakfast を Breakfastの導入ガイドに従ってインストールします.ここでは,C:\bf\404 ディレクトリにインストールしたものとして以下の説明を続けます.
日本語形態素解析規則と辞書は,WinMorph パッケージに添付の ISF 日本語形態素解析規則 (wjpmph15) を利用しますので,Breakfast の導入手順は,次の2つのステップで終了します.

  1. Breakfast の配布パッケージを展開する
  2. fbfinst.bat スクリプトを実行する

上記の用意ができたことを確認します.
WinMorph を使った形態素解析システムの作成の手順を示します.

  1. エクスプローラーを使って winmorph.exe をクリックして起動します.

    WinMorph の初期画面が現れます.
  2. [リポジトリ(R)] メニューを選び,[規則ファイルの登録(R)] を選択します
  3. 規則ファイルの選択ウィンドウでは JUMAN 形式の文法規則のファイルを登録します.

    WinMorph パッケージには,ISF 日本語形態素解析規則 (wjpmph15) が添付されており,このディレクトリのサブディレクトリ dic に,文法規則ファイルが納められています.rc ファイルの [参照] ボタンを使って,wjpmph\dic\jumanrc ファイルを設定します.そうすると自動的に他の設定情報もセットされます.
  4. [登録] ボタンを押して,文法規則ファイルを設定します.その際に,この規則設定ファイルセットに名前を付けて保存します.この機能によって,WinMorph では,いろいろな文法規則の組み合わせを予め作成しておくことが可能で,解析したい文章に応じて文法規則セットを容易に替えることができます.

    本例では WinMorph パッケージの wjpmph15\dic ディレクトリに "rule.rif" ファイルを
    作成することにします
  5. [登録] ボタンを押します.続いて辞書ファイルの登録画面に移ります

    解析したい文章の特徴や応用アプリケーションの必要性に応じて,任意に辞書ファイルを選択して利用することができます.例えば,名詞だけの辞書を利用することも可能です.本例では,すべてを選択します
  6. 辞書の設定ファイルセットに名前を付けて保存します.これによって,いろいろな辞書の組み合わせを解析したい文章に応じて切り替えることができるようになります.
  7. [環境(V)] メニューから [環境変数設定(V)] を選択します.このウィンドウでは,形態素解析システムの作成コマンドを指定します.Breakfast を形態素解析エンジンとして使っているので,下の図のように,"cbf.exe" を [参照] ボタンを使って設定します.
    設定が終わったら [OK] ボタンを押します.
  8. [プロジェクト(P)] メニューの [プロジェクトの定義(D)] を選択します.ここでは,規則設定ファイルセット名と辞書設定ファイルセット名を登録します.ここでの例では,wjpmph\dic\rule.rif と wjpmph\dic\dict.dif を設定しました.
    「規則ファイルディレクトリ/規則インデックスファイル」には,[参照] ボタンを使って, wjpmph\dic\rule.rif を設定します.

    「辞書ファイル/辞書インデックスファイル」には,[追加] ボタンを使って wjpmph\dic\dict.dif を設定します.
  9. [OK] ボタンを押して次に進みます.「引き続きパーザーの作成を行いますか」というメッセージが出ますから,[はい(Y)] ボタンを押してパーザーの作成を行います.
    パーザーの作成の実行の前に,「形態品詞」には「算用系数量語基」を設定し,「品詞細分類」には「算用系数」を設定します.設定後,[実行] ボタンを押します.
  10. パーザーの作成の進行は,経過時間とどの辞書ファイルを処理中であるかによって示されるようになっています.パーザーの作成が終了すると,[Cancel] ボタンが [Exit] ボタンに変更されるので,[Exit] ボタンを押します.

これまでのステップで形態素解析システムの作成が終了します.

形態素解析パーザーの実行

形態素解析システムの基本的な機能は,日本語文章(テキスト)を入力し,形態素解析した結果を出力することです.WinMorph では,入力文章用のウィンドウと解析結果出力用のウィンドウが備わっています.次の方法について使い方を説明します.

  1. 文章入力ウィンドウを使って直接文章を入力し解析する
  2. 既存のファイルにある文章を解析する
  3. 解析結果をファイルに出力する

直接文章を入力し解析する

  1. [ファイル(F)] メニューの [新規作成(N)] を選択します.WinMorph ウィンドウの上部に,文章入力ウィンドウが現れます,下部に解析結果出力ウィンドウが現れます.
    フォーカスを上部のウィンドウに当て(カーソルを上部ウィンドウに出力し),解析する文章(テキスト)を入力します.解析したい文章の終わりまで入力し終えたら,[パーザーを実行] ボタンを押します.図のように解析結果が下部のウィンドウに表示されます.
  2. [表示を切り替え] ボタンを押すと次のように解析結果の表示形式が変化します

    wjnmph15 は,辞書ファイルのうち名詞のエントリーが少なく,上図のように名詞部分が未定義語になっています.それ以外のテキスト部分については,品詞分類名が付いています

既存ファイルの文章を解析する

  1. [ファイル(F)] メニューの [開く(O)] を選択します.開くファイルを選択するウィンドウが現れますから,既存ファイル名を設定して,[開く(O)] を押します.上部ウィンドウにファイルの文章(テキスト)が表示されますから,[パーザーを実行] ボタンを押します.解析結果が下部のウィンドウに表示されます.

解析結果をファイルに出力する

WinMorph では,出力結果を,形態素解析システムが出力したそのままの形式で保存するだけでなく,結果のファイル内容を解析して,見やすいようにリストにします.さらにこのリスト形式にした結果を利用者が活用できるようにデータの保存方法として,表計算ソフトウェアで使われるような CSV 形式もサポートしています.区切り文字は「カンマ文字」以外にも,ユーザー指定の区切り記号で,区切ることもできます.この機能によって,他のテキスト処理でしばしば活用される PERL や GAWK を使って,解析結果をのデータ処理が簡便にできます.
[環境(V)] メニューの [環境変数設定2(W)] を選択するとい図のような設定ウィンドウが現れます.

この画面の設定では,出力結果を CSV 形式で保存し,その区切り文字を「カンマ」に指定することを指示しています.この指示によって,先ほどの「WinMorphを使って文章を解析します.」という文章の結果を保存すると拡張子が csv のファイルが作成されます.次の図は,その CSV 形式のファイルを Microsoft EXCEL で読み込んだ状態を表しています.



問い合わせ先

東京外国語大学 外国語学部 佐野研究室

E-mail sano@fs.tufs.ac.jp


ページのトップに戻る