人間主体の知的情報技術に関する調査研究V

3. 研究開発の新しい展開と内外の動向

3.5 　音声情報処理の本格的アプリケーション構築に向けての展望と課題　―VoiceXMLを中心として

報告者: 児島宏明委員

3.5.1 　はじめに

　近年、音声情報処理技術を応用した大規模で実用的なアプリケーションの1つとして、音声ポータル（Voice Portal）が、また、そのようなシステムを構築するための共通の基盤としてVoiceXMLが注目されている。本報告では、VoiceXMLを中心として、音声対話を利用した大規模アプリケーションの可能性に関する展望と課題について述べる。

3.5.2 　音声情報処理技術とアプリケーションの動向

　音声認識技術に関しては、この10年間に、隠れマルコフモデル（HMM）と統計的言語モデル計モデルに基づいた手法が確立され、この枠組みに適合するアプリケーションについては、認識率が長足の進歩をとげた。しかし、適合しないアプリケーションについては、近年の重点課題として多くの研究者が取り組んできたにもかかわらず、本質的な解決となるような手法は見出されていない[1]。適合するアプリケーションとは、連鎖統計の学習に用いられるコーパス（多くの場合は新聞記事）から大きく外れないような文章が認識対象となるディクテーション（口述筆記）や、小規模な文法で記述できるような定型的な文章が認識対象となる限定的ドメインのタスクで、マイクや回線などの特性や雑音といった環境が変化しないようなアプリケーションである。適合しないアプリケーションとは、大きな多様性を含む話し言葉や、話題の移り変わる会話、高度な意味処理、多様で変化する雑音が存在する実環境、音響的な特徴が学習サンプルの統計的な中心から外れる老人や幼児や非母語話者、などを対象とするようなアプリケーションである。
　このため、ここ2～3年間は、前者のように現在の技術に適合する範囲内において、その対象を拡大していくフェーズであったと言える。このような戦略は、音声認識の研究分野の内側から見れば、順調に成果をあげ、評価されていると言える。しかし、一般ユーザの評価は必ずしも高くない。例えば、Dataquestの報告によれば、50%のユーザが購入から90日以内に、パフォーマンスが期待通りでないことを理由に音声認識ソフトウェアを放棄しているという。このような状況を打開し、「使える」音声認識システムを実現するには、どうすればよいだろうか。
　そのような方向性として、これまでの試みを集約した大規模で実用的なアプリケーションを構築することが、当面の目標の1つと考えられている。すなわち従来は、限定的な対象を扱った限定的なアプリケーションが、それぞれ独立に開発されてきたため、需要の拡大に限界があり、また、ユーザにとっても、ドメインが限定されることで、融通のきかない、使いにくいシステムという印象につながっていた。それらを、共通の基盤の上に構築し、統合して大規模化できるような枠組みがあれば、アプリケーションが大きく拡大する可能性があると考えられる。これは、インターネットの応用がHTMLおよびWWWの枠組みによって急激に拡大したことの、アナロジーとしてとらえることもできる。
　このような共通基盤として注目されているのがVoiceXMLである。VoiceXML自体は、さまざまな音声システムに対応できる汎用性を備えているので、長期的には、上記のような展開が期待できるが、当面のアプリケーションとしては、音声ポータルを主なターゲットとしている。音声ポータルは、小規模な文法で済む場合が多い点や、回線の特性がある程度限定できる点(携帯電話など無線系を含むと多様性は増えるが)など、現在の技術水準とも適合性の高いアプリケーションといえる。

3.5.3 　音声ポータルの現状

　前節で述べたように、長年にわたる改良にもかかわらず、音声認識システムはユーザにとって使いやすいものと認知されるに至らず、いくつかあった音声認識専門企業も、老舗の米Dragon SystemsがL&H（Lernout & Hauspie）に買収され、そのL&Hも従来音声を手がけていなかったScansoftに買収されるなど、厳しい状況が続いている。その一方で、業界紙Speech Recognition Updateによれば、音声認識ソフトウェア・装備・サービスの市場について、1997年には3億5600万ドル規模にすぎなかったものが2003年には226億ドル規模にまで急成長すると予測している。このような市場拡大の原動力と期待されているのが音声ポータルで、Cahners In-Stat Groupは、音声ポータルの売上規模が2005年に16億ドルに達するとの見通しを発表している。
　音声ポータルは、主として電話を用いてサーバにアクセスし、音声認識や音声合成による対話を通じて、サーバやインターネット上の情報にアクセスできるようなシステムである。言い換えれば、「CTI（Computer Telephony Integration）」と呼ばれる電話による自動化システムに、音声対話による自動処理、すなわち「IVR（Interactive Voice Response）」を導入したものである。ここでは、従来のコールセンターのような企業ごとのサーバも含めたIVRシステムを、広い意味で「音声ポータル」と呼ぶことにする。
　アプリケーションの例としては、以下のようなものがある。

ビジンネス情報へのアクセス
（例えば、企業のフロントデスク、企業間の自動発注システム、サポートデスク、旅行やホテルなどの予約システム、ホームバンキングなど）
公共情報へのアクセス
（例えば、天気、交通、学校、経済、ニュースなどの情報）
個人情報へのアクセス
（例えば、カレンダー、住所録、電話帳、備忘録など）
コミュニケーション
（例えば、電子メールやボイスメールの送受信など）

　音声ポータルの市場に関するこのような強気の予測の根拠の1つとして、インターネットに接続されたパソコンの総数に比較して、通常の電話器の総数が圧倒的に大きいことが挙げられる。しかし実際には、単純に数量的な比較だけではなく、具体的なニーズを把握する必要がある。具体的な応用場面で期待される要因として、自動車の情報化と携帯電話の普及がある。運転中の自動車からインターネットにアクセスする手段としては、画面ベースのWWWブラウザよりも、電話による音声対話の方が適している場合が多い。また、携帯電話に関しては、日本ではi-modeのような文字ベースのインターネットアクセス手段が普及し、大画面の端末に人気があるのに対し、米国では通常の音声通話機能以外は、あまり受け入れられていない。これが、日本よりも米国において音声ポータルへの期待が高まっている大きな要因の1つと見ることもできる。これ以外にも、視覚に障害のあるユーザのインターネットへのアクセス手段としての意義もある。
　このように、特に米国において、音声ポータルへの産業的期待は大きく高まり、これに関連した多くの企業が設立されている。音声ポータル専門の音声認識ソフトウェア開発会社としてNuance、SpeechWorksなどが、またポータル構築会社として、Tellme Networks、BeVocal、HeyAnita、VoiceGenieなどがある。1998年10月に、これらの企業が参加して電子商取引アプリケーションに採用される音声認識技術の標準化を目指して、「V-Commerce Alliance」が設立された。これがVoiceXMLの標準化につながっていくことになる。Nuanceは、SRI（Stanford Research Institute）からスピンアウトした技術者を中心に設立された企業で、1999年10月に音声対応ブラウザ「Voyager」を発表し、音声ポータル開発ツール「V-Builder」などを販売している。Tellmeは、AT&TやIntelなどと提携して、音声ポータルによる企業のコールセンターの自動化を進めると同時に、ポータル上の広告も収益源として想定している。これに対してBeVocalは、広告ではなく、ポータルやサーバ上のサービスへのアクセスに対応した手数料を、主な収益源として想定している。また、Qwest、Genuity、iBasis、ITXCなどの通信キャリアは、音声ポータルを導入して、自社のネットワークにトラフィックを引き込むことにより、通信収入の向上を期待している。このように、企業によって様々に異なるビジネスモデルで、音声ポータルの事業化を進めている。
　ほかにも、製品としては、SpeechWorksが、電話で証券の売買を行う「Tele*Master」というシステムを構築し、米国のオンライン証券会社のE*Tradeで使われている。また、Lucent Technologyの「PhoneBrowser」や、IBMの「WebSphere Voice Server」といった音声ポータルシステムが販売されている。またIntelは「Voice Portal Platform」、という音声ポータルサーバシステムを販売している。さらに、これまで音声認識に関して目立った動きのなかったSun Microsystemsも、2002年3月になって「VoiceTone」と呼ぶサーバシステムを発表した。Micorsoftも、次節で述べるようにSALTという規格を提唱して、Microsoft .NET（dot net）Speech SDK（Technical Preview）という開発ツールを発表している。
　日本でも、NTTコミュニケーションズが「Vポータル」[2]と呼ぶ音声ポータルを運用し、2001年8月から試験サービスを、2002年1月から本格サービスを開始している。また、日本テレコムが「Voizi」[3]と呼ぶ音声ポータルの試験サービスを2001年7月から開始している。

3.5.4 　VoiceXML

3.5.4.1 　VoiceXMLの背景と経緯

　VoiceXML[4][5]は、前節で述べた音声ポータルに代表されるような、音声（音）による対話システムを作成するための、XML（eXtensible Markup Language）仕様の記述言語である。
　1995年に、AT&Tベル研でPML（Phone Markup Language）が開発され、これに基づいて、AT&TのPhoneWebやLucentのTelePortalなどのサービスや、MotorolaのVoxMLや、IBMのSpeechMLなどの記述言語が開発された。これらの成果をVoiceXMLとして統合し標準化することを目的として、1999年4月にこれら4社を中心に、「VoiceXML Forum」[6]が結成された。また、W3C（World Wide Web Consortium）では、1998年10月に、音声ブラウザ（Voice Browser）に関するワークショップを開き、1999年3月に「音声ブラウザワーキンググループ（Voice Browser WG）」を結成した。VoiceXML Forumと、Voice Browser WGとの関係は、今のところForumで仕様を検討してWGに提案し、WGが規格として承認する、という形態をとっている。日本では、2001年6月に、沖電気工業、日立製作所、日本アイ・ビー・エムなどを中心に、「XMLコンソーシアムVoiceXML部会」[7]が結成された。Microsoftは、VoiceXML Forumに加入せず、VoiceXMLとは距離を置いていたが、2001年10月にSALT（Speech Application Language Tags）という新たな規格を提案し、「SALT Forum」を設立した[8]。IntelやCiscoなどは、両方のフォーラムのメンバーとなっている。
　VoiceXMLの仕様は、VoiceXML Forumから1999年8月にVersion 0.9が、2000年3月にVersion 1.0が発表され、2000年5月にW3Cの規格として承認された。現在の最新版は、2001年10月にVersion 2.0のワーキングドラフトとして公開されている[9]。

3.5.4.2 　VoiceXMLの概要

　VoiceXMLは、WWWページを構築するのと同様の容易さで、音声応答アプリケーションを構築することを目的としている。VoiceXMLで想定されているシステムの構成は、次のようになる。

（a）　PBXやVoIPゲートウェイ。
（b）　VoiceXMLインタプリタ。
（c）　ドキュメントサーバ。
（d）　インプリメンテーションプラットホーム。

　（a）は、ユーザからの電話を受けるためのPBXや、これを計算機ネットワークにつなぐVoIP（Voice over IP）ゲートウェイである。（b）は、VoiceXMLを解釈し、実際に対話処理を実行する処理系である（「VoiceXMLブラウザ」とも呼ばれる）。（c）は記述されたVoiceXMLドキュメントを保存したり、通常のHTMLベースのWWWリソースにリンクしたりするためのWWWサーバである。（d）は、音声認識や音声合成を行う処理系や、時間切れなどのイベントを生成する機能などで、「VoiceXMLインタプリタ」に付随する形にすることもできるし、別サーバとして接続する形で構成することもできる。「VoiceXMLインタプリタ」と「ドキュメントサーバ」との間は、通常のHTTPプロトコルでやり取りされ、「ドキュメントサーバ」は通常のWWWサーバと同様の構成で済む点が、導入が容易というVoiceXMLの利点につながっている。
　VoiceXMLの設計上の特徴としては、以下のような点が挙げられる。

1つのドキュメントに複数の対話処理を記述できるため、クライアント・サーバ間の通信を最小化できる。
作成者が、機器の構成やハードウェア環境に依存した低レベルの処理を考慮しなくて済む。
ユーザの対話処理（VoiceXMLで記述）を、サービスの処理（CGIで記述）から分離できる。
アプリケーションの移植が容易になる。
簡単なメニューシステムから複雑な対話処理にまで対応できる。

　VoiceXMLが扱える入出力や操作には以下のようなものがある。

合成音声の出力。
オーディオファイルの出力。
音声入力の認識。
DTMF（ダイヤルトーン信号）入力の認識。
音声入力の録音。
対話の流れの制御。
電話の転送や切断など回線の制御。

3.5.4.3 　VoiceXMLの記法

　VoiceXMLの記述例を下に示す。

　　<?xml version="1.0"?>
　　<vxml version="2.0">
　　<menu>
　　　<prompt>
　　　　Say one of: <enumerate/>
　　　</prompt>
　　　<choice next="http://www.sports.example/start.vxml">
　　　　Sports
　　　</choice>
　　　<choice next="http://www.weather.example/intro.vxml">
　　　　Weather
　　　</choice>
　　　<choice next="http://www.news.example/news.vxml">
　　　　News
　　　</choice>
　　　<noinput>Please say one of <enumerate/></noinput>
　　</menu>
　　</vxml>

これは、電話サービスのジャンルを音声で選択する例で、<prompt>と</prompt>で囲まれた部分は、合成音声で出力される。会話の例は次のようになる。

　　サーバ（PC）: "Say one of: Sports; Weather; News."
　　ユーザ（人）: "Astrology."
　　サーバ（PC）: "I did not understand what you said."
　　　　　　　　　　（システムの標準エラーメッセージ）
　　サーバ（PC）: "Please say one of: Sports; Weather; News."
　　ユーザ（人）: "Sports."
　　サーバ（PC）: （http://www.sports.example/start.vxmlへ飛ぶ）

　また、次のように、音声の代わりにDTMF（ダイヤルトーン信号）で選択するように記述することもできる。

　　<menu>
　　　<property name="inputmodes" value="dtmf"/>
　　　<prompt>
　　　　For sports press 1, For weather press 2, For News press 3.
　　　</prompt>
　　　<choice dtmf="1" next="http://www.sports.example/start.vxml"/>
　　　<choice dtmf="2" next="http://www.weather.example/intro.vxml"/>
　　　<choice dtmf="3" next="http://www.news.example/news.vxml"/>
　　</menu>

　また、次の例のように、ユーザの回答を音声認識した結果を、変数に保存して参照する
こともできる。

　　<?xml version="1.0" encoding="ISO-8859-1"?>
　　<vxml version="2.0" lang="en">
　　<form>
　　　<field name="city">
　　　　<prompt>Where do you want to travel to?</prompt>
　　　　<option>Edinburgh</option>
　　　　<option>New York</option>
　　　　<option>London</option>
　　　　<option>Paris</option>
　　　　<option>Stockholm</option>
　　　</field>
　　　<field name="travellers" type="number">
　　　　<prompt>How many are travelling to <value expr="city"/>?</prompt>
　　　</field>
　　　<block>
　　　　<submit next="http://localhost/handler" namelist="city travellers"/>
　　　</block>
　　</form>
　　</vxml>

　この場合、ユーザの入力（例えば"London"）が参照されて、サーバは"How many are travelling to London?"のような合成音声音声を出力する。

3.5.4.4 　VoiceXML関連のW3C規格

　このほかにもW3Cでは、VoiceXMLに関連する規格をいくつか策定している。入力として複雑な文章を扱う場合には、「SRGF（Speech Recognition Grammar Format）」[10]と呼ばれる形式に従って、文脈自由文法に基づく文法を記述できる。このほかに、単語連鎖統計の形で文法を規定するStocastic（N-Gram）モデルに関する規格[11]も検討されているが、優先順位が低く策定は進んでいないようである。これらの文法に従って、入力文から構文解析木が生成される。この構文解析木から意味構造を抽出する際の記述言語として、「SI Tag（Semantic Interpretation Tag）」[12]と呼ばれるタグが策定されている。これは、ECMA Script[13]（JavaScriptなど）のサブセットとなっている。これとは別に、意味構造をXML的に記述するNLSML（Natural Language Semantics Markup Language）[14]も策定しようとしているが、こちらはあまり進展していない。音声合成に関しては「SSML（Speech Synthesis Markup Language）」[15]が、発音辞書については、「Pronunciation Lexicon Markup Lanugage」[16]が策定中である。また、回線の制御に関しては「CCXML（Call Control XML）」[17]が規定されている。このほかにも、「Multimodal」[18]や「Reusable dialog」[19]などが検討されてきたが、規格としてはまとまらなかったようである。

3.5.5 　音声アプリケーションの課題

　上で述べたように、音声技術のキラーアプリケーションとして、音声ポータルに対する業界の期待は大きい。しかし、米国で音声ポータルの構築が本格的に始まってから、約2年、日本で約1年たったが、現在のところ、一般ユーザに広く利用されるまでに普及する兆しは、まだ見えていない。ただし、Allied Business Intelligence（ABI）社の予測では、
2006年末までに音声ポータルのユーザ数は約2億9,100万人で、そのうち、それほど頻繁には利用しないユーザが25%、比較的頻繁に利用するユーザが40%、常習的なユーザが35%としている。このような予測の背景として、狭い意味での他目的ポータルとしての利用は、まだ目立つほどにはなっていないが、従来のコールセンターや、電話取引のようなシステムに、目立たない形で徐々に浸透している状況がある。例えば、前述の米E*Trade証券の音声取引システムは、顧客の約30%に利用されているという。
　しかし、音声ポータルを含むIVRシステムには、多くの課題が残されている。まず、画面ベースのブラウザのように、情報を一覧することができないことや、道順などのように、図や絵による表示のほうが適している情報への対応は、本質的な問題である。また、サーバから引き出した利用結果を保存する方法として、効率的な方法が見出されていない。また、ビジネスモデルとして、情報の間に広告を埋込む場合、利用者にとっては、画像の広告以上に煩わしいものとなる可能性が高い。また、一覧可能性とも関連して、分かりやすいメニューを設計することも課題となる。
　一覧可能性の問題は、従来からあるDTMFベースの電話サービスにおいて、最もユーザにとってのフラストレーションとなっている問題であり、IVR技術によってこれが解決されるならば、大きな意義がある。もし、音声ポータルにおいて人間のオペレータを相手にするような自然な対話が実現できれば、使いやすさは文字ベースのものを上回る可能性がある。しかし、これは技術的には本質的に困難な課題であり、10年以内に実現できる見込みはないと考えられる。そのため、音声ポータルのメニュー設計によっては、DTMFベースのメニューがそのまま単語音声認識に置換わっただけのものになりかねない。しかし、逆にこれはVoiceXMLベースのシステムの利点でもある。VoiceXMLがDTMF入力もサポートしていることにより、従来のDTMFでの応答システムをそのまま、VoiceXMLベースのシステムで構築することができ、そこから段階的に、音声認識に置き換えていき、さらに入力として受けつけられる文法を複雑化して、徐々に自然な対話に近づけていくことができる。これは、そのときどきの技術水準に応じた使いやすい音声ポータルを構築できる可能性につながる。
　そのほかに、大画面携帯電話や携帯情報端末（PDA）などを想定し、音声だけでなく、文字や画像など、他のモダリティを併用する方向も重要である。上で述べたSALTは、このようなマルチモーダルのサポートを「売り」にしている。W3Cでも、上で述べたように規格としてはいちど中止になっているが、マルチモーダルワーキンググループ[20]として研究が続けられており、XHTMLやXFormsやSMIL（Synchronized Multimedia Integration Language）などとの統合が検討されている。XHTMLやXFormsは、それぞれHTMLや入力フォームを拡張した規格であり、SMILは、マルチメディアでのプレゼンテーションを主なターゲットとした規格である。日本でもVoiceXMLへマルチモーダルを導入する研究が活発に行われている[21][22]。
　以上のように、音声ポータルなどVoiceXMLをベースとしたIVRシステムは、1990年代のディクテーションシステムに続いて、この10年間の代表的な音声アプリケーションとなると考えられる。これを手がかりとして、音声アプリケーションの構築が促進され、大規模化や高度化が進むことが期待される。また、それにより社会慣習的な課題、すなわち、音声入力システムに対する人々の慣れの問題も徐々に解消され、それに適合した新たな社会規範が形成されていくことが期待される。

参考文献

[1]	人間主体の知的情報処理技術に関する調査研究IV, 日本情報処理開発協会先端情報技術研究所 (2001).
[2]	http://www.ntt.com/v-portal/
[3]	http://www.voizi.net/
[4]	Bob Edgar: The VoiceXML Handbook -- Understanding and Building the Phone-Enabled Web --, CMP Books (2001).
[5]	http://www.w3.org/Voice/
[6]	http://www.voicexml.org/
[7]	http://www.xmlconsortium.org/wg/voice/voice_index.html
[8]	http://www.saltforum.org/
[9]	http://www.w3.org/TR/2001/WD-voicexml20-20011023/
[10]	http://www.w3.org/TR/speech-grammar/
[11]	http://www.w3.org/TR/ngram-spec/
[12]	http://www.w3.org/TR/2001/WD-semantic-interpretation-20011116
[13]	http://www.ecma.ch/ecma1/STAND/ECMA-262.HTM
[14]	http://www.w3.org/TR/nl-spec/
[15]	http://www.w3.org/TR/speech-synthesis/
[16]	http://www.w3.org/TR/lexicon-reqs/
[17]	http://www.w3.org/TR/2002/WD-ccxml-20020221/
[18]	http://www.w3.org/TR/multimodal-reqs/
[19]	http://www.w3.org/TR/reusable-dialog-reqs/
[20]	http://www.w3.org/2002/mmi/
[21]	植田ほか: VoiceXMLのマルチモーダル化の検討, 情報処理学会研究報告, Vol. 2001, No. 100, pp. 43-48 (2001).
[22]	桂田ほか: 音声対話記述言語VoiceXMLとMMI記述言語XISLの比較, 情報処理学会研究報告, Vol. 2001, No. 100, pp. 49-54 (2001).

【次へ】

3.5 音声情報処理の本格的アプリケーション構築に向けての展望と課題 ―VoiceXMLを中心として

3.5 　音声情報処理の本格的アプリケーション構築に向けての展望と課題　―VoiceXMLを中心として