【前へ】

3.5 マルチモーダル情報統合システム

3.5.1 はじめに

 人間同士の対面対話において人は、音声言語を用いた情報伝達を行うだけでなく、視線や表情、身振りといったさまざまな情報をあわせて用いることで、コミュニケーションを行っている。こうしたさまざまな情報伝達手段を組み合わせることで人は、従来のキーボードとマウス、ディスプレイによるグラフィカルユーザインタフェース(GUI)では実現不可能なコミュニケーションを行っている。

 こうした従来型のインタフェースを越えて、人間とコンピュータの新しいインタラクションを実現するものとして、画像、音声、自然言語などを用いた「マルチモーダル情報統合システム」に関心が高まっている。IJCAI-97 においても、関連するものとして、“Intelligent multimodal systems”[IMS 97]と“Animated interface agents: making them intelligent”[AIA 97]の二つのワークショップが開催されている。

 本稿では、画像・音声・自然言語などを統合したマルチモーダル情報統合システムの研究動向について、情報統合、ノンバーバルコミュニケーション、対話性の三つの観点から技術的特徴を整理して述べるとともに、研究開発課題について述べる。

 本稿では、人間と多様な情報のやりとりを対話的に行う人工的なシステムを「マルチモーダル情報統合システム」と呼ぶが、対話に重点を置いて「マルチモーダル対話システム」と呼ばれたり、人間とコンピュータとのインタフェースとしての視点から、「マルチモーダルインタフェース」と呼ばれることも多い。これは、直接操作の基本となるグラフィックスや、言葉を表示する音声やテキストなどの複数のコミュニケーションチャンネルが同時に、相互補完的に利用でき、言葉や行為のモダリティを働かせてインタラクションができるようなシステムのことである[長尾 96]。「モダリティ」というのは、情報伝達において用いる認知的手法あるいは様式のことである。この場合に、単にコンピュータとのインタラクションの手段として複数のメディアやチャンネルが利用できるというだけでなく、有機的に統合されることが重要である[長尾 96]。

 たとえば、音声、身振り、表情などの複数の情報伝達様式を組み合わせて、人間との情報のやりとりを対話的に行うものなどがあげられる。ここで、マルチモーダル情報統合において、入力・認識の技術のみならず、出力・表現手法の研究も重要である点に注意が必要である。

3.5.2 研究状況

 これまで、マルチモーダル情報統合システムに関するさまざまな提案や研究開発が行われてきた[長谷川 96、長尾 96、田村 95]。具体的には、

などが主として取り上げられてきた。多様な情報伝達様式を有機的に統合した情報統合システムが理想的なものである。

 マルチモーダル情報統合システムの研究にはさまざまな要素がある。紙面がある程度限られているので、いくつかの研究の事例を以下に紹介するが、これ以外にもさまざまな研究が行われている。

 まず上げられるのは、音声認識と磁気センサーによる指さしを組み合わせた“Put That There”である[Bolt 80]。これは巨大なスクリーンに向かってすわり、ある対象物を指さして“Put That”と言い、つぎに別の点を指さして、“There”と言うと、その対象物が移動するというものである。

 Human Reader[末永 92]は、視覚による頭部と手指の検出を行って、人間の状況を理解し、音声認識との統合を行うものである。スクリーンの前に座った利用者の顔および手指の動作を正面、側面および上面に設置した 3 台の小型テレビカメラでとらえ、実時間画像処理を行うとともに音声コマンドの認識も行う。また CG による顔画像の合成と音声合成との統合も行っている。

 TOSBURG II[竹林 94]は、ハンバーガーショップでの注文システムを想定して、ワードスポッティングをベースとする音声認識によって自由な話し言葉による音声対話を目指すものである。アニメーション、合成音、応答文テキストによる応答生成を行っている。音声応答キャンセル機能を組み込み、システムからの音声応答をさえぎった音声入力を可能としている。

 Talkman[Nagao 94]は、人間と自然なインタラクションを行うエージェントを目指して試作された、人間的な顔と表情を持ち、音声言語で対話するシステムである。連続音声認識技術による音声対話と、3 次元的な顔のグラフィックスによる多様な表情のリアルタイム生成を行う擬人化エージェントのプロトタイプである。

 RWC つくば研究センターでは、人間の身振りに対して連続 DP 法を用いたスポッティング認識を行い、ジェスチャー認識を行っている[高橋 94]。また音声とジェスチャーの認識を統合した音声・ジェスチャー・マルチモーダル対話システムを作成している[Nagaya 96]。

 電総研では、システムに、人間の行動や発話を見聞きし、また自らも発話や行動によって人間に情報を伝える能力を持たせることを目指して、音声認識、音声合成、画像認識、画像合成を統合したマルチモーダル対話システムの研究開発を進めている[Hasegawa 95、Hayamizu 97]。このシステムの特徴は、第1に、画像による人物識別と音声対話を組み合わせることで、識別された人物の名前を、システム側から呼んで話しかけるという「自発性」を実現したことである。また複数の人物を識別することで、第三者への伝言機能を実現している。さらに3次元的な顔のグラフィックスにおいて、ユーザとの視線の一致を行うようになっている。

 また MrBengo[新田 97]は論争を支援する知識ベースシステムに、顔認識、表情合成、音声認識、音声合成、WWW ブラウザなどのモジュールを統合したマルチモーダル実験システムである。

3.5.3 背景

 こうした研究の背景としては、現在、普通に使われているコンピュータシステムのインタフェースを超えて、実世界と相互作用できるような人工物やその人工物のためのインタフェースの実現を目指そうという流れがある。アプリケーションとしてのイメージも、これまでのいわゆる計算機ソフトというイメージから、電子秘書や情報執事といった、自律的な実体のイメージをもったものが指向されるようになってきている。

 人間の行動や発話を見聞きし、また自らも発話や行動によって人間に情報を伝える能力をシステムに持たせたいと考えると、そこで対象としなければならない情報の内容や、情報を伝えるためのメディアや伝達様式は、従来のものとは、大きく異なってくることが予想される。

 対象となる情報の内容は、より日常的で、生活に密着し、より人間的なものとなるだろう。ちょっとした情報を相互に伝えあい、共有しあうことになるだろう。数値やテキストから音声や動画像の連続的なメディアに伝達媒体が変化するのも、そこで伝えたい内容が、文字で表わされるようなものだけから、たとえば、微妙なニュアンスや感情といったものにまで広がる可能性があるからであると考えられる。

3.5.4 技術的特徴

 マルチモーダル情報統合システムの研究にはさまざまな要素がある。大きく分類すると、情報統合、ノンバーバルコミュニケーション、対話性の三つの側面がある。

(1)情報統合

 情報統合というのは、音声や画像などの種々の情報を統合的に処理することである。組み合わせる情報の種類や、統合の仕方によって、さまざまな情報統合が考えられる。たとえば、音声認識と画像認識を統合することで、これまで単独では得られなかった認識性能を達成することの例として、画像認識による読唇との統合によって、騒音中の音声認識性能を向上させるという、情報統合によってある特定の情報伝達機能の性能を向上させることがあげられる。音声と画像の組み合わせ以外にも、音声認識とセンサー・マウス・キーボード・タッチパネルなどとの統合がある。

 画像認識による読唇と音声認識の統合については、音声認識にとって典型的な情報統合の例である[Vo 93]。画像認識手法には、モデルを設定して特徴量を求めるもの、主成分分析などによって画像の全体から特徴をもとめるものなど、さまざまなものがある[Stork 96]。人間と機械によるspeechreading(読唇)については、1995年に、NATOのワークショップが開催されている[Stork 96]。

 また“Put That There”の場合には、指示語のさす対象物は、音声だけでは特定できず、指示動作との統合によってはじめて曖昧性を解消することができる。

 複数の情報伝達様式の統合による新しい機能の実現というのも、その技術的な特徴である。たとえば、画像認識による人物識別と音声合成の統合によって、システムから話しかけるという「自発性」を実現したり、人物識別と音声対話の統合によって、第三者への伝言機能を実現したりするというのが、この例である[Hasegawa 95]。また複数の情報伝達様式の統合による学習の試みとして「インターモーダル学習」と呼ばれるものがある[赤穂 97、麻生 97]。

 ここで注意すべきことは、入力(認識)の統合だけでなく、出力(合成)についても情報統合の対象であることである。たとえば音声認識を行う際に、擬人化エージェントによる表情の表出によって、認識結果についてのシステムの状態(認識結果についての確信の程度など)を示す[Nagao 94]ということも、情報統合の一例である。

(2)ノンバーバルコミュニケーション

 ノンバーバルコミュニケーション(あるいはノンバーバルインタフェース)というのは、言葉によらない対話という意味で、身振り、表情、視線、韻律などを用いた情報伝達のことである。これには、入力・認識系と出力・表出系の二つの側面がある。

 身振りや表情の認識については、1995 年から、顔とジェスチャーの自動認識についての国際会議[FG 95]が開催されており、近年、研究が活発化している[Pavlovic 97、長谷川 97]。

 人間が、人間同士のコミュニケーションにおいて、自らの体を用いて生成でき、また認識(理解)できるものは、発話であり、身振りや表情である。身振りと言っても、さまざまな動作がある。表情についても、幸福、悲しみ、恐怖、嫌悪、怒り、驚きの基本6表情だけでなく、対話において出現するものにはさまざまなものがある[Ekman 75、黒川 94]。

 身振りや表情などの身体動作は、標識(emblem)、例示子(illustrator)、情感表示(affect display)、調整子(regulator)、適応子(adaptor)に分類できる[黒川 94]。標識は、「ことば」にいいかえ可能で、音声言語と類似の性質をもつ。親指と人さし指で作る「お金」や手話などがその例である。例示子は、発話の内容や流れと結びつき、発話内容を強調、精緻化、補足するものである。対象を指さしたり、対象の形や大きさを空間に描いたり、出来事のリズムを示す動作などがこれに相当する。情感表示は、情動(感情)に伴う表情や身振りである。調整子は、発話権の授受を制御したり会話の流れを円滑にする動作である。適応子は、身体的要求を満たしたり、情緒を管理したりといった、状況に適応するための身体動作で、頭をかく、足を組む、相手との距離を変えるなどの動作がこれに属する。

 たとえば、CG(擬人化)エージェントが顔だけを持つ場合と、腕と体を持って仮想空間内で行動する場合では、伝達の対象となる情報の内容の種類は、後者の場合が、格段に多いことが予想される。

 またこれらの情報は、それ自身がある種の意味内容を伝達するだけでなく、調整子の例のように、対話の制御にも使用される。音声対話において、韻律は、発話権の授受やタイミングを制御するという役割を持っている。身振りや表情にも、対話において同様の役割がある。

 韻律や身振りなどは、対話の制御という点では、対話の意味内容や特徴的な表層の言語表現に対して補助的に働く。したがって、対話の制御のための情報伝達としては、その現象が必ず起こるわけではない。また、非常に微妙なものであり、パターン認識の対象として難しいという性質がある。この性質は、認識を難しくするだけでなく、その前段階の学習も難しくするという点に注意が必要である。

(3)対話性

 マルチモーダル情報統合における対話性の実現において、対話の文脈との関係や対話の時間的側面との関係が重要である。

 自然言語(テキスト)による対話システムや音声による対話システムには、それぞれ固有の技術的特徴と研究課題があるが、マルチモーダル情報統合システムにおける対話性というのは、情報統合やノンバーバルコミュニケーションの両方にも関係する技術的特徴である。

 たとえば、マウスなどのポインティングデバイスと音声認識の統合を行うような場合、マウスで指示された項目に音声認識の対象となる語彙を絞って音声認識を行うことによって、音声認識性能を向上させることが考えられる。これは対話の文脈を特定する手段として、情報統合を利用するものである。

 また、あいづちやうなずきなどを利用して、対話の時間的な側面を制御する新しい情報伝達様式によって、より生き生きとした、円滑な対話を実現することが考えられる。人間にとって、多様な内容を扱える対話や、自由なタイミングの対話が可能となることは、重要である。たとえば[坂本 94]では、人と人の対話過程における発話とうなずきや視線の一致などの情報について、ラベル付けを行いデータベース化して解析を行っている。

3.5.5 研究開発課題

 これらの技術的特徴をもったマルチモーダル情報統合システムの実現に向けて、わが国としても関連する領域における研究開発を支援する必要があるものと考えられる。

 このうち研究開発課題として、とくに重要、かつ緊急性が高いものは、つぎの2つである。

 情報統合技術は、マルチモーダル情報統合システムにおいて、音声や画像などを用いた多様な情報伝達様式を統合する技術である。情報統合によって、ある特定の情報伝達機能の性能を向上させたり、統合による新しい機能の実現を目指すものである。

 このために、音声認識、音声合成、画像認識、画像合成などの個別的なパターン処理技術の向上も必要であるが、情報統合技術はこれら個別的な技術の融合領域、あるいは境界領域であり、個別の技術に対しても情報統合のわく組みからの新しい視点や価値観の導入がより重要である。

 さらに、現在のコンピュータシステムを超えて、実世界と相互作用できるようなより高度なマルチモーダル情報統合システムを実現するためには、学習・自己組織化技術がより重要となる。

 ノンバーバルコミュニケーションや対話性についての技術的特徴のところでも述べたように、実世界と相互作用できるような人工物や、そのインタフェースの実現のためには、その対象の多様性が大きいということが問題である。カテゴリーが決まっていても、多様性が大きいために、その認識や合成を行うことが難しい。また、明確なカテゴリーが存在しなかったり、その役割が明確でなかったりするという点が、重要なポイントである。

 たとえば、音声認識においては、話者変動、語彙の増加、環境音などによる認識性能の低下というよく知られた問題以外にも、自由なタイミングでの音声対話が難しいことや、1つのタスクで動作するシステムを他のタスクに移植することが難しいといった問題がある。また身振りなどの動画像認識においては、認識実験の対象とされているカテゴリー数がまだ少ないということの他に、カテゴリーの決定自身が難しい。

 こうした多様性が大きく、明確なカテゴリーが存在せず、また役割が明確でないような性質の現象を扱っていくためには、カテゴリー間の識別性能を高めるという、通常のパターン認識手法の高度化だけでなく、学習・自己組織化という側面で、教える手間を減らし、言葉では教えにくいことを教えられるようにし、また、対話における状況と内容の関係を教えられるようにすることが求められる。

 これらの研究開発課題は、基礎的な研究を必要とする困難な課題であり、わが国としても、これらの課題の解決を目指す研究開発を支援することで、マルチモーダル情報統合システムの実現に寄与することが望まれる。

<参考文献>

[AIA 97]
Proceedings of the Workshop on Animated interface agents:making them intelligent, IJCAI-97(1997).
[赤穂 97]
赤穂, 速水, 長谷川, 吉村, 麻生 : EM 法を用いた複数情報源からの概念獲得, 電子情報通信学会論文誌 A, Vol. J80-A, No. 9, pp. 1546-1553(1997).
[麻生 97]
麻生, 速水 : 機械学習におけるインターモーダル学習の位置付け, 人工知能学会情報統合研究会資料 SIG-CII-9710-1(1997).
[Bolt 80]
Bolt, R. A. :Put-that-there : Voice and gesture at the graphics interface, ACM Computer Graphics, Vol. 14, No. 3, pp. 262-270(1980).
[Bordegoni 97]
Bordegoni, M., Faconti, G., Maybury, M. T., Rist, Th., Ruggieri, S., Trahanias, P., Wilson, M.: A standard reference model for intelligent multimedia presentation systems, Proceedings of the Workshop on Intelligent multimodal systems, IJCAI-97, pp. 85-99(1997).
[Ekman 75]
Ekman, P. and Friesen, W.V.:Unmasking the face, Prentice-Hall(1975)[工藤訳, 表情分析入門, 誠信書房]
[FG 95]
Proceedings of the International Conference on Automatic Face and Gesture Recognition(1995).
[長谷川 94]
長谷川, 横澤, 石塚 : 自然感の高いビジュアルヒューマンインタフェースの実現のための人物動画像の実時間並列協調的認識, 電子情報通信学会論文誌, D-II, Vol. J77-D-II, No. 1, pp. 108-118(1994).
[Hasegawa 95]
Hasegawa, O., Itou, K., Kurita, T., Hayamizu, S., Tanaka, K., Yamamoto, K., Otsu, N. : Active agent oriented multimodal interface system, IJCAI-95, pp. 82-87(1995).
[長谷川 96]
長谷川修, マルチモーダル対話, 人工知能学会誌, Vol. 11, No. 5, p. 812(1996-09).
[長谷川 97]
長谷川, 森島, 金子 : 「顔」の情報処理, 電子情報通信学会論文誌, D-II, Vol. J80-D-II, No. 8, pp. 2047-2065(1997).
[Hayamizu 97]
Hayamizu, S., Sakaue, K., Hasegawa, O., Itou, K., Yoshimura, T., Hasida, K., Akiba, T., Asoh, H., Akaho, S., Kurita, T., Tanaka, K., Otsu, N. : Multimodal interaction system at the Electrotechnical Laboratory, Proceedings of Real World Computiong Symposium, pp. 16-22(1997).
[IMS 97]
Proceedings of the Workshop on Intelligent multimodal systems, IJCAI-97(1997).
[神尾 94]
神尾, 松浦, 正井, 新田 :マルチモーダル対話システム MultiksDial, 電子情報通信学会論文誌, D-II, Vol. J77-D-II, No. 8, pp. 1429-1437(1994).
[黒川 94]
黒川隆夫:ノンバーバルインタフェース, オーム社(1994).
[呂 94]
呂, 吉坂, 神谷, 一色, 宮井 :人体の動作を利用した擬人化エージェントに対する考察 -- モジュール型人体動作生成とその応用について -- , 情報処理学会 ヒューマンインタフェース 研究報告 54-6, pp. 41-48(1994).
[Nagao 94]
Nagao, K., Takeuchi, A. :Speech dialogue with facial displays: Multimodal human-computer conversation, Proc. ACL-94, pp. 102-109(1994).
[長尾 96]
長尾確:インタラクティブな環境をつくる, 共立出版(1996).
[Nagaya 96] Nagaya, S., Seki, S., Oka, R. :A theoretical consideration of pattern space trajectory for gesture spotting recognition, Proceedings of the International Conference on Automatic Face and Gesture Recognition, pp. 175-182(1996).
[西本 96]
西本, 志田, 小林, 白井 :マルチモーダル入力環境下における音声の協調的利用 --音声作図システム S-tgif の設計と評価, 電子情報通信学会論文誌, D-II, Vol. J79-D-II, No. 12, pp. 2176-2183(1996).
[新田 97]
新田, 長谷川, 秋葉, 神島, 栗田, 速水, 伊藤, 石塚, 土肥, 奥村:論争支援マルチモーダル実験システム MrBengo, 電子情報通信学会論文誌, D-II, Vol. J80-D-II, No. 8, pp. 2081-2087(1997).
[Pavlovic 97]
Pavlovic, V. I., Sharma, R., Huang, T. S. :Visual Interpretation of hand gestures for human-computer interaction: a review, IEEE Trans. PAMI, Vol. 19, No. 7, pp. 677-695(1997).
[坂本 94]
坂本, 綿貫, 外川 : マルチモーダル対話解析, 人工知能学会研究会資料 SIG-SLUD-9401-6, pp. 39-46(1994).
[Stork 96]
Stork, D. G., Hennecke, M. E.(ed):Speechreading by humans and machines, NATO ASI Series, Springer(1996).
[末永 92]
末永, 間瀬, 福本, 渡部 : Human Reader : 人物像と音声による知的インタフェース, 電子情報通信学会論文誌, D-II, Vol. J75-D-II, No. 2, pp. 190-202(1992).
[高橋 94]
高橋, 関, 小島, 岡 :ジェスチャー動画像のスポッティング認識, 電子情報通信学会論文誌, D-II, Vol. J77-D-II, No. 8, pp. 1552-1561(1994).
[竹林 94]
竹林洋一 :音声自由対話システム TOSBURG II−ユーザ中心のマルチモーダルインタフェースの実現に向けて−, 電子情報通信学会論文誌, D-II, Vol. J77-D-II, No. 8, pp.1417-1428(1994).
[田村 95]
田村秀行, 池田克夫(編)知能情報メディア, 総研出版(1995).
[Vo 93] Vo, M. T., Waibel, A. :Multimodal human-computer interaction, Proceedings of International Symposium on Spoken Dialogue, pp. 95-102(1993).
[吉岡 97]
吉岡, 荒井, 管村, 嵯峨山 :音声認識機能を含むマルチモーダルインタフェースをもつ住所入力システムの開発と評価, 電子情報通信学会論文誌, D-II, Vol. J80-D-II, No. 5, pp. 1007-1015(1997).

 

【次へ】