インターネットのようなワールドワイドな情報発信と受信の基盤が整いつつあることが背景にあり、情報空間あるいは情報世界という考えが生まれている。これは、電子メールや電子掲示版、さらに電子図書館のような、コンピュータネットワークを用いて、情報をやりとりしたり、蓄えたり、加工したりする環境である。つまり、情報世界とは、人間が実世界とは異なる、ある意味で間接的な様式で関わりを持つ世界である。
将来、人々が実世界から情報世界に活動の幅を広げていくことになると、その両者を結び付け、実世界での生活に情報世界での活動をうまく反映させてやることが必要になってくるだろう。
本稿では、そのような試みの例として、拡張現実感と、筆者の提案するエージェント拡張現実感について述べる。
拡張現実感(augmented reality)とは、もともとは仮想現実感から派生した研究領域で、実世界の映像に仮想的な物体の映像を重ね合わせるという発想に由来している。拡張現実感の研究は、透過型ディスプレイを用いて実世界の映像に仮想世界のCG映像を重ね合わせることから始まっている。このような考えは、1968年のSutherlandによる戦闘機のコックピットの研究[13]にまで遡ることができる。
また、仮想現実感に immersion 型(Head-Mounted Displayを使って、仮想世界に没入するタイプ)の他にfish-tank型(水槽を覗くように、実世界からディスプレイに写った仮想世界を見ているタイプ)があるように、拡張現実感にも、透過型ディスプレイを使って実世界に情報世界を映像として重ねる以外の方法が考えられる。
そのアイディアは、より一般的な情報の重ね合わせ、あるいは、情報提示の同期による相互補完という方向に発展してきている。たとえば、カーナビゲーションのような形態である。
カーナビゲーションシステムは、実世界における現在位置と地図(情報世界)上の現在位置の間に常に関連を持たせ、現在位置とユーザーの目的に関連のある情報を提示することができる。このようなシステムは、実世界を情報的に拡張しているという意味で一種の拡張現実感と言える。
さらに、筆者はいわゆるソフトウェアエージェントの技術[5、20]を用いて、拡張現実感のアイディアを発展させている。それをエージェント拡張現実感(agent augmented reality)と呼ぶ[8]。それは、エージェントの自律性や能動性を、拡張現実感の機能である実世界の認識や状況依存の情報処理に導入して、より広範囲な情報サービスに応用しようという試みである。例として、買物支援や道案内(と現在位置周辺の情報案内)という、日常生活に密着したものがある。
エージェント技術を使って情報サービスをするシステムには、たとえば、ジェネラルマジック社のテレスクリプトがある[19]。テレスクリプトは、分散された処理環境にプログラムを転送し、実行させる仕組みで、テレスクリプト言語というプログラミング言語で書かれたプログラムをエージェントと呼んでいる。プレースと呼ばれる処理環境はテレスクリプト言語のインタープリタで、複数のエージェント間のメッセージ交換をサポートしている。
エージェント拡張現実感は、エージェントプログラムに実世界の状況認識能力を持たせ、人間とのインタラクション、また他のエージェントとのコミュニケーションを可能にして、ユーザーの実世界状況に依存した情報サービスを行なう枠組である。
以下では、拡張現実感とエージェント拡張現実感についてそれぞれ解説し、その技術と実例を紹介する。
拡張現実感は、仮想現実感と異なり、現実世界に立脚した情報処理を目指すアプローチである。もともとは、透過型ディスプレイを利用して現実と仮想のオブジェクトを重ね合わせるという研究から始まっているが、実世界を情報的に拡張するという、より一般的なアイディアに発展している。その背景として、インターネットによる情報世界の拡大や、モーバイルあるいはユビキタス・コンピューティングという、日常生活の中にコンピュータを融け込ませようとする技術の進展がある。
今後、コンピュータが小型化し、それを身に付けるなどして、常に携帯するようになると、人間が今どんな場所で何をしているのか、これから何をしようとしているのか、に依存して情報を提供してくれるシステムが望ましくなるだろう[25]。たとえば、ある人がある場所に行こうとしてある駅にいるとき、それを認識して、今乗るべき電車の発着場所や発車時刻を教えてくれる、という具合である。
拡張現実感の機能としてはさまざまなものが考えられるが、筆者の考えるその代表的なものは以下の通りである。
基本となる技術は、実世界認識技術、状況に依存した情報処理技術、情報表示技術である。状況に依存した情報処理の実現法として、ユビキタス・コンピューティングとモーバイル・コンピューティングがある。
比較的単純なやり方でユーザーを取り巻く状況の認識を行なうことが拡張現実感を実現する一つの近道である。そのような技術には、機械可読な認識タグを用いて実世界の対象を認識するためのID認識の技術、また絶対位置や相対位置に基づいてユーザーの環境を推定する位置認識の技術などがある。
ID認識 実世界の対象に認識タグを添付し、それにエンコードされたIDを認識することによって、その対象に関連する情報を呼び出すことができる。IDのエンコードのやり方はさまざまであり、主なものでは赤外線やバーコードを用いるもの、電磁誘導方式による非接触の認識タグ(コイル状のもの)、またスマートカードのようなバッテリー不要のICチップを用いるものなどがある。ID認識を利用した例として後述のNaviCamがある。
位置認識 3次元の位置計測も実世界状況を知る有力な手段である。これには、室内の限られた範囲のような狭い領域ではPolhemus社の磁気センサーやジャイロセンサーなどが利用可能である。
また、より大規模で汎用の位置計測システムが衛星を使ったGPS(Global Positioning
System)である。現在のGPSの精度は、誤差範囲が半径約100メートルであるが、ディファレンシャルGPSという、地上の固定局による補正情報を用いる手法により数メートルの精度にまで高めることができる[24]。
また、GPSの使えない(衛星の電波の届かない)屋内などでの位置認識には、PHS(Personal
Handyphone System)の各基地局の位置情報を利用できるかも知れない。あるいは、さまざまな場所に、赤外線などによって場所を表すIDを発信する装置を埋め込んでおき、携帯型システムがそれを受信することによって自分の位置を知る、というID認識を位置認識に利用するやり方も考えられる。アクティブバッジと呼ばれるシステムは、これに近い発想で、個人が身に付けているバッジが自分のIDを発信して、コンピュータが埋め込まれた環境側にユーザーの存在を知らせるという仕組みになっている[16]。
拡張現実感の最も重要な点は、実世界状況に依存した情報処理が行なえるということである。これは、人間が日常的に直面する状況にコンピュータの注意を向けさせてやろうという試みであり、ヒューマンインタフェース研究の流れを大きく変えるアイディアである。そのためのアプローチは大きく分けて2つあり、1つはユビキタス・コンピューティングで、もう1つはモーバイル・コンピューティングである。
日常環境そのものをインテリジェント化するもので、ユビキタス・コンピューティングと呼ばれている。もう1つは、携帯型システムが環境に埋め込まれた何らかの手がかりに基づいて、その個人の状況に合った情報処理をするというモーバイル・コンピューティングである。
ユビキタス・コンピューティング 実世界状況に依存した情報処理の実現法の一つに、Xerox
PARCのWeiserの提唱するユビキタス・コンピューティング(ubiquitous computing)がある[17]。これは、日常的な空間の至るところにコンピュータを忍び込ませ、人間の知的活動をサポートするという考えである。
実世界のさまざまな場所に埋め込まれたコンピュータは、それぞれが今どこに置かれているかを知っていて、人間がその場所でどのような情報処理を行なっているかを知っていれば、人間の行動に合った適切な振舞いをすることができる。このようにユビキタス・コンピューティングでは、コンピュータを実世界にばらまくことによって、パターン認識などの人工知能の技術を導入することなく、状況に依存した高度な情報サービスを提供することができる。
前述のアクティブバッジは、人間が常時携帯(服に張り付けるなど)して、その個人のIDを常に環境に発信している。
個々のバッジは、ある建物の中に置かれている装置に対して、本人の身分証明をすることができ、正当なバッジを付けている時にしか開かないドアや、名前を呼んで挨拶してくれる部屋や、どこにいても、その人のいるところにかかってくる電話や、その人の好みを反映した、娯楽などの情報サービスを実現することができる。
東京大学の坂村らのトロンプロジェクト[11]は、ユビキタス・コンピューティングとほぼ同様のアプローチで環境をインテリジェント化することを考えている。ただしこれは、拡張現実感を実現しようとする試みというより、日常的な電子機器に埋め込まれたコンピュータのCPUや操作仕様から、パーソナル・コンピュータのOSやGUIに至るまでの広範囲なコンピュータの利用環境に一貫性を与えようという試みであり、まだ社会的インパクトをもたらすには至っていないと思われる。
モーバイル・コンピューティング モーバイル・コンピューティング(mobile
computing)は、移動コンピュータや無線ネットワークを含む分散コンピューティング環境を目指すアプローチである。それには、移動コンピュータや無線ネットワークに適したOSやネットワークプロトコル[15]の研究が含まれている。ここでは、モーバイル・コンピューティングのアプリケーションに焦点を当てて説明する。
モーバイル・コンピューティングに基づく拡張現実感システムは、携帯型のシステムが実世界の状況認識を行ない、さらに無線ネットワークを通じて関連情報にアクセスするという形態が考えられる。後述するウォークナビはそのようなシステムの一例であり、携帯型のコンピュータがGPSや赤外線によりユーザーのいる環境を知り、移動体通信を使ってインターネット(World
Wide Web)にアクセスし、ユーザーの位置に合った情報案内を行なうことができる。
ユビキタス・コンピューティングと比べた場合の、モーバイル・コンピューティングの利点には、たとえばプライバシーの保護があるだろう。ユビキタス・コンピューティングでは主に環境側が情報処理を行なうので個人情報が環境に遍在してしまう可能性がある。それに対してモーバイル・コンピューティングでは、特定のユーザーに密着した携帯型コンピュータが主体となって情報処理を行なうので、個人情報をできるだけ外に漏らさないようにすることができるため、個人情報を使って積極的にカスタマイズする、システムのパーソナライゼーションが実現できる。
拡張現実感における情報提示のもっとも基本的なものは、実世界映像とCG映像を重ね合わせるオーバーレイという手法である。その他に、画像や音声などの複数のコミュニケーションチャネル/モダリティを有機的に統合するマルチモダリティという手法がある。
オーバーレイ Rank XeroxのWellnerらによるデジタルデスクというシステムでは、通常の机にコンピュータの画面をプロジェクターを用いて投影することにより、紙などの実世界の対象と情報世界の対象を重ね合わせるという手法を用いている[18]。机の状態の認識にはカメラを用いる。これによって、(1)紙に書かれた単語を指さすと辞書引きして、その内容を紙の近くに表示する、(2)表に書かれた数字の列を指でなぞると、その合計を表示する、(3)普通のペンで書いた図形をコピーして他の位置に表示する、などの操作が実現できる。
オーバーレイの他の例としては、日立で開発されたオブジェクト指向ビデオがある[14]。これはビデオ映像にグラフィックオブジェクトをスーパーインポーズするもので、ユーザーは重ねて表示されたグラフィックオブジェクトを直接操作することで実世界の対象そのものを操作できる。具体的には実世界の対象は、工場における制御装置で、オペレータがその装置のビデオ映像を選択すると、対応するグラフィックのコントローラが重ねて表示される。その映像は制御装置が操作されている状況とその効果を、実世界映像とコンピュータ画像を巧みに利用して表示している。同様に、ビデオ映像とスーパーインポーズを利用して情報提示するシステムに後述するSony
CSLのNaviCamがある。
また、古くから研究が行なわれている、透過型ディスプレイを用いて実世界の視覚的状況に情報世界の内容を重ねるやり方もオーバーレイの一種と言える。これの代表的な例は、ノースカロライナ大学のBajuraらによる医療支援のシステムである[1]。これは、妊婦の腹部に、超音波によって得られた胎児の映像をスーパーインポーズして表示するもので、擬似的に医師に患者の体を透視する能力を与えていることになる。同様の例に、コロンビア大学のFeinerらによるKARMAというシステムがある[3]。これは、プリンターの保守のためのシステムで、プリンターのスイッチやトレーの動かし方などを示すために、透過型ディスプレイを使ってCG画像をスーパーインポーズする。このシステムは、ユーザーの顔の向きから得られる視点に基づいて、提示すべき情報を自動的に生成するための知識ベースを用いている。
マルチモダリティ 当然ながら、視覚的に情報を統合する以外にも実世界を拡張する情報を提示することができる。その代表的な例が、統合された複数のモダリティ(modality)を用いるマルチモーダルインタフェース(multimodal
interface)である。モダリティとは、視覚、聴覚、触覚などの感覚(sense)を用いて外界を知覚するやり方であり、またそのような感覚に働きかける情報伝達のやり方である。
後述するSony CSLのショップナビとウォークナビでは、画像情報と音声情報を連動させ、相互の情報の補完を行なっている。これには、ある種の冗長性が含まれるが、ユーザーが注意を払う情報の受信手法をあらかじめ限定しておくよりも、ユーザーがその場の状況に応じて自由に注意の置きどころを選択できる方がよいであろう。その意味では、モダリティ間の適度の冗長性は不可欠のものとなる。
ちなみに、マルチモーダルインタフェースに関しては、筆者の他の解説[22、21]があるので、合わせて参照していただけると幸いである。
拡張現実感の研究レベルでの実現例について述べる。
前述のユビキタス・コンピューティングの応用例として、Rank XeroxのLammingらによって開発されたのが、Forget-me-notと呼ばれる個人情報管理システムである[6]。ParcTabと呼ばれる携帯型システムは赤外線で常にIDを送信している。それによって、その個人の行動履歴を自動的に作成することができる。たとえば、電話を使った場合、電話に内蔵されたコンピュータがParcTabからのIDを受けとり、誰がいつどこに電話をかけたかを記録する。また、どの部屋でいつ誰と会ったかなどの記録も、相手がやはり自分のParcTabを持ち、部屋に内蔵されたコンピュータがIDを受け付けることで処理される。それらの記録は、その個人のデータベースに集計される。また、電子化された文書を他人に渡す場合も、文書固有のIDを渡し、IDを使ってどこからでもその内容を取り出せるようにしておけば、いつ誰にどんな文書を渡したかという記録も簡単に残すことができる。
このシステムの重要な点は、自分の行動履歴に依存した情報の問い合わせや操作を、時間をキーにすることによって容易に行なえるということである。これは、人間の記憶を間接的に拡張しているという意味で、筆者の考える拡張現実感の重要な一つの機能を実現していると言うことができる。
トロント大学のFitzmauriceによって開発されたChameleonは、空間位置センサーを装備した携帯型システムである[4]。これは、実世界における位置に依存した情報を表示するインタフェースで、例として、壁に貼った地図の前で、特定の場所の近くにChameleonを持っていくと、その場所に関連した情報が表示されるという、アクティブマップと呼ばれるものがある。Chameleonは機器そのものの実世界における位置を重要な入力手段の一つと捉え、それに依存した情報処理を行なうという点で、やはり拡張現実感の一つの重要な機能を実現している。
Sony CSLの暦本によって開発されたNaviCamは、小型のビデオカメラを装着した携帯型ディスプレイを持ち歩くタイプの拡張現実感システムである[10]。ビデオカメラからの映像はリアルタイムにワークステーションに取り込まれて処理される。実世界状況の認識を容易にするために、実世界の対象にカラーコード(赤と青のストライプによってIDをエンコードしたもの)を添付する。このカラーコードによって複雑な認識技術を用いることなく、実世界の状況や対象を同定することができる。
システムは、カメラから得られた映像の上に、認識したカラーコードに従って生成されたメッセージ(テキストやグラフィックス)を重ねた画像を合成する。生成された画像は液晶ディスプレイによってユーザーに提示される。画像認識を含む処理は、NTSC信号とビットマップ画像の変換以外はすべてソフトウェアで行なっており、毎秒10フレーム程度の頻度で画像を更新している。
たとえば、壁にかけられたカレンダーの前にNaviCamを差し出すと、ディスプレイにはカレンダーの映像の上にデータベースから得られたスケジュール情報がスーパーインポーズされる。これは、虫めがねのメタファーを利用した情報アクセスと言える。NaviCamは実世界の対象を「情報的に」拡大して表示することができる。
エージェント拡張現実感は、拡張現実感にエージェント指向の技術を統合するアプローチで、実世界を認識するエージェントによってユーザーのいる世界と情報世界を密に統合しようという試みである。
エージェント指向インタフェースに拡張現実感のアイディアとその技術を統合することによって、実世界状況を認識しユーザーの意図を暗黙的に理解して、情報世界を動き回って適切な情報を検索するシステム、あるいは実世界状況に依存したタスクをユーザーに代わって遂行するシステムが考えられる。これを、実世界エージェント(real world agent)と呼ぶ[8]。
たとえば、電子メールの管理を行なったり、インターネット上の情報検索を行なうエージェントシステムは、すでにいくつか実現されている[7、2]。ただ、それらの研究では、ユーザーの目的や意図を伝達する手法、つまりヒューマン・エージェント・インタラクションに関する手法には、まだ十分に注意が払われていないと思われる。筆者が以前に関与していた擬人化エージェントの研究では、人間同士が対面式のコミュニケーションにおいて用いるようなバーバルなモダリティとノンバーバルなモダリティを統合して、人間とエージェントとが円滑なコミュニケーションを行なえるようにする試みを行なっていた[9]。しかし、擬人化のための技術が不十分なことや、考慮すべき心理学的・社会学的要因が非常に多いために、まだまだ効率的な意図の伝達を扱うには至っていない状態である。
実世界エージェントは、実世界認識という新たなモダリティを用いることによって、ユーザーの意図をより容易に認識することができるため、人間とのインタラクションを大きく改善できる可能性がある。
つまり、人間とエージェントが環境や状況を共有していることを暗黙的に理解できる場合には、言葉のようなあいまいな情報伝達手段が有効になると思われる。実世界エージェントは、人間のいる状況、その人間の習慣・興味などを知った上で、言葉を理解する。人間はエージェントがそういったことを知ってくれていることを前提として、安心して言葉を使うだろう。たとえば、実世界エージェントは、本や本棚といった対象物を認識するとそれに対して人間が聞いてくると思われる質問を想定して、そのための文脈を用意してから、人間の言葉を認識する。もし本を見ながら「この本の著者はどんな人?」などと聞いた場合には、「この本とはどの本のことですか?」などという余計な事を聞かずにちゃんと答えてくれるだろう。また、その人間の好みを知っていれば、その人に合った本を本棚が紹介してくれる、ということも実現できる。
また、実世界エージェントの重要な機能の一つとして、システムの挙動がユーザーの習慣や嗜好のような個人情報に依存して決まるというパーソナライゼーション(personalization)がある。これは単に提示すべき情報の内容やタイミングを決めるのに役立つだけではなく、エージェントが自分の遂行すべきタスクやその実行のタイミングを決定することにも利用されるだろう。
たとえば、街中を歩いていて、突然ハンバーガーを食べたくなったときに、そう発話すると、エージェントがユーザーのお気に入りのハンバーガー屋をその付近において探索し、発見するとユーザーが習慣的に注文しているものを前もってその店に伝達する、という具合である。このとき、ユーザーがその店に到着する推定時刻も同時に伝達する。これは、たとえばWWW(World Wide Web)において情報を提供し、オンライン注文などのサービスを行なっている店のみで利用可能であるが、それが将来、より一般的になるであろうことは十分に予測できることである。
このようなパーソナライゼーションを行なうことには、プライバシーの問題が伴う。つまり、個人情報を使ったカスタマイズは、個人情報を外部に漏らしてしまう可能性がある。これに関してはかなり慎重に設計する必要がある。たとえば、お店が宣伝用のエージェントを個人に向けて派遣し、その個人と対話してその人向きの情報を提供するときは、ある程度その人の個人情報を参照することになる。このときお店のエージェントが個人情報を持ち帰らないように、その場で消滅してしまうように設計することができるだろう。
以下で、筆者らの試作した、エージェント拡張現実感に基づくシステムを紹介する。一つは、ショップナビと呼ばれる個人の買物支援のシステムで、もう一つは、ウォークナビという歩行者のためのナビゲーションシステムである。いずれも、試作段階であるが、近い将来に十分に利用可能になるであろうアイディアを多く含んでいる。
たとえば、今日の料理の食材をスーパーマーケットに行って買う場合、物理的に見て選べるのだから情報は特に必要ない、ということはないだろう。一見同じようでも、産地が違ったり、味が違ったり、製造日が違うということがあるからである。もし、製造元からの情報があれば、より自分に合ったものを選択できるだろう。ただ、そういう情報はモノにうまく結びついていないと役に立たない。つまり、情報と現実のモノとの結びつきが肝心なのである。
また、買物というのは個人的な情報に強く依存している。その場合の個人情報には、何を食べたいかとか、いくらまでお金を使うか、などが含まれている。そのような個人情報と商品、店、製造元などの分散された情報を結び付けるために、エージェントの技術が役に立つ。実世界エージェントは人間が今何を見ているか、何に興味があるのか、などを認識して情報を検索することができる。
エージェント拡張現実感に基づくこのシステムをショップナビと呼ぶ。ショップナビは、エージェントがユーザーの見ている方向や対象を認識して、店内と商品の情報案内を、音声、テキストとグラフィックスを用いて行なうシステムである。図3.3-1はこのシステムを使って、ある商品(牛肉)とインタラクションしようとしている様子を、図3.3-2はその商品から得られた調理例(すきやき)の情報が携帯型ディスプレイ上に表示された状態を示している。
このシステムは、個人情報と店の情報と商品の情報を組み合わせてユーザーをサポートする。予算は個人情報であり、この上限をエージェントが常に意識してくれている。ちょっと高い肉を買おうとして予算をオーバーしそうになると注意してくれる。それでも買いたい場合は、エージェントに言って、個人情報を更新することができる。また、すきやきを作ろうと思ったら、家にはどんな材料が残っているかを調べてくれ、何を買えばいいのかを買物に行く前に教えてくれるだろう。また、店と情報をやりとりして、これこれのものが安いですよ、と言ってくれる。また、商品に付けられたバーコードによるIDから、エージェントがその商品を認識するとその店の管理する(パブリックな)データベース、あるいは、ネットワークを通して製造元のデータベースなどの情報世界にアクセスして情報を取ってくることができる。将来的にはお金のやりとりも無くなるだろう。近い内に通常の貨幣に取って代わると言われている、電子マネーあるいはデジタルキャッシュによって、知らない間に清算されているということも考えられる。
ショップナビは、場所や見ている方向を認識するために3次元位置センサーを、また、対象を認識するために電磁誘導方式のタグとその認識装置を利用している。電磁タグはバーコードと違って印刷ではないので、その表面が外に見えていなくても構わない。タグ用のセンサーが近づくだけでIDを読みとることができる。将来的には、このようなタグシステムは、一般に普及して、バーコードに取って代わるだろうと言われている。それによって、近い将来に、商品をカートにいれてゲートをくぐると、値段が集計されて電子マネーで自動的に支払われる、ということが可能になるだろう。このような、機械が容易に読み取れる方式のIDをモノに貼り付けるやり方は、実世界と情報世界をつなぐために十分に利用できる。
ショップナビには複数のセンサーが使用されているため、携帯システムとワークステーションをつなぐケーブルがいくつか存在するのだが、将来的には無線を使うことになるだろう。さらに、処理のプログラムのほとんどの部分は、携帯システムの内部で実行されなくても構わなくなるかも知れない。携帯システムが行なうのは、たとえば、ユーザーの声をデジタル信号に変換し、声の信号やタグの信号を含むセンサー情報をエージェントに託してネットワークに流し、ネットワークから得られた情報を特別な加工を行なわずに提示する、などの比較的単純な処理だけになると思われる。人間は、その程度のことができる小型で軽量のシステムを持ち歩けばよいようになるだろう。店内にいるときは店で大部分の情報処理をしてもらって、その結果をもらってくる、というような仕組みになると思われる。
ウォークナビは、GPSを使って、ユーザーの現在位置を認識して、音声などから認識されたユーザーの意図に従って、位置に関連する情報をWWW(World Wide Web)から検索し、ナビゲーションや情報案内を行なうシステムである[23]。
図3.3-3はこのシステムの使用風景を、図3.3-4はナビゲーションのための地図と写真によるランドマークが示された状態を示している。
(1)ウォークナビの構成
ウォークナビは、位置認識、音声対話、情報表示、移動体通信を行なう携帯型システムと、位置情報(緯度/経度)とWWWのURL(Uniform Resource Locator)を関連付けるWWW地理情報サーバー(Geographic WWW Server)から構成される。
ウォークナビのシステム構成は、図3.3-5のようになっている。
位置認識 GPSによって得られた緯度/経度情報と電子化された地図から、自分が現在いるエリアを計算する。ただし、GPSの精度は、現在のところ最大誤差が半径100メートルなので、それだけでは正確な位置を知ることはできない。そのため、何らかのランドマーク情報が赤外線によるIDやユーザーによって与えられた場合、それを用いて現在位置を補正することもできる。将来はディファレンシャルGPSなどの技術を用いることも可能であろう。
音声対話システム 携帯型システムにおけるユーザーの主な入力手段は音声である。これは、歩きながらの入力においては適切であると考えられる。また、システムからの出力は音声とテキスト及びグラフィックスである。テキストとグラフィックスは小型の液晶ディスプレイに表示される。これは、音声出力が記憶に残りにくいので、音声と同じもしくは一部の内容をテキストによって同時に表示する必要があるためであり、さらに、現在位置を表す地図情報や目印となる建物などの情報を直感に合うようにビジュアルに表現するためである。
音声認識や自然言語処理のモジュールは、位置認識のモジュールによって制約を受け、状況に合った辞書や知識ベースが選択される。
WWW地理情報サーバー WWW地理情報サーバーは、緯度/経度(あるいは住所)とURLを関連付けることができる。携帯型システムは、移動体通信を使って、この地理情報サーバーにアクセスし、位置情報に依存して、関連URLを検索することができる。URLを登録するとき、何らかの索引(カテゴリー情報)を付与することができ、それを用いて検索効率を上げることもできる。
WWW地理情報サーバーは、任意のユーザーが自発的に地理情報とWeb情報を関連付けて登録できるものであり、また緯度/経度情報が与えられれば、誰でも自由にその周辺位置に関係のあるWeb情報を検索し、アクセスできるというものである。
図3.3-6は、WWW地理情報サーバーの画面例である。
WWWのオープン性は大きなポテンシャルを秘めている。たとえば、特定地域のローカルな情報はその地域の住人によって発信されるものの方が、情報提供を行なう組織が収集して公開する情報よりも、概して信頼性が高く、速報性もある。また、タウンページのような静的な情報と比較して、WWW上の情報は常に変化するのが特徴である。つまり、イベント情報など、時間とともに変化する情報をうまく提供することができる。したがって、WWW地理情報サーバーは、オープンで動的な知識源であるWWWと実世界を結び付けるために、実世界における位置(緯度/経度)と情報世界における位置(URL)を関連付ける重要な役割を果たす。
また、URLに地理情報を関連付けることは情報のフィルタリング技術としても有効であると考える。なぜなら、今後WWWには、ショッピング情報やレストラン情報など、現実世界のサービスと密着したものが普及していくと予測できるが、キーワードなどによる検索では、意識的に候補を限定する条件を付けない限り、実質的に意味のない情報が大量に得られてしまうからである。この点で、位置情報を暗黙のフィルタリングの条件とすることによって、ユーザーの認知的負担を軽減し、より効率的にユーザーの意図を反映した検索が行なえるであろう。
(2)ウォークナビの機能
ウォークナビの主な機能は、ナビゲーションと情報案内である。その他には、実世界エージェントを使った予約機能が考えられる。
ウォークナビのナビゲーションは、カーナビゲーションの場合と異なり、「次の交差点を右に曲がってください」のような精密度の高いものではない。それは、GPSのみによる位置測定がそれほど高い精度を出せないことと、ユーザーが向かっている方向を認識できないためである。後者に関しては、電子コンパスを用いるという考えもあるが、とりあえず歩いている人の自由度を考慮したナビゲーションを考える必要がある。その一つの方法は、さまざまな方法でランドマークとなる目印の情報を提示して、ユーザーを目的地まで誘導するやり方である。「近くにレンガ色の高い建物がありますか?」のような質問をし、ユーザーがあると答えたときに、「そこまで行ってください」のように誘導するとか、ないと答えたときには、別の目印に関する質問をする、などである。また、写真を提示して、「この風景の見えるところまで行ってください」のように指示することもできる。これによってユーザーの位置と向きを同時にナビゲートすることができる。
ウォークナビの情報案内は、WWW上の情報検索を、位置情報と音声入力を考慮して行ない、検索結果を解析して、音声とイメージを使って提示することによって行なわれる。まず、GPSからの位置情報とWWW地理情報サーバーを使って、関連するURLを絞り込む。次に、URLの指すページの内容を自然言語処理の技術を用いて解析して、ユーザーの意図に合う情報が載っているかどうか調べる。このとき、地理情報サーバーにおいてURLに添付した索引情報が利用可能な場合は、それも用いる。たとえば、「この近くに、花屋はありますか?」のような質問がなされたとき、地理情報サーバーで調べたURLの内、花屋を示しているものが見つかったときは、それに関する情報を提示する。なければ、「半径Xメートル以内(Xは任意に設定できる)には花屋は見つかりません」のように応答する。また、複数見つかった場合は、ユーザーにさらなる絞り込みの条件を要求することができる。さらに、上で述べたナビゲーション機能によって、特定された場所への道案内ができる。
実世界エージェントを使った予約機能とは次のようなものである。たとえば、ユーザーがレストランに行こうとしていることをエージェントが認識したときに、ユーザーにそのレストランで何を注文するかを前もって聞いておき、ネットワークを通してレストラン(のエージェント)にその注文とユーザーが到着する推定時刻を伝達するというものである。これは、実世界状況の認識によって、できるだけ暗黙的にユーザーの意図の候補を絞り込んで、意図認識をより容易に行ない、エージェント間のコミュニケーションを現実のサービスに結び付けようという試みである。
ユーザーの発話音声の理解や、Web上のコンテンツの検索などにおいては、自然言語処理の機能が不可欠である。これは、まだ発展途上の技術であるが、タスクやドメインを注意深く検討することによって、またキーワードやタグなどの表層的な情報を効果的に使うことによって、ある程度実用的なものを実現することが可能であろう。さらに、ウォークナビはコンテンツがなければ役に立たないが、WWWを情報源とすることで、ローカルで草の根的な最新の情報を利用することができるであろう。
実世界エージェントの抱える課題はおおむね次のようになるだろう。
1.に関しては、バーコードなどのIDやGPSによる位置などを使って実世界の対象や状況を特定し、それに何らかの形で情報世界へのアクセスポイントを関連づけることで一応対処できる。ただし、IDと情報内容が適切に対応づけられなければ意味が無いので、IDが無数に存在するようなときに破綻しないように、メンテナンスを効率良く行なう工夫が必要である。
2.に関しては、実世界認識が手がかりになって、人間の意図をより容易に認識できる可能性がある。ただし、状況が特定できたときに、どのようなインタラクションを行なうべきかは、タスクの性質や4のパーソナライゼーションも同時に考慮して設計すべきだろう。
3.に関しては、ユーザーの個人情報がエージェント間のコミュニケーションに有効に活かされる工夫や、6のプライバシーの保護を十分に考慮する必要がある。
4.は個人情報をどのように取得するかということである。これに関しては、ユーザーにプロファイルデータやスケジュールデータを事前に登録してもらうのがてっとりばやいが、それでは役に立たないこともある。ユーザーの繰り返される行動から何かを抽出したり、過去のインタラクションの履歴をうまく利用することも考えられる。強化学習や記憶に基づく学習などのメカニズムが利用できるかも知れないが、これは今後の課題である。
5.は4.で獲得した個人情報をどのように利用するかということである。情報検索や情報フィルタリングへの応用が最も有望であり、研究事例もいくつかある。ただし、過去の研究は主に個人のプロファイルデータが事前に与えられた場合を扱っており、個人情報の獲得と合わせて議論すべきであろう。
最後の6.は、これらの個人情報をエージェントが扱うことにより不都合が生じないための工夫の問題である。現在は、公開鍵暗号システムのような暗号化の技術が盛んに研究されているが、エージェントのような能動的なシステムを暗号や認証によって保護するだけでは不十分かも知れない。これらは、エージェントが日常的になればどんどん深刻化する問題であるから、できるだけ早急に柔軟で安全なアーキテクチャを考えるべきである。
以上、エージェントの応用に関する新しい方向性として、拡張現実感との統合によるエージェント拡張現実感について述べた。情報世界が身近になりエージェントのような自律的なインタフェースの必要性が高まってくることは疑いないことであるから、今後さらにこのような方向の研究が進むであろう。
携帯型コンピュータはますます小型化し、さらに何らかの状況認識機能を持つことになるだろう。また、日常的な電子機器に埋め込まれて見えなくなったコンピュータがユーザーの認識機能や通信機能などを持つようになると思われる。このとき、携帯・移動型と環境埋め込み型のコンピュータたちがエージェントの仲立ちによって相互に密に通信し合い、人間の生活をその状況に応じて支援することになるだろう。
そして、実世界エージェントは人間の心理的・生理的側面にも注意を働かせるようになると思う。たとえば、将来、腕時計には血圧や脈拍を測る仕組みが内蔵され、帽子には脳波や脳磁場の測定器が付けられ(注)、エージェントはそれらに基づき、ユーザーの心理状態を知ろうとするのである。たとえば、緊張しているとか、いらいらしているとか、落ち込んでいるとか、のような状態を感知すると、それを考慮して対応してくれるようになるだろう。
------------------------------
注)そんなものを携帯して常に動作させたら、現在の携帯電話をはるかに越える強力な電磁波が出て被害甚大だと思われるかも知れないが、同時に強力な電磁波シールドも発明されているだろう。
また、エージェント拡張現実感は人同士の結び付きを支援することにも貢献するだろう。たとえば、パーティなどの参加者の中で興味の一致する人をエージェントが情報世界において探しだし、ユーザーに知らせるのである。これによって、初対面の相手とも比較的楽に会話をすることができるようになると思う。また、電話で話そうと思ったときに、事前にエージェントに相手の都合(手が塞がっているとか、別の相手と話をしている最中だとか)をプライバシーを侵害しない程度に調べさせ、問題がなければ電話する、ということも可能になるだろう。エージェントはユーザーのプライバシーを守りつつ、他のエージェントからの問い合わせに答えて、必要に応じてユーザーの現在の状態を伝達するようになると思われる。
このように情報世界と人間を密につなぐエージェントによって、人間には新たな創造性が生まれ、人間同士には時間や空間を越えた強い絆が生まれると筆者は考えている。そのための準備を今から少しづつ始めていくべきだろう。
本稿で述べられている研究の内、筆者に関するものは、Sony CSLの暦本純一氏やその他の人々の協力のもので行なわれました。音声認識は電総研の伊藤克亘氏と速水悟氏によって開発されたものを使用しました。さらに、計量計画研究所の乾裕子さんと慶應義塾大学の早川由紀さんにはシステムの設計と実装に協力していただきました。ここに記して感謝いたします。
<参考文献>