講演者: 田中穂積講師
採録者: 幹事
1 自然言語処理研究の概観
自然言語理解の研究は古く、1970年代にはタイプライタでロボットへの指示を入力していた。近年はコンピュータグラフィックス技術や音声認識技術の著しい進展の影響を受けている。
自然言語理解と行動を結びつける研究は、まだ数少ない。知る限りでは、研究者はStanford大学のBarbara Hayes-Rothくらいである。
このような研究が重要となった背景には、人間を取り巻く環境において、現実空間よりも仮想空間のなかで過ごす時間が増大していることがある。人間にとって使いやすいインタフェースを提供するためには、言葉の取り扱いが不可欠であり、そのための鍵となる技術が自然言語理解である。
自然言語理解は、従来は機械翻訳を中心に適用され、商品を生み出してきた。この場合の理解は、「浅い」水準といえる。
一方、「深い」理解においては、「これ」のような照応、語の省略、あいまい性などを取り扱う必要がある。文脈、状況、言語行為などを考慮しないと、「暑い」という発話の裏にある「水をくれ」という要求は認識できない。発話と行動が密接に関連しており、課題は難易度が高く、基礎研究の段階である。
2 自然言語理解システム「傀儡」
自然言語理解のプロトタイプシステム「傀儡」は、言葉による指示によって、コンピュータグラフィックスで生成したアニメーションの制御を行う。音声認識には、日本アイ・ビー・エムのViaVoiceを使用している。計量言語学、コンピュータグラフィックス、ロボット工学、認知科学などの学際領域の研究である。
エージェントとして、雪だるま、ウマ、ニワトリ、カメラの4種類が登場する。カメラ自身がエージェントである点は、特徴のひとつである。「それを押して」といった照応、「もうちょっと」といった省略、「左」と命じたときに話者からみて左なのかエージェントの左なのかといった相対的な位置関係、などを取り扱うことができる。
「傀儡」の課題としては、エージェントが自律していないため、個性をもっていないことがある。例えば、ウマはニワトリを押せるがニワトリはウマを押せないことは、エージェントの個性ではなく、全世界を知っている神のような存在の知識として記述されている。また、カメラに対して「左」と命じたときは、ある対象を画面に入れたいという意図が考えられるが、現在は考慮されていない。
イントネーションなど発話付随音声現象や、身振り手振りといった非言語的意思疎通の考慮、さらにエージェント自身に発話させることも、今後の課題である。哲学の研究者からは、アイコンタクトをしないことが不自然であるとの指摘を受けた。音声認識、自然言語処理とも、文法的に不適格な表現を扱うため、計算量が膨大となり、課題の解決は容易ではない。
3 学術創成研究「言語理解と行動制御」
日本学術振興会の科学研究費補助金による学術創成研究「言語理解と行動制御」は、2001年度から2005年度までの5年間のプロジェクトである。大学の研究者25人が参加しており、3つの研究グループに分かれている。
台本にしたがってアニメーションを制作するデモンストレーションを紹介する。動作の立案は2段階に行われる。巨視的な立案によって、「部屋から出る」といった言語表現が、「扉のところに行く」、「鍵を開ける」、「取っ手を回す」といった基本動作の並びに分割される。微視的な立案によって、基本動作がアニメーションに対応づけられる。基本動作とアニメーションの対応は、一意ではない。学生に「カップをつかめ」と言ったところ、実にさまざまなつかみかたをした。類似の研究には、日本放送協会放送技術研究所の林正樹による、テレビ番組記述言語TVML(TV
program making language)がある。
自然言語理解と行動を結びつける研究には、コンピュータグラフィックスから実際のロボットまで、さまざまな応用が考えられる。医療システムに応用し、胃カメラを遠隔操作すると面白い。また、将来はすべて「耳」の機能をもつであろう、情報家電への応用も考えられる。「切れろ」と言ったとき、すべての家電のスイッチが切れては困る。
講師がプログラム言語Schemeで作成したデモンストレーションを紹介する。登場するエージェントは、種類は「傀儡」と同じであるが、自律しており、自分にできる動作を知っている。命令はすべてのエージェントに伝えられ、各エージェントが自分に対するものかどうかを判断する。デモンストレーションでは、音声認識と自然言語処理は別に行われたものと仮定しており、「対象」と「動作」を入力する。例えば、ウマを対象に「走れ」と入力すると、ウマが走り、雪だるまとニワトリはそれを眺め、カメラは全体を撮影しつづける、といった動作が、各エージェント独自の判断によって行われる。「対象」は、指定しないときには省略する。「走れ」とだけ入力すると、ウマとニワトリが走る。雪だるまは、走れないという属性をもたされているため、自分に対する命令ではないと解釈する。
奈良先端科学技術大学院大学の受付案内ロボットAskaは、身振りを行う。来客のほうを向いてアイコンタクトを行い、「後ろです」と答えるときは、後ろを指さす。
4 質疑応答および意見交換
ロボットが対話している相手の位置を知る方法には、2本のマイクを使って音だけで定位する方法と、画像認識を併用する方法がある。マイクはロボットに装着されないことが多い。自分の動作音をひろってしまい、その除去が難しいためである。ソニーのAIBOのようなペット型ロボットにあまり高度な音声認識ができないのは、この理由による。日本電気のPaPeRoは、最もうまくマイクから音をひろうが、1メートル以内で話さないといけない。
音声認識にしろ、自然言語理解にしろ、何をもって「理解」したと判断するかは難しい。例えば、音声認識において、音声を文書に変換しても、理解したことにはならない。理解の結果として行動を起こさせることによって、理解したとかどうかが直感的にわかりやすくなった。
受付案内ロボットのように、言語と行動を併用して回答する場合、両者の適切なバランスを動的に変化させることは、非常に難しい課題である。
想定される質問や命令に対しては、ロボットはある程度まともな対応ができるようになってきた。しかし、予想外の事態に対しては、デフォルトの反応を用意するぐらいしかできない。既知の事態と照合し、どれが近いかを判断するような機構も必要であろう。
ロボットの回答を相手の人間がどれくらい理解したかを判断し、それに応じて回答を変えるような、利用者モデルの研究も行われている。