【前へ】

3.12 アクティブオーディションを利用したヒューマンロボットインタラクションの高度化

3.12 アクティブオーディションを利用したヒューマンロボットインタラクションの高度化

中臺 一博 講師

3.12.1  はじめに

 近年、ヒューマノイドを代表とするロボットはAIのテストベッドなど研究目的としての利用にとどまらず、人間と知的なソーシャルインタラクションを行い、将来ロボットが “人間のパートナー”となることが期待されている。このような人間とのソーシャルインタラクションでは、人間のコミュニケーションの多くが音声に依存していることから明らかなように、聴覚は最も重要な機能の一つである。
 そうした状況では、ロボットは複数のイベントを同時に聞き分け、他の音声や自分自身が作り出すモータノイズを抑制して、混合音をうまく扱えるように音源分離機能を備える必要がある。この機能は、音源分離をフロントエンド処理とした音声認識にも有効である。
音源分離問題については音環境理解 (Computational Auditory SceneAnalysis、CASA)の分野で、様々なアプローチが取り組まれてきた。しかし、心理学的知見を利用した音源分離[11,17]、マイクロホンアレーを用いたビームフォーミング[3,18]、独立成分分析 (Independent Component Analysis、ICA)[19,9]、視聴覚統合による音源分離[16] など、そのほとんどはシミュレーション環境で行われており、実環境・実時間処理への配慮があまりされていない。実時間処理に関しては、2本のマイク間の強度差と位相差を利用した音声強調[2]が報告されているが、環境が既知であること、マイクや音源が静止していることが前提であり、ロボットへの適用は難しい。
 また、ロボットでの音声認識については、ロボット自身が動作時に発するノイズ問題から、動作中の音声認識は難しく、Sony AIBO のように“stop-perceive-act” 原理に従わざるを得ないか、部屋やロボット自身の影響による音声の伝達歪みや他の音源からのノイズの影響で、ロボットではなく話者の口元にマイクを設置している。
  アクティブオーディションはこれらの問題に対する解決の糸口を与える[14]。これは、人間や動物を見習って、アクティブな動作を積極的に利用してロボット聴覚を向上させるもので、ロボット動作時に問題となるノイズをキャンセルすることにより、これまで、実時間・実環境での音源定位・追跡、分離を報告してきた[13,14,15]。
 本報告では、音源定位・分離だけでなく、分離音の認識までを対象として、アクティブオーディションを利用したロボット聴覚システムを提案する。システムは、視聴覚を統合し正確に複数人物を定位・追跡する実時間人物追跡システム、フィルタの通過帯域を音源方向に応じてアクティブに制御し、分離精度を向上できるアクティブ方向通過型フィルタ(Active Direction-Pass Filter、ADPF)、分離音声に対し、複数の音響モデルを用いた音声認識結果を統合して認識率を向上できる音声認識システムからなっている。また、実際にシステムを2 本のマイクを搭載したロボットに実装し、その評価を行う。
 以降、3.12.2 章ではロボット聴覚システムについて述べる。3.12.3、3.12.4、3.12.5章では、ロボット聴覚システムを構成する実時間複数人物追跡システムによる音源定位・追跡、アクティブ方向通過型フィルタによる音源分離、および複数の音響モデルを利用した音声認識をそれぞれ説明する。3.12.6章でシステムを評価し、3.12.7章でまとめる。

3.12.2 ロボット聴覚システム

 アクティブオーディションを利用したロボット聴覚システムを図1に示す。システムは、ロボット(SIG)のカメラ、マイク入力から、音源が複数ありかつ動作している場合でも、ロボット自身のアクティブな動作、視聴覚の統合により、これらを定位・分離・認識することが可能である。システムは大きく3つのサブシステム「視聴覚を統合した実時間複数人物追跡」、「アクティブ方向通過型フィルタ(以後、ADPF)による音源分離」、「複数の音響モデルを使用した音声認識」からなる。以下にヒューマノイドSIGを紹介し、次章以降で各サブシステムを説明する。


図1 ロボット聴覚システムのアーキテクチャ

 

13.12.2.1 ヒューマノイドプラットホーム:SIG

 研究のテストベッドとして、上半身のヒューマノイドSIGを使用している。SIGは4自由度を有し、各モータには、ポテンショメータによって、位置制御、速度制御が可能なDCモータを用いている。また、音響的にロボットの内外を区別できるよう設計されたFRP製の外装を備えている。カメラには、左右の目の位置に一組のCCDカメラ (Sony EVI-G20) を、マイクには、計4本の無指向性マイク (Sony ECM-77S) を使用している。4本のマイクは、外装を挟んで一組ずつ取り付けられており、内部に設置されている一組は、主にロボット自身のモータによって発生する内部ノイズをキャンセルするために使用している[14]。音源定位・分離には、外界からの音響信号を収音するようSIGの左右の耳部に設置されているもう一組のマイクを利用している。

 

3.12.3 視聴覚統合による実時間複数人物追跡

 図1の実時間複数人物追跡システムの詳細な構成を図2に示す。このシステムは、SIGのカメラやマイクなどから得られるセンサ情報を統合して、複数の人物の位置を把握し、これを追跡することができる。本報告では、このシステムで認識される正確でロバストな音源方向情報をアクティブ方向通過型フィルタへの入力としている。


図2 実時間追跡システムの階層的なアーキテクチャ

 システムは、音源定位、顔認識・定位、ステレオビジョン、アソシエーション、アテンション制御、モータ制御、ビューワ の7モジュールから構成されている。なお、以降ではモジュール名はボールド体で表す。
モジュール内のサブモジュールや情報は、5階層に分けられる。SIGのカメラ、マイク、モータシステムなどのセンサデバイスはSIGデバイス層に属している。
 プロセス層、特徴層、イベント層では、SIGデバイス層から得られるセンサ情報から、位置、名前情報といった特徴を抽出し、これらに時間情報を付加して、特徴の種類に拠らない透過的な表現であるイベントに変換し、ストリーム層に出力する。各センサ情報の観測タイミングは非同期であるため、イベントも非同期に発生する。これらの処理は、音源定位、顔認識・定位、ステレオビジョン、モータ制御といったイベント抽出モジュールで行われる。
 具体的には、音源定位では、マイク入力から、ピッチ(音高)を抽出し、倍音の調波構造を利用したグルーピングを行い、複数の音源が同時に存在する場合でも、それらを定位し、音イベントを生成する。
 顔認識・定位では、顔画像の認識と定位を行い、顔のIDと位置情報を含んだ顔イベントを生成する。顔認識では、まず、肌色抽出と相関演算に基づくパターンマッチングにより、顔領域抽出を行う[7]。次に、抽出顔領域に対しオンデマンド更新が可能で最適な判別空間を生成できるオンライン判別分析(LDA)[8] を適用して顔認識を行う。顔定位は、抽出した顔の大きさに一定の仮定をおくことで、顔の3次元定位を行う。
 ステレオビジョンは、高速な視差マップ生成法[10]を用いて、人物のように縦に長い物体を抽出・定位し、人物位置情報を含んだステレオイベントを生成する。横を向くなど顔が見えない場合にも人物の位置情報を得ることができるため、システムのロバスト性を向上することができる。
 モータ制御では、モータのポテンショメータから得られるロボットの姿勢情報をもとに、モータイベントを生成する。
ストリーム層では、イベントを種類ごとに時間方向に接続し、ストリームを形成する。ストリームとイベントの接続には、Kalmanフィルタを用いて、観測誤差・処理誤差にロバストな処理を実現している[15]。
このようにして生成されたストリームのうち、複数のストリームが同じ人物に由来すると判断すると、これらを一つに束ねアソシエーションストリームを生成することにより、センサ情報の統合を行っている。これらの処理は、アソシエーションで行われる。アクティブ方向通過型フィルタの入力は、音ストリーム、および音情報を含んでいるアソシエーションストリームの方向情報である。送出されるストリーム方向情報には、時間情報およびストリームIDが含まれているため、データの同期および複数音源分離が可能である。
 また、注意制御はストリームの状態に応じてSIGの動作を決定し、ビューワはストリームの状態を、レーダチャート、ストリームチャートとして可視化するためのモジュールである。モータ制御は、注意制御からの信号をもとに、PWM(Pulse Width Modulation) 信号を生成し、DC モータを駆動するためにも使われている。
 実装上は、これらのモジュールをギガビットイーサ、ファストイーサの2つのインタフェースを備えた5 台のLinuxノード(Pentium III 1GHz)に分散させている。ギガビットイーサは、トラフィックが多く、通信量も大きいモジュール間通信用に、ファストイーサは、同期信号などの通信用に使い分けている。結果として、200msのレイテンシ、および 100 μs以下の精度のノード間同期を実現している。レイテンシについては、ストリーム生成で用いたKalmanフィルタを予測に利用することで補っており、これによりリアルタイム動作を可能としている。

3.12.4 アクティブ方向通過型フィルタによる音源分離

 図1の網掛け部分がアクティブ方向通過型フィルタの構成に対応する。アクティブ方向通過型フィルタへの入力は4つあり、入力のスペクトル、入力スペクトルから計算される IPDとIID、および、実時間人物追跡システムから得られる音源方向情報である。出力は、入力方向に対する分離音響信号である。
 アクティブ方向通過型フィルタでは、方向通過型フィルタに対し、聴覚中心窩に基づくアクティブな通過帯域制御とロボットの伝達関数を利用した仮説生成により、実環境での高速な音源抽出を可能にしている。ここで、ロボットの伝達関数は、部屋の伝達関数、ロボット頭部による音の歪みなどを考慮して、特定方向のIPDおよびIIDを推定するための関数である。以下では、アクティブ方向通過型フィルタのアルゴリズムの詳細について説明する。

3.12.4.1 アクティブ方向通過型フィルタのアルゴリズム,

アクティブ方向通過型フィルタのアルゴリズムは以下の6ステップで構成される。

  1. ある時刻に左右のマイク入力信号から得られたスペクトルから、各サブバンドの IPD と IID を計算する。
  2. 抽出すべき音源の方向を とする。は3節で述べる実時間人物追跡システムから、ロボット座標系での水平角として得られる。
  3. 通過帯域関数に従って、に対応するアクティブ方向通過型フィルタの通過帯域 が選択される。通過帯域関数は、聴覚中心窩に基づき、ロボットの正面方向で最小となり、周辺部で大きな値をとる関数である。詳細は 4.2.2節で述べる。選択された通過帯域を用いて、 と定義し、 から の範囲にある音響信号を抽出するのがアクティブ方向通過型フィルタの基本的な動作である。
  4. に対する IPD、IID を推定する。これらの推定には、ロボットの伝達関数を利用する。
  5. 音源方向 に対して、ロボットの伝達関数を利用して、入力スペクトルから以下の条件を満たすサブバンドを選択する。

  6. IPD とIID は、それぞれロボットの伝達関数から推定されるIPD、IID である。 は、フィルタリングの判断基準に IPD と IID のどちらを用いるかを決める閾値である。一般に、低周波数域では IPD、高周波数域では IID が大きく影響し、この閾値はマイク間距離に依存する。我々のロボットでは、理論的にも、実験的にも として 1500Hz が妥当であることが報告されている[15]。
  7. 選択されたサブバンドから、音響信号を再合成し、該当範囲にある音響信号を抽出する。

 実際には、音源方向は時間 t の関数であるため、特定音源を抽出し続ける際には、時間方向の連続性を考慮する必要がある。本報告では、3節に述べる実時間人物追跡システムから音源方向を得ることでこれを解決している。実時間人物追跡システムでは、すべての情報をストリームという時間的な流れを考慮した表現を用いて表しているので、同時に複数の音源が存在したり、音源や自分自身が移動する場合でも、一つのストリームに注目することによって、特定音源からの方向情報を連続的に得ることができる。また、ストリームは視聴覚情報を統合するためにも使用しており、これにより、視覚情報による音源定位精度向上を実現している。

3.12.4.2 聴覚中心窩による通過帯域制御

3.12.4.2.1 聴覚中心窩とは

 霊長類の視覚は、中心窩と呼ばれる解像度が高い部分が中心部に存在し、周辺部では解像度が低くなる代わりに、広範囲な視野を得ている。このような構造を用いれば、対象物を中心窩で捕らえることにより、高解像度の情報を取得することができる。つまり、広い視野と高い解像度を併せ持ち、かつ脳の情報処理量を劇的に削減できる効率的な構造を有している。
 ロボットでも、同様の構造により計算量を削減できることから、中心窩を利用した視覚処理はアクティブビジョン(Active Vision)[1]の典型的な例として、しばしば利用されている[12,22]。
 人間の聴覚においても、水平方向の音源定位の精度は正面方向で最も高く、周辺部に行くに従い低くなることは、古くから知られている[5]。耳に2つのマイクを備えたロボットによる音源定位でも、人間と同様の傾向が見られる。図3は、3節で説明した 実時間人物追跡システム[13]における3つの定位モジュール音源定位、顔定位、ステレオ物体定位による定位結果の平均値、図4は、音源定位による定位結果の分布を表している。

図3 音源定位結果の平均 図4 音源定位結果の分布

 図3から、音源定位による定位誤差は、正面方向から 20° 付近まで増加した後、70° 付近までは6° 程度で一定だが、それ以降は大きく悪化し、90°では、15° 以上になる。また、図4から、正面方向のばらつきは少なく、正面から離れるにつれ、ばらつきが目立ち、分散が大きくなる。このように定位結果の平均、分散は、ともに正面方向で音源定位の精度が高くなることを示しているので、本現象をロボットにおける聴覚中心窩と呼ぶ。
 なお、神経行動学(neuroethology)では、ドップラー効果によるエコー音の周波数変化を抽出するため、キクガシラコウモリの蝸牛殻で特定の周波数に対する感度が高くなっている部分を聴覚中心窩と呼んでいる[23]。選択的注意という広義の意味では、両者は似ているが、本報告では、ロボット頭部の正面方向で感度が高いという意味で聴覚中心窩という言葉を使用する。
図3では、ステレオビジョンによる定位誤差は1°、顔定位による誤差は2° 程度と、聴覚処理よりも正確であることがわかる。これは、音源方向が正面に近く、視覚情報が利用できる場合では、高精度の視覚情報によって、聴覚の精度不足を補うことが可能であることを示している。
 これらから、音源定位では、視覚の中心窩と同様に、聴覚中心窩を利用して音源に正対するようなアクティブな動作を行えばシステムの精度の向上が期待できる。さらに正面方向で視覚情報が利用できれば、視聴覚統合によりシステムのロバスト性を向上できると考えられる。

3.12.4.2.2 通過帯域制御

 方向情報を利用した音源の分離抽出を考えた場合、正面方向の音源であれば、正確な音源方向を利用することができるが、音源方向が正面から離れるにつれ、方向情報に精度を期待できなくなるため、音源方向によってフィルタの通過帯域を制御する必要がある。
 従来の方向通過型フィルタ[20]はスペクトルの各サブバンドで、両耳間位相差 (Interaural Phase Difference、IPD) と 両耳間強度差 (Interaural Intensity Difference、IID) に対する仮説推論を行うことによって特定方向の音を抽出するものであるが、フィルタの通過帯域が音源方向によらず一定であることが、十分な精度が得られない一因であった。
 そこで、アクティブ方向通過型フィルタでは最適な通過帯域を求めるために、音源数 1 の場合に音源方向や通過帯域を様々に変化させて、抽出精度の違いを調べた。
 音源には、スピーカから出力される音声信号を用いた。スピーカとロボットの距離 は 1m とし、スピーカの水平方向を、ロボットの正面から、0° 90°まで 10° おきに変化させた。また、音源を抽出する際には、スピーカ方向は既知であるものとし、方向通過フィルタの通過帯域を ±5° ±90° まで±5°単位で変化させて音源を抽出し、S/N 比による比較を行った。



図5 単一音源の抽出

 図5に結果を示す。実験では、背景雑音は無視できる程度に小さかったため、音源数が1の場合は、S/N比が 0dB となった時に、元波形が完全に抽出できたと解釈する。音源方向が0° 30°と正面方向に近い場合には、通過帯域が ±10° 程度で元波形を抽出できているが、音源方向が正面から離れるに従い、元の波形に含まれるパワーを抽出するために、広い通過帯域を必要とし、音源方向が 90° の場合には、最低でも ±35° 程度の通過帯域が必要である。
 音源数が1の場合には、通過帯域が広ければ広いほど、S/N比の高い信号を抽出することができるが、実環境では、背景雑音を含め、複数の音源を考慮する必要があるため、なるべく通過帯域を狭くとることが望ましい。そこで、図5から、ほぼ元波形が抽出でき、かつ極力狭い通過帯域を音源方向ごとに抽出し、図6のように通過帯域関数を導出した。通過帯域は正面方向では狭く、周辺部では広くなっていることがわかる。これは、音源定位と同様に、音源分離でも聴覚中心窩を利用することが可能であることを示している。
アクティブ方向通過型フィルタでは、このような通過帯域制御を行って、正面方向では S/N比の高い音響信号を抽出し、正面方向から離れた音源に対しては帯域を広く取り、背景雑音の混入によりS/N比は多少落ちるものの、必要な情報をできるだけ抑制せずに、特定の音源の強調を行う。正面方向から離れた音源を精度よく抽出する必要がある場合は、聴覚中心窩を利用できるように、音源方向を向くような制御を行う。
 実際の利用では、他の音源の音を極力抽出したくない場合、単なる音響信号の強調として利用したい場合など、状況に応じたチューニングが必要な場合もあると考えられるが、以後の実験では、図6に示された通過帯域関数を利用するものとする。


図6 通過帯域関数

3.12.4.3 ロボットの伝達関数

 一般に、ロボットの伝達関数は計測によって求める。本報告では、無響室で水平方向について5°刻みでインパルス応答を計測して得られた計測伝達関数を用いている。
 しかし、部屋の音響環境の変化に動的に対応するためには、音響環境が変わるたびに部屋の伝達関数、もしくはロボットの伝達関数の再計測が必要となるなど残響や動的な音響環境の変化に追従させることが難しい。また、各方向からの測定が必要であるため、測定にも時間がかかるといった欠点を抱えている。
 そこで、IPD については、水平角から計算的に IPD を推定する手法である聴覚用エピポーラ幾何(Auditory Epipolar Geometry)[14] を利用している。これは、ステレオビジョンで利用されるエピポーラ幾何[6]と同様の概念を2本のマイクによる定位に当てはめたものである。音源とロボット間の距離が 50cm 以上では無限遠の音源を仮定できるので[15]、頭部形状による影響を考慮すると、式(3)として表すことができる。

 

(3)

 ここで、 fv は、それぞれ IPD、音源方向、周波数、音速を示す。また、r はロボット頭部を球形とみなした場合の半径である。
 最終的に、ロボットの伝達関数としてIIDについては、計測した伝達関数、IPDについては、式(3)を用いている。IIDについて計測によらない手法が望まれるが、これは今後の課題である。

3.12.5 分離音の音声認識

 音声認識の分野では、マルチコンディショニングやミッシングデータなどノイズにロバストな音声認識へのアプローチが行われている[4,21]。
 しかし、これらはS/N比が小さい場合は有効ではない。このような場合には音声認識のフロントエンドとして音源分離が必要である。また、S/N比が大きい場合も有効である。フロントエンドとしてADPFを使用し、複数の音響モデルを使った音声認識を提案する。

3.12.5.1 音響モデル

 音声認識エンジンには、京大で開発されたJulian[24]を利用している。本報告では、音声データは、男性2名、女性1名の計3名の発話による色、数字、食べ物といった150語を使用している。
 音響モデル用の音声データとして、まず、3m×3m の部屋で、SIGから1mの距離にスピーカを置き、その音をSIGのマイクで録音した。スピーカは、SIGから0、±60°の位置におき、それぞれの方向について、すべてのデータを録音した。また、0、±60°の2箇所から同時に音声を出力する場合、3箇所から同時に音声を出力する場合についてもすべての組合せについて録音を行った。次に、音源方向を既知として ADPFによる音声抽出を行った。抽出した音声を話者、発話方向ごとに整理し、音響モデルのトレーニングセットとした。音響モデルにはトライフォンを用い、トレーニングセットごとに、Hidden Markov Model Toolkit (HTK)を用いて作成した。したがって、本報告では、3話者、3方向の組合せで 9種類の音響モデルを使用している。

3.12.5.2 複数の音響モデルを利用した音声認識

 音声認識では、並列に9つの音声認識プロセスが実行される。各音声認識は、図7に示されるようにそれぞれ異なる音響モデルを用いる。セレクタはすべての音声認識結果を統合し、最も信頼性が高いと判断される結果を出力する。


図7 複数の音響モデルを統合した音声認識

 統合のアルゴリズムを定義するために、特定話者の音響モデルに対する単語認識率を調べた。図8に示した結果から、話者よりも方向の違いによる認識率の低下が少ないことがわかる。また、話者も方向もあっている場合は80%上の認識率であることがわかる。この結果を踏まえ、音声認識の際には、音源方向は既知であることを利用し、セレクタは式(4)に示すコスト関数を統合のために使用している。

  
図8 A氏の音響モデルによる音声認識結果

(4)

 ここでは、話者p、方向dの音響モデルを使用した場合の 単語認識率と入力音声に対する認識結果を示している。また、 は実時間人物追跡システムから得られた音源方向であり、 は、評価対象の人物である。 は顔認識モジュールで生成される確率であり、顔認識ができない場合は、常に1.0となる。最終的に、セレクタは最も大きな を持つ人物 と認識結果 を出力する。
 の最大値が1.0以下もしくは、2番目に大きい値と近い場合は、SIGは認識が失敗もしくは、一つの候補に絞りきれなかったと判断して、音源方向を向き該当の人物に再度尋ねなおす。このように、複数の音響モデルを利用して、分離音と話者の認識を行う。また、顔認識が利用可能であれば、人物名がわかるためロバスト性を向上できる。

3.12.6 実験と評価

 同時3話者発話のシナリオを通じてロボット聴覚システムを評価した。シナリオの内容を以下に示す。

  1. ロボットから1mの距離に60度間隔(SIGから見て、0°、±60°)で3名の人間が並んでいる。
  2. SIGは、3名に質問をする。
  3. 各話者は3人同時に質問に対する回答を行う。
  4. SIGは3話者の混合音声の定位・分離・認識を行う。
  5. 最終的に、SIGは各話者に向きながら、向いた方向の人が誰で何を言ったかを答えていく。
  6. 音声認識に失敗したと判断した場合は、該当話者の方向を向いた時に再び尋ねなおす。
a) SIGが質問をする b) 各話者が答える

c) 正面の人に回答する d) 左60°の人の方を向き答える

 
e) 右60°の人に向き、答える  

図9 3話者同時発話の認識結果例

 本報告では、実際の人間の代わりにスピーカとその前面に貼られた写真を用いている。スピーカは音響モデル作成時に使用したスピーカと同じものである。各スピーカから流れる音声は、そのスピーカに貼られた写真と同じ人物のものである。以下にこのシナリオの典型的な結果を2例示す。

  1. SIGが好きな数字に関する質問をする(図9a)。
  2. 各スピーカから1から10までの互いに異なる数字が同時に流れる。ただし、数字の組合せはトレーニングセットに含まれる組合せと同じものである(図9b)。
  3. SIGは各音声から、実時間人物追跡システムを利用して定位する。定位情報を利用してADPFがその方向の音声を抽出する。各分離音に対し9つの音声認識プロセスが同時に実行され、結果を統合し、最も適合のよい話者名、認識結果を求める。
  4. SIGは各話者に向きながら、求めた話者名、認識結果を答える(図9c-e)。

 結果では、3話者の認識がすべて成功しており、同時発話の場合でもロボット自身のマイクを使った音声の定位・分離・認識を行うロボット聴覚システムの有効性を示すことができた。しかし、図8に見られるように、各分離音声の認識率は高々80%程度である。音声認識に失敗する場合は、対象音源の方向を向き、聴覚中心窩をうまく利用し、曖昧性を解消するように訊き返すようなアクティブオーディションを用いて解決することができる。また、事前に顔認識によって顔の名前がわかっているときには、音声認識で使用する音響モデルの数を削減することができるので、高速で正確な認識が可能であるという結果も得られている。

3.12.7 結論

 本報告では、ロボットへ搭載してアクティブオーディションに基づき音源の定位・分離・認識を行うロボット聴覚システムを提案・評価し、その有効性を示した。
 システムは、聴覚中心窩に基づき音源方向に応じたアクティブな通過帯域制御と音源方向を向くというアクティブな動作を行い、高速で高精度な音源定位・分離・認識を実現した。これは、アクティブオーディションの有効性を示しており、ロボット聴覚では、アクティブな動作による知覚向上が本質的であることを示している。音源方向を向くという動作は、ロボット聴覚の向上だけではなく、人間とのフレンドリーなインタラクションを実現したり、テレイグジスタンスによる会議では、相手の注意を向けさせたりという意味でも重要であろう。
 しかし、より制約の少ない環境での利用に耐えうる音声分離・認識には、多くの課題がある。これには、よりロバストで高精度な音源分離も必要であろうが、音声認識エンジンにも、missing datamissing feature など分離データの性質を考慮した改良[4,21]が必要であろう。

[謝辞]

 豊橋科学技術大学の中川聖一教授と京都大学の河原達也助教授の助言に感謝する。また、北野共生システムプロジェクトのメンバに感謝する。

[参考文献]
[1] Y. Aloimonos, I. Weiss, and A. Bandyopadhyay. Active vision. International Journal of Computer Vision, 1987.
[2] M. Aoki, M. Okamoto, S. Aoki, H. Matusi, T. Sakurai, and Y. Kaneda. Sound source segregation based on estimationg incident angle of each frequency component of input signals acquired by multiple microphones. Acoust. Sci. and Tech., 22(2):149-157, 2001.
[3] F. Asano, M. Goto, K. Itou, and H. Asoh. Real-time sound source localization and separation system and its application to automatic speech recognition. Eurospeech 2001, pp.1013-1016. ESCA, Sep. 2001.
[4] J. Barker, M.Cooke, and P.Green. Robust asr based on clean speech models: An evaluation of missing data techniques for connected digit recognition in noise. EUROSPEECH 2001, volume 1, pp. 213-216. ESCA, 2001.
[5] J. Blauert, Spatial Hearing. The MIT Press, 1999.
[6] O. D. Faugeras. Three Dimensional Computer Vision: A Geometric Viewpoint. The MIT Press, MA., 1993.
[7] K. Hidai, H. Mizoguchi, K. Hiraoka, M. Tanaka, T. Shigehara, and T. Mishima. Robust face detection against brightness fluctuation and size variation. IROS-2000, pp. 1397-1384. IEEE, 2000.
[8] K. Hiraoka, S. Yoshizawa, K. Hidai, M. Hamahira, H. Mizoguchi, and T. Mishima. Convergence analysis of online linear discriminant analysis. IJCNN 2000, pp. III-387-391. IEEE, 2000.
[9] M. Z. Ikram and D. R. Morgan. A multiresolution approach to blind separation of speech signals in a reverberant environment. ICASSP-2001, pp. 2757-2760. IEEE, 2001.
[10] S. Kagami, K. Okada, M. Inaba, and H. Inoue. Real-time 3d optical flow generation system. MFI'99, pp. 237-242, 1999.
[11] K. Kashino, K. Nakadai, T. Kinoshita, and H. Tanaka. Application of bayesian probability network to music scene analysis. In Working Notes of the IJCAI-95 Computational Auditory Scene Analysis Workshop, pp. 52-59. AAAI, 1995.
[12] W.N. Klarquist and A.C. Bovik. Fovea: A foveated vergent active stereo vision system for dynamic 3-dimensional scene recovery. RA, 14(5):755-770, October 1998.
[13] K. Nakadai, K. Hidai, H. Mizoguchi, H. G. Okuno, and H. Kitano. Real-time auditory and visual multiple-object tracking for robots. IJCAI-01, pp. 1424-1432. MIT Press, 2001.
[14] K. Nakadai, T. Lourens, H. G. Okuno, and H. Kitano. Active audition for humanoid.AAAI-2000, pp. 832-839. AAAI, 2000.
[15] Nakadai02-AAAI, K. Nakadai, H. G. Okuno, and H. Kitano. Exploiting auditory fovea in humanoid-human interaction. AAAI-2002, pp. 431-438. AAAI, 2002.
[16] Y. Nakagawa, H. G. Okuno, and H. Kitano. Using vision to improve sound source separation. AAAI-1999, pp. 768-775. AAAI, 1999.
[17] T. Nakatani and H. G. Okuno. Harmonic sound stream segregation using localization and its application to speech stream segregation. Speech Communication, 27(3-4):209-222, 1999.
[18] T. Nishiura, M. Nakamura, A. Lee, H. Saruwatari, and K. Shikano. Talker tracking display on autonomous mobile robot with a moving microphone array. ICAD 2002.
[19] H.G. Okuno, S. Ikeda, and T. Nakatani. Combining independent component analysis and sound stream segregation. In Proc. of IJCAI-99 Workshop on Computational Auditory Scene Analysis (CASA'99), pp. 92-98. IJCAI, 1999.
[20] H.G. Okuno, K. Nakadai, T. Lourens, and H. Kitano. Separating three simultaneous speeches with two microphones by integrating auditory and visual processing. Eurospeech 2001. ESCA, 2001.
[21] P. Renevey, Rolf Vetter, and Jens Kraus. Robust speech recognition using missing feature theory and vector quantization. EUROSPEECH 2001, volume 2, pp. 1107-1110. ESCA, 2001.
[22] S. Rougeaux and Y. Kuniyoshi. Robust real-time tracking on an active vision head. IROS-1997, pp. 873-879. IEEE, 1997.
[23] G. Schuller and G. Pollak. Disproportionate frequency representation in the inferior colliculus of horsehoe bats: evidence for an ``acoustic fovea''. In J. Comp. Physiol. A, volume 132, pp. 47-54, 1979.
[24] 鹿野 清宏, 伊藤 克亘, 河原 達也, 武田 一哉, and 山本 幹雄. 音声認識システム. オーム社, 2001

【次へ】