3. 研究開発の新しい展開と内外の動向
報告者: 富田文明講師
3.13.1 コンピュータビジョンの歴史
研究初期の1970年代の研究は、パターン認識、画像処理、シーン解析がキーワードとなる。パターン認識の成果として、文字認識などができるようになった。画像処理は、製造業の大量生産工程で広く使われるようになった。シーン解析は、3次元視覚処理の走りである。当時は、積み木の世界しか対象にできないと批判されたが、現在製品化されているレンジファインダを生みだした。現在利用されている画像処理アルゴリズムのほとんどが1970年代に考案され、その後SPIDERという画像処理のライブラリにまとめられ、国内外で広く流布している。このように、1970年代には、実用的にも成果が生まれた。
1980年代には、人工知能(AI: artificial intelligence)の分野でエキスパートシステムが注目され、その影響受けた画像理解がキーワードとなる。豊富な知識を使って画像を理解させようとしたが、知識の定義のあいまいさの問題に直面する。その反動もあって、撮像条件を非常に限定して、2次元の画像に投影されて縮退した情報から、どうやって3次元の世界を復元するかという、数理的な研究が主流となった。それらは、Shape-from-Xと総称され、XにはShading、Texture、(Short)Motionなどがある。理論的な研究は1990年代の中ごろまで続くが、あまり実用的な成果が生まれず、結果として、学界と産業界が乖離してしまった。
一方、計算機の高性能化を受け、正則化原理と呼ばれる処理は単純だが計算量の多いシミュレーション的な手法が一時期流行した。Snakeと呼ばれるシステムが最初で、口のまわりの境界線を、エネルギー最小原理に基づく処理の繰り返しによって、だんだんと正確に検出する。変形するやわらかい対象物には有効な手法の1つである。
1980年代後半になって、自動車に眼をもたせて道路を走らせる自律走行車(ALV: Autonomous Land Vehicle)が、ドイツのベンツ社とミュンヘン連邦軍大学との共同で始まった。あとから始めたカーネギー・メロン大学のNAVLABの方が、大陸横断するなどして有名になった。自動車会社を含めて研究は活発化したが、技術的には、条件の良い高速道路などの走行に限定され、道路の端や白線を見つけて走行制御する程度にとどまっており、実用化にはまだ遠いことが認識され、現在は下火になっている。高度道路交通システム(ITS:
Intelligent Transport Systems)のプロジェクトの課題のひとつとなってはいるが、プロジェクトの主体は、運転を補助する道路などのインフラストラクチャの整備にある。
1990年代には、欧米が中心となってSPIDERの国際版にあたる画像理解用標準ソフトウェア(IUE: Image Understanding Environment)のプロジェクトが始まったが、1980年代に技術的に大きな進歩がなかったためか、結果的にはしりつぼみとなっている。このころからコンピュータビジョン(CV:
computer vision)の研究者は、応用分野として仮想現実感や複合現実感に眼を向け始め、顔認識、ジェスチャ認識といったヒューマンインタフェースに関連する研究が多くなっている。最近では、ウェアラブルコンピュータの影響を受け、ウェアラブルビジョンと称して、眼鏡的に小型のカメラとディスプレイを装着し、インターネット風に、注目している部分をクリックして関連する情報を取り出すといったシステムも実験的に開発され始めている。
1990年代の後半になって、ようやく3次元視覚への関心が向き始める。3〜数台のカメラを用いて相関法によって実時間で距離計測するステレオカメラシステムが市販されるようになってきた。精度は粗いが、物体の有無の判断程度には利用できる。理論の方でも、Shape-from-(Long)Motion、すなわち、1台のカメラの移動によって得られる時系列画像から3次元形状を復元する有効な因子分解法が提案され、簡易に屋外環境の3次元データを得る方法(セルフキャリブレーション)として期待される。
2000年代になって、さらに何十台ものカメラを使うマルチカメラシステムが出現している。カメラをドーム状に配置し、真中の人間や物体の距離を、全方向から時系列的に同期計測した後、任意視点からの映像を出力する。まだ技術的な課題もあるが、いずれは仮想現実感などに応用されていくであろう。
マルチカメラが1点を集中して撮影するのに対して、分散視覚は多数台のカメラの視野を補うように配置し、例えば、動く物体を、その情報を引き渡しながら、順番に追いかけていく。マルチカメラも分散視覚も、背景にはPCクラスタの出現という、計算機の進歩が後押ししている。
現状の研究をまとめると、技術的にはあまり大きな進歩はないが、応用志向が強まり、計算機の進歩もあって、多様な分野に適用しようとしている。しかし、必要な視覚機能が充分でないと、いずれは限界に達することはすでに経験していることに注意したい。
3.13.2 汎用システムの必要性
従来のシステムは、あるタスクが与えられた場合に、コストと高速性に工夫をこらした専用システムを専門家が構築していた。この方法は、例えば、製造業の大量生産工程には有効であったが、現在のような多品種少量生産には限界がきている。製造の現場では、いろいろな作業に適用できる汎用型のシステムが、本質的に求められている。
汎用システムの開発には、共通的な「機能」と専用的な「知識」を分離し、必要な機能を体系的にモジュール化してそろえることが必要である。従来の専用システムは、機能の不足を知識で補っていた。そうすると、知識はタスクごとに異なるから、まったく独立のシステムとなってしまう。機能と知識が混在していると、他のシステムに流用できない。
しかし、今でも、汎用システムは役に立たないという、コンピュータが高価で性能が低い時代の古い迷信が根強く残っている。しかし、汎用システムであっても、専用システムと同様に、タスクに応じた効率的な処理ができなければならないのは事実である。充分な機能を用意しておけば、知識を入れかえるだけで、専用システムができると考える。専門家でない利用者が、プログラミングをすることなく、対話的に必要な機能を選択し、パラメータを調整しながら、専門家が作るシステムと同等以上の性能をもった専用システムを生成できるタスク指向化システムを開発する必要はある。
このようなシステムに対して、対照的な2つの疑問が投げかけられる。専門家でない一般の多くの人には、すでに汎用システムができていると思われている。工場などで視覚を使ったシステムがたくさん実用化されているが、専用システムでは、対象となる物体や観測の環境が非常に限定されていることが専門家でないと見た目にはわかりにくい。
逆に、専門家の間では、汎用システムはすぐには実現できないと思われている。これに対しては、実際に汎用型システムを作り、その有効性を実証するしかない。
3.13.3 3次元視覚システム
産業技術総合研究所(旧電子技術総合研究所)では、多分野で多目的に利用できる高機能3次元視覚システムVVV(Versatile Volumetric
Vision)[1]を10年以上にわたって体系的に開発しており、現在も進化している。
3次元視覚の基本プロセスを図 3.13-1に示す。まず、3次元視覚センサによって、観測している環境(以下、シーン)の3次元距離を計測する。次に、この距離データからシーンに存在する物体の面、境界線、頂点などの特徴を抽出し、その3次元形状を計測する。そして、この形状データとあらかじめ登録している物体の形状モデルとの照合を行い、その3次元の位置と姿勢を決定する。いわゆる物体認識である。さらに、物体が動いている場合は、照合処理を継続的に繰り返すことによって、その3次元運動を追跡する。物体のモデルの登録には、3次元CADによって合成する方法と、自然物などCADでは合成が難しい場合には、実物の3次元形状データを計測し、それを形状モデルとして利用することができる。
図 3.13-1 3次元視覚プロセス
3.13.3.1 距離計測、形状計測
距離を計測するための3次元視覚センサの基本はステレオビジョンであり、装置として複数台のカメラと画像入力ボードを用意すればよいが、用途や対象に応じて、いくつかのシステムを開発し、利用している。図
3.13-2のアクティブ3眼ステレオカメラシステムは、3台のカメラを用いる最も基本的なシステムである。注視点を変えることができるように、ヘッドのパンとチルト(首振り)、左右カメラの輻輳角と中央カメラの俯角(眼球運動)、そして、各カメラのズーム、フォーカス、アイリスをコンピュータ制御することができる。さらに、レーザ光の光源を取りつければ、物体に光を当てて距離を計測するレーザレンジファインダとなる。
カメラが2台か3台かでは、大きな違いがある。物体までの距離は、3角測量の原理によって測定する[2]。しかし、2台のカメラを水平に置いた場合、水平線の距離が計測できない。人間も本来は同じであるが、豊富な知識や経験を使って距離を推定している。2台のカメラでも技術的にある程度は可能であるとしても、まだそれ程賢くないコンピュータに推定させて間違う危険を冒すよりも、垂直方向にもう1台のカメラを用意する方が妥当と考える。3台以上は、何台であっても大差はない。
図 3.13-2 アクティブ3眼ステレオカメラシステム
また、カメラ1台でも移動して撮像すれば、セルフキャリブレーションにより、ステレオカメラと同等の距離計測が可能である。
単一の方向から観測では、対象物の一面のデータしか得られない。したがって、実物を使ってそのモデルを作成する場合は、対象物を回転台の上に置き、回転させながら距離を測定することにより、全周の3次元データが得られる。動物のように静止していない対象物の場合には、マルチカメラシステムによって同期的に計測することができる。
このようにして得られた距離データは単なる3次元の点の集まりなので、これから物体の面、境界線、頂点などの特徴を抽出して、3次元CADと相互変換可能な幾何形状データに変換する。
3.13.3.2 物体認識、運動追跡
物体の認識とは、既知物体の3次元モデルと観測シーンの3次元データを照合して、その物体の存在と3次元6自由度の位置・姿勢を計測することである[3]。このとき、汎用性の必要条件として、観測条件や対象をできるだけ限定しないことが要求される。すなわち、任意の3次元形状を対象とし、表面に模様や光沢があってもよい。対象物がどんな位置、姿勢にあってもよく、不特定の背景に不特定の物体と混在していてもよい。部分的に隠れていてもよい、などの「無条件」を克服しなければならない(図
3.13-3)。技術的には、3次元の距離データを扱い、構造的に解析して、パターン照合する3次元視覚が必要である。従来の、2次元の画像データを扱い、統計的に解析して、パターン分類する2次元視覚だけでは対処できない。2次元視覚では、絵に描いた餅が絵(平面)かどうかもわからないのである。
対象物が動き、その動きを追跡する場合には、連続的に入力される時系列ステレオ画像間の時空間照合により、物体の3次元運動パラメータ(3次元位置・姿勢の変化)の計測を繰り返す[4]。物体認識と同じ照合処理ではあるが、時系列画像間では対象物は接近しているので探索範囲が小さく、通常の計算機で物体認識が秒単位であるのに対して、運動追跡はミリ秒単位の処理が可能となる。
![]() (a)他の物体と混在する積み木 |
![]() (b)部分的な隠れのあるコップ |
![]() (c)模様のある空き缶 |
![]() (d)自由曲面体の陶器 |
赤線または赤点が物体のモデルを表し、その物体の3次元の位置と姿勢が認識されたことを示す。 図 3.13-3 物体認識 |
3.13.4 モデルの階層
視覚の対象のモデルには、幾何モデル、物理モデル、共通モデルの3階層がある。
モデルの基礎は幾何モデルであり、個々の対象を定量的に正確に表現する。3次元CADで標準的な境界表現(b-rep)が基本データ構造である。曲面を対象とする場合には、曲面形状を表すネットモデルが付加される。幾何モデルは観測から直接得られる表現であり、同一サイズ、同一形状の対象を認識する場合や、CAD、VRのための3次元データを生成する場合に利用する。
物理(作業)モデルは、外界に作用する機械(マニピュレータ、自律走行車など)との協調に用いられる。例えば、幾何モデルには、把持可能な部位、走行可能な面など、対象の物理的特徴に関する情報がないので、これらを表現する。
共通(概念)モデルは、対象を定性的に表現する。例えば、幾何モデルを用いて自動車を認識する場合には、世界中の車種のモデルを用意しておかなければならない。これに対して、共通モデルは、自動車を包括的に表現するもので、一度も見たことのない自動車であっても自動車と認識することができるもので、CVの最大のオープンプロブレムである。この共通モデルは、パターン情報の記号化、言語化へと一般化される。パターンと自然言語(名詞、動詞、形容詞、副詞)との結びつきは、自然言語に実体を与え、人との対話をより自然なものとすることができる。
3.13.5 応用システム
3次元視覚システムは本来、人間の眼が必要とされる多くの作業や機械に共通的に利用でき、その自動化を促進することが期待される。前述のモデルの階層に対応して、3次元視覚の典型的な応用システムとして、製造分野におけるハンドアイロボットシステム、交通分野における自律走行システム、福祉分野における視覚障害者用視覚代行システムなどを開発している。
3.13.5.1 ハンドアイロボットシステム
視覚とマニピュレータが協調して行う各種物体の各種操作の基本動作を体系化してライブラリ化することにより、タスク毎のプログラミングを必要としないハンドアイシステムTORCS(Task-Oriented Robot Control System)[5]を開発している(図 3.13-4)。以下は、これまでに試作した実験システムの例である。
図 3.13-4 ハンドアイロボットシステム
3.13.5.2 自律走行システム
外部に補助的な軌道施設や位置検出装置などを必要とすることなく、屋内や屋外を自律走行するシステムを開発している[5]。実験用車両として、バッテリー駆動のゴルフカートを利用し、3次元視覚センサとして、アクティブ3眼ステレオカメラシステムを搭載している(図 3.13-5)。
図 3.13-5 自律走行車
これまでに、廊下を自律走行するための基本機能として、走行路を認識し、障害物を回避しながら走行制御し、右折や左折時にターニングポイントを検出してターンし、また、自動的に車庫の出入ができるシステムを開発した。現在、簡単な地図として、ターニングポイント間の距離情報を与えるだけで、目標地点まで自動的に移動することが可能となっている。
3.13.5.3 視覚障害者用視覚代行システム
視覚障害者をユーザとして、図 3.13-6のように、小型ステレオカメラ(映像入力)と骨伝導ヘッドフォン(音響出力)を装着することにより、歩行やスポーツなどの日常活動ができるように、ユーザが必要とする各種(特に、3次元)の視覚情報を、オンライン、実時間で、有効かつ適切に知覚できる聴覚情報に変換し、伝達するウェアラブルシステムを開発している[6]。
図 3.13-6 視覚障害者用視覚代行システム
3.13.6 将来への展望
視覚やロボットの研究は、もともと広い意味でのAIの一環として始まったが、現在では記号処理としてのAIから独立している。しかし、本来ひとつのシステムとして統合するべきであるし、それができる時期にきている。人間が扱っている情報は80%以上が視覚情報と言われており、AIやロボットが視覚を使わないことには無理がある。今後のAIやロボットの進展は、視覚の成熟にかかっているかもしれない。
例えば、現在目標とするロボットは、一般的な環境で、自ら状況を判断しながら自律的に行動する知能ロボットである。しかし、専門家のプログラミングに頼っている産業用ロボットだけでなく、今話題の人間型ロボットASIMOにしても、眼がついているが、遠隔操縦が基本であり、ペットロボットAIBOはピンクのボールにだけ反応し、パーソナルロボットPaPeRoは人間の顔を統計的に認識する程度であるため、できる行動が限定される。
AIも1980年代のエキスパートシステムの後低迷している。情報が完全である問題のみ解決可能な従来の演繹推論に替わり、情報が不完全な実用問題を解決するために、帰納推論の方法が模索されている。また、抽象的な記号を処理するのではなく、物理的な実体を持つこと_身体性が必要とされている。
今後は、CVだけではなく、AI、ロボット、知識を検索するデータベース、ヒューマンインタフェースなどを含めた、統合的な情報処理システムを目指している。やはり、システムは汎用であるが、機能はモジュール化されており、データベースの知識を入れかえれば、専用システムとしてさまざまに応用できるようにしたい。システム構成として、個別の機能の一部だけを使ってもよいし、すべてを一体化して自律ロボットにしてもよい。各機能には、信号のレベルから自然言語のレベルまで、いくつかの階層がある。情報の交換やフィードバックは、異なるサブシステムの間だけでなく、同じ機能の各階層の間でも行わなければならない。
参考文献
[1] | 富田文明: 高機能3次元視覚システムVVV, 情報処理, Vol. 42, No. 4, pp. 370-375 (2001). |
[2] | 河井良浩, 植芝俊夫, 石山豊, 角保志, 富田文明: セグメントベーストステレオにおける連結性と対応評価, 情報処理学会論文誌, Vol. 40, No. 8, pp. 3219-3229 (1999). |
[3] | Y. Sumi, Y. Kawai, T. Yoshimi and F. Tomita: 3D Object Recognition in Cluttered Environments by Segment-Based Stereo Vision, International Journal of Computer Vision, Vol. 46, No. 1, pp. 5-23 (2002). |
[4] | 石山豊, 角保志, 富田文明: ステレオビジョンによる3次元物体の3次元運動追跡, 日本ロボット学会誌, Vol. 18, No. 2, pp. 213-220 (2000). |
[5] | 平成10年度地域コンソーシアム研究開発事業「3次元視覚システムVVVを用いたタスク指向型・ロボット制御システムTORCSの研究開発」成果報告書, 新エネルギー・産業技術総合開発機構 (NEDO) (2000). |
[6] | 河井良浩, 小林真, 皆川洋喜, 宮川正弘, 富田文明: 3次元仮想音響による視覚障害者用支援システム, 電気学会論文誌C (電子・情報・システム部門誌), Vol. 120-C, No. 5, pp. 648-655 (2000). |