3..11 次世代音声認識の手法と実用化の動向
児島 宏明 委員
現在の音声認識は、HMM[1](隠れマルコフモデル)と統計的言語モデルに基づく手法が主流となっており、その枠組み内では技術的にほぼ確立されている。本章ではまず、このような枠組みの限界を検討し、その改善を目指す試みを紹介する。そのような手法のうち、ここでは主として音響モデルを中心とした認識アルゴリズムについて概観し、位置づけと方向性をまとめる。次に、このような音声処理技術の応用に関して、実用化の展望を探る。そのなかでも、音声認識技術の応用については、これまでに、認識対象語彙の拡大や認識精度の向上などの改良が進められてきたにもかかわらず、現在のところ、広く普及し利用されるには至っていない。ここでは、そのような広範囲の普及の鍵となるような要因として、小型化と低価格化を中心に検討し、その事例を紹介する。
3.11.2.1 HMMの限界
まず、現在確立されている音声認識手法の概要とその問題点を述べる。現在主流となっている統計的音声認識の枠組みは、以下のように定式化される。
このとき、 P(x|w)を音響モデルに、P(w)を言語モデル対応させることにより、認識スコアは対数尤度を用いて「音響モデルの尤度 + 言語モデルの尤度」で表されることになる。通常、音響モデルとしては、音素を単位とするHMMを単語辞書に基づいて連結したものが用いられる。言語モデルとしては、範囲の限定された小さいタスクでは、構文的文法やネットワーク文法などが用いられるが、ディクテーションなどの大語彙タスクでは、そのような文法を記述することが実際上不可能であるため、連鎖統計モデルが用いられる。連鎖統計モデルは、n-gram
とも呼ばれ、n個の単語の並びが出現する確率を統計的に求めたものである。
このような枠組みの限界を考える際にも、言語モデルの限界と、音響モデルの限界に分けて議論することができる。音響モデルの改善による約5%の認識率の向上と、言語モデルの改善による約50%のパープレキシティ(平均分岐数)の減少とが、ほぼ同等の効果に相当するという報告もあり[1]、ここでは、主として音響モデルについて議論を進める。ただし、米国DARPAのプロジェクトで採用されたSWITCHBOARDコーパスのような、自由発話文に対しては、未だに50%程度の認識率しか達成されておらず、このようなタスクに対しては、言語モデルの本質的な改良が必要と考えられる。
一般に、HMMの限界として次のような要因が挙げられる。
1) 継続時間長のモデル化が弱い
2) 各時点(フレーム)での出力確率が、単一の状態(または2状態間のリンク)にのみ依存する(それ以外は独立)と仮定している。
1)は状態遷移を単純マルコフ過程で近似したこと、2)は出力確率の依存条件を単一のリンクで近似したことに起因する限界である。
これら各々の弱点を回避するための手法として一般的に、1)に対しては、明示的な継続時間長モデルの導入が、2)に対しては、回帰や導関数に基づく動的特徴量が広く用いられている。2)に対しては、これ以外にも、条件付きGaussian
HMM[2]やSegmental HMM[3] の適用が検討され、有効性が確認されている。また、継続時間長以外にも単純マルコフ近似による限界として、音韻的環境以外にも考慮するべき様々に異なる状況(例えば、状態ごとの確率分布で表現しきれないような話者による変動や、韻律環境など)に対するモデルの依存性が表現できない、という問題がある。その対応策としては、Bayesian
Net[4]やMarkov Random Field[5] などが研究されている。また、上記のような近似による悪影響を直接的に回避する手法として、変分ベイズ法[6]なども検討されている。また、モデルの分布が事象に正しく適合していない場合は、上記のような最尤の枠組みの前提がくずれることになるため、上記の式に基づく決定が必ずしも最適とはならない。このため、直接的に識別誤りを最小にする手法として、識別誤り最小化(MCE[2])規準に基づく手法が研究され、有効性が報告されている[7]。
以下の各節では、このような問題点の解消を目指して現在の手法を拡張していく方向性を、4種類の流れに大別して紹介することにより、今後の音声認識手法の動向を位置づける。
3.11.2.2 セグメントモデルに基づくHMMの拡張
通常のHMMが各状態(または各リンク)から1つの観測ベクトルを出力するのに対し、M. Ostendorf らは、ひとつの状態(セグメント)から可変長の観測ベクトル列を出力するような統計的セグメントモデルを定式化した[8]。出力を可変長のベクトルとして扱うことにより、モデルの出力を区分定数としてでなく、滑らかな軌道(trajectory)として表現すことができ、表現能力が拡張される。また、セグメントモデルに確率的動的システムを導入することにより、通常のHMMおよび、その改良としての継続時間長制御HMMや条件付きGaussian HMM などは、セグメントモデルの特殊な場合として位置づけることができる。出力されるtrajectoryの決定方法や、セグメント化の方法などに関して、多くの可能性が考えられ、HMMを発展させる枠組みの指針として期待される。
3.11.2.3 複数モデルによるHMMの拡張
HMMを含む統計的パターン認識手法に共通する限界として、認識対象が学習用サンプルに適合する場合は有効に機能するが、学習用サンプルとして想定外の入力に対しては、精度が大幅に低下するという問題がある。例えば、マイクの特性や雑音環境や残響などが、想定したものと異なれば、認識精度は大きく低下する。これに対処するための最も一般的な方法は、学習サンプルを対象に合せて拡張するとともに、モデルのパラメータや状態数を増やして、HMMの表現能力や精度を向上させることである。これまでにも、そのような方向性としては、出力確率分布の混合数を増やしたり、音素単位のモデルをtriphoneと呼ばれるような音素環境依存型のモデルにしてモデル数を増やす、などの拡張が行われてきた。このような方向は、CPUの演算速度など処理能力の向上と、学習用のサンプルなどの音声データベースの大容量化が前提となるが、近年のハードウェア技術の急速な進歩により、適用可能な規模は急激に拡大している。
処理能力が拡大したとしても、単純にモデルの状態数や学習サンプルの種類を増やすだけでは、学習が局所最適解に陥る可能性が高く、有効に機能しない。これに対し、異なる環境のサンプルで学習したモデルを、単一のHMMの中の複数のパスとして統合するマルチパス音響モデルの研究が、近年活発に進められている[9]。これは、学習サンプルの状況を予めヒューリスティクスにより整理することにより、学習が有効に進むようにした手法として捕えることもできる。
このような方向をさらに進めれば、統計的な一般化を行わず、サンプルをそのまま標準パターンとして記憶するような、事例に基づく手法に発展する可能性がある。このような手法は、現在の統計的手法が主流になる前に、DP[3]マッチングやk-NN[4]などの手法とともに広く使われてきたが、学習サンプル数やモデルの精度の問題もあり、統計的手法に対抗できなかった。しかし、近年は人工知能や自然言語処理などの分野において、事例に基づく手法が注目されてきており、今後さらに計算機の処理能力が拡大すれば、パターン処理においても、大きな流れとなる可能性があると考えられる。
3.11.2.4 大局的特徴の利用
現在の手法では、ほとんどの場合、HMMを音素単位でモデル化しており、文脈や状況に関しては、前後の音素程度の環境しか考慮していない。これに対して、大局的状況に関する特徴を利用することにより、性能の改善が期待される。
大局的状況としては、収録環境なども含めて様々な要因が考えられるが、ここでは主としてコミュニケーションに関する状況について述べる。そのような状況は大局的特徴としては主に韻律として現れる。韻律的特徴には、アクセントによる単語の意味の違いや構文的な区切りといった言語的状況以外にも、話し手の自信や態度といったパラ言語的状況や、感情などの非言語的状況なども反映される。韻律的特徴としては、基本周波数、パワー、発話速度などがあるが、これ以外にも母音の韻質と呼ばれるような、フォルマントやスペクトル的特徴としても現れる。従って、韻律的状況によって音響モデルを変えたり制御したりすることにより、性能の改善が期待できる。それ以外にも、韻律から構文的情報を取り出し、これを利用して、認識候補の探索空間を最適化する手法などが研究されている[10]。従来から、韻律的特徴の重要性は認識されていたものの、認識に有効に利用することは困難とされてきたが、音声認識の対象が自由発話や話し言葉に移行するにつれて、韻律の重要性は高まっており、今後の研究の進展が期待される。
韻律的特徴に限らず、スペクトル的特徴空間における大局的特徴を音韻的特徴と並行して抽出し、認識に利用する手法は、今後研究が期待される分野である。そのひとつとして、大局的特徴をストリームとしてトラッキングしながら抽出する手法の研究が注目される[11]。複数話者の音声の分離だけでなく、話者ごとの大局的特徴を抽出して正規化に利用したり、認識の単位を音素だけでなく文節や文などの長い単位で扱うような場合の特徴抽出にも、応用が期待される。
3.11.2.5 認識単位・記号系の検討
音声認識は、一般的に捉えれば、音響的信号を言語的記号に変換するシステムである。このようなアナログ情報(パターン情報)から記号情報への変換を、どの時点(レベル)で行うかということに関して、様々な可能性が考えられ、手法のバリエーションとなる。記号化により、計算機の処理の効率が向上するが、いくつかのパターンをひとつの記号に統合する際に、細かい情報が捨象され、一般的には精度が低下する。従って、認識対象に適したモデル化と記号化を行うことが、システム設計の上で重要である。音声信号を直接的に記号に変換する方式は、音声符号化と呼ばれ、簡易な手法としては、クラスタリングに基づいて記号化を行うベクトル量子化(VQ[5])が広く用いられる。これはHMMに基づく音声認識にも適用され、VQに基づいて出力確率を定義する離散HMMや、VQ符号に連続的確率分布を付加したSemi-Continuous
HMMなどがある。また、音響モデルの単位は、音声認識が出力する記号の基本単位であり、この設計は、認識手法や性能に大きな影響を及ぼす。以前には、簡易型の単語認識システムとして、単語単位の音響モデルが用いられることもあったが、現在では、ほとんどの場合、音素を単位とした音響モデルが用いられている。これに対して、音節、半音節、半音素、音素片など様々な単位が検討され、性能の改善も報告されている。また、このような単位を、人間が言語学的知見に基づいて予め与えるのではなく、音声サンプルからボトムアップに自動生成する手法も重要になると考えられる[12]。さらに、前節でも触れたように、状況に応じた可変長の認識単位を利用する手法なども期待される。
音素は、言語体系に応じて定義される単位であるため、多言語に対応した音声認識システムを構築する際に問題となる。言語ごとに認識システムを設計して、その結果を統合する手法も考えられるが、多言語をシステム中で統一的に扱う場合には、音素体系の共通化を考慮する必要がある。このような体系として、音声学の分野で用いられている国際音声記号(IPA[6])がある。これは、発音記号に近い単位であり、時間方向では音素と同程度の長さの単位となる。同じ音声記号で表される音声でも、異なる言語においては実際の物理的特徴にかなり違いがあると考えられるため、田中らは、VQのレベルとIPAのレベルの中間的な共通記号系を設計し、音声認識や音声検索に適用する研究を行っている[13]。放送音声データベースなどを音声発話のキーワードで検索するような音声検索の手法としては、主として次の2通りが考えられる。
1) 音響的特徴やVQのレベルでマッチングを行う。
2) 音声データベースをいったん音声認識によってテキストに変換し、同じくテキストに変換したキーワードと、テキストレベルで検索する。
1)は、マッチングの計算量が膨大になる問題が、2)は、認識誤りの問題や、多言語やノンネイティブなどの話者に応じた認識システムを構成する必要があるなどの問題がある。中間的共通記号系は、これらを最適化するような記号化レベルを探る試みである。
本節では、従来提案されているユーザごとの情報検索サポート手法について概説する。
3.11.3.1 音声処理技術の実用化の鍵
前節では、現在の音声認識アルゴリズムの限界と、それを乗り越えようとする試みについて述べた。これは、音声認識の認識精度自体を向上させようとする方向である。しかし、このような限界があるとはいえ、雑音の少ない環境で、マイクからの距離が近く、書き言葉的な文章をある程度正確に発声する、などの条件が満たされれば、現在の技術水準でも、数万語の対象語彙を含む連続音声に対して、90%以上の認識精度が得られる。つまり、この水準でも、使い方によっては、応用範囲を拡大していく可能性は多く残されていると考えられる。本節では、音声認識の応用が生活の中で広く普及するようになるための、認識精度以外の要因について述べる。
これまでにも、本調査研究の報告において、音声認識技術の実用化を進めるための課題として、
1) 認識対象の拡大と認識精度の向上
2) ユーザーインターフェースの改良
3) 意味や意図など人間並みの知的能力の実現
などを挙げた[14]。また、現在の技術水準の制約のもとで適用可能な応用分野として、
1) 高度な意味処理を必要としないもの(ディクテーションや音声検索など)
2) 認識対象となる状況が限定されるもの(パソコンのOSやアプリケーションのメニューの代替、秘書システム、電話応答案内システムなど)、
3) 必ずしも正確な応答を必要としないもの(ゲームや玩具やペットロボットなど)
を挙げた[15]。本報告では、システムの実装上の観点を中心として、実際の製品化の上では、上記のような情報処理技術に関する要因よりも、むしろ小型化と低価格化といった実装上の要素技術に関する要因が重要である、という観点で述べる。
3.11.3.2 小型化と低価格化
音声認識の研究は、通常ワークステーション(高速CPUのPCやPCクラスタなどを含む)上で行われるため、その時点での最先端の性能を期待して製品化しようとすると、サーバ型の大規模システムが必要になる。電話による音声応答(CTI[7]/
IVR[8])など、このような大規模システムでも実現可能な応用分野もあるが、通常の家電製品などを想定した場合は、小規模の組込みシステムとして実装する必要がある。従来は、組込みシステムにおける音声処理には、DSP[9]が用いられることが多かったが、近年は、ほとんどの場合、組込み用の小型マイクロプロセッサ(MPU[10])が用いられるようになってきた。これは、MPUの処理速度の向上と、低価格化によるものであり、現在は、数十から数百MIPSの組込み用低消費電力型MPUが、数百円から数千円で利用できるようになっている。すなわち、ここ数年で、組込み用MPUの処理性能は約10倍に向上し、同一性能あたりの価格は約1/10に低下した。
さらに、部品や実装上のコストだけでなく、音声認識技術自体のコストも低下している。HMMなどの技術が確立され、開発用ミドルウェアやソフトウェアツールや普及することにより、専門家でなくても、比較的容易にプログラムの一部として音声処理機能を組込むことが可能になってきている。また、MPUを採用することにより、DSPや専用チップを用いる場合と比べて、汎用のプログラミング言語を利用することができ、ソフトウェア上でも開発コストを低減できる。また、汎用MPUは、他の機能を実現するためにも、いずれはほとんどの機器に組込まれることになると予想されるため、そこに音声機能を追加する形であれば、コストはさらに低くなる。
このような状況の変化は、音声処理技術の応用のされかたにも変化をもたらす。これまでは、音声認識機能を組込むことが、その製品のコストにおいて大きな負担となるため、その機能が大きな効果をもたらさなければ、採用する意味を見出せなかった。しかし今では、コストに占める割合を、無視できる程度に抑えることができるため、すべての家電製品に、いわばオマケの機能として組込むことも、不可能ではなくなってきている。例えば、駅の切符販売機やビデオレコーダの予約などに音声認識機能を使うような場合に、従来は、その機能の有効性を前面に押し出す必要があったため、少しの認識誤りがあっても「使えない」システムとして切り捨てられてしまう傾向があったが、通常のボタン操作などによるインターフェースと併用する形で、オマケとして音声認識機能を提供するようになれば、多少認識精度や使い勝手に問題があっても、身体的障害などにより通常のインターフェースの利用が困難なユーザや、手荷物などの状況によっては、利便性が向上につながるし、そうでない場合には従来のインターフェースを使える。このようにインターフェースを選択的に利用できるような製品を提供していくことにより、無理なく普及が進むと期待できる。これが進めば、将来的には、どのような製品にも音声認識機能が組込まれ、どこに居てもボタンなどの入力装置を意識することなく機器を利用できるというような、所謂ユビキタスな環境の実現に近づくと期待される。
3.11.3.3 事例
上で述べたような、小型MPUを用いた音声処理装置の製品の事例を紹介する。
写真1は、組込み用音声認識装置の例である(ケンウッド社製)。約20MIPS程度の組込み用MPUを用い、数百から数千語程度の不特定話者音声認識を20cm角程度のワンボードで実現している。開発用ボードのため、プログラム書き換え用のフラッシュメモリなどが含まれているが、製品としてプログラムを動作させるだけであれば、MPUとメモリのみで構成して、3から4チップ程度で実装できる。他に、このボードでは、下段のアナログ回路により、雑音対策などを実現している。
写真2は、1DINサイズの車載用PCの試作機である(ケンウッド社製)。音声処理専用ではなく汎用装置の例として紹介する。これは、MPUとしてクロック800MHzのCrusoe(Transmeta社製)を採用した、PC/AT互換パソコンで、通常のWindows2000/XPやLinuxなどの汎用OSが動作する。USBやPCカード(PCMCIA)やBluetoothなどの一般的な外部入出力インターフェースを備えているため、USBカメラやGPSなどのセンサからの情報の取り込みや、無線LANによるインターネット接続なども可能である。近い将来において、道路上の通信インフラの整備が進み、これと連携した電子商取引システムが発展すれば、道路情報の把握やドライブスルーなどのサービスの利用が拡がり、ITSやテレマティークにおける中心的デバイスとなると期待される。また、自動車の制御情報も含めた車載電子機器の電子的なインターフェースの統一化が進めば、自動車の安全な運行にも寄与すると考えられる。このような車載PC上で、通常の汎用PC用の音声認識・合成ソフトウェアを問題なく動作させることができるため、自動車の電子化においても、音声処理技術の導入が急速に進むと予想される。
次世代音声認識の動向として、認識手法の発展の方向性を、セグメントモデル、複数モデル、大局的特徴、認識単位の4通りの潮流として紹介した。また、今後の音声認識技術の普及のためには小型化と低価格化が鍵となる、という観点で、実用化の動向について述べた。音声認識システムの課題としては、これ以外にも、複数の話者が同時に発話するような状況への対応や、話者がマイクから離れた場所で移動するような状況、雑音やBGMなどへの対応など多くの問題が残されている。現在は、多くのユーザが、音声認識システムを実際に使ってみると、期待に反して「使えない」と評価することが多いが、「使える」と評価が近い将来逆転することを、最後に希望的予測として記したい。
[1] | S. Nakagawa, ''Relationship among perplexity word accuracy and phoneme accuracy, and drawback and modification of perplexity,'' Proc. First Int. Workshop East Asian Language Resources and Evaluation (1998). |
[2] | C. J. Wellekens, ''Explicit time correlation in hidden Markov models for speech recognition,'' in Proc. ICASSP ’87, pp. 384-386 (1987). |
[3] | M. Gales and S. Young, ''Segmental HMMs for speech recognition,'' in Proc. Eurospeech ‘93, pp. 1579-1582 (1993). |
[4] | G. Zweig and S. Russell, ''Probablistic modeling with Bayesian Networks for automatic speech recognition, '' in Proc. ICSLP ’98, pp.3010-3013 (1998). |
[5] | Y. Zhao, et .al, ''Application of the Gibbs distribution to hidden Markov modeling in speaker independent isolated word recognition,” IEEE Trans. SP, Vol.39, No.6, pp.1291-1298 (1991). |
[6] | 渡辺、他, 「ベイズ的アプローチに基づく状態共有型HMM構造の学習」,信学技報, SP2002-14, pp.43-48 (2002). |
[7] | S. Katagiri, et. al, ''Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method,” IEEE Proceedings, Vol.86, No.11, pp.2345-2372 (1998). |
[8] | M. Ostendorf, V. Digalakis, and O. Kimball, ''From HMMs to segment models: a unified view of stochastic modeling for speech recognition,” IEEE Trans. ASSP, Vol. 4, pp.360?378 (1996). |
[9] | 李、他, 「認識エンジンJuliusにおけるマルチパス音韻モデルの実装」, 音響学会春季講演論文集, No.1, pp.89-90 (2002). |
[10] | Shi-wook Lee, et. al, ''Efficient Search Strategy in Large Vocabulary Continuous Speech Recognition Using Prosodic Boundary Information," in Proc. ICSLP-2000, Vol.IV, pp.274-277 (2000). |
[11] | T. Nakatani and H. G. Okuno. ''Sound Ontology for Computational Auditory Scene Analysis,” In Proc. AAAI-98, pp.1004-1010 (1998). |
[12] | H. Kojima and K. Tanaka, "Formation of phonological concept structures from spoken word samples," in Proc. ICSLP-92, pp. 269-272 (1992). |
[13] | K. Tanaka, et. al, '' Speech Date Retrieval System Constructed on a Universal Phonetic Code Domain,” in Proc. IEEE Workshop ASRU2001, pp.1-4, (2001). |
[14] | 「人間主体の知的情報処理技術に関する調査研究III」AITEC (2000). |
[15] | 「人間主体の知的情報処理技術に関する調査研究IV」AITEC (2001). |