人間主体の知的情報技術IV

3.7　アノテーションに基づくデジタルコンテンツの高度利用

3.7.1　トランスコーディング：デジタルコンテンツの高度利用

　デジタルコンテンツがあたりまえのものとして世の中に溢れ出したのは、20世紀の情報技術の進歩からすると必然的であっただろう。そして、それら膨大なコンテンツを活用するための技術もさまざまなものが発明され、進歩を遂げていくことは間違いがない。これまでは、ともかくコンテンツを作成して流通させることが主目的であったのに対し、これからは、それらのコンテンツをいかに賢く利用するか、あるいは、いかに多様に、多目的に利用するか、ということが最も重要な課題になると思われる。本章は、そのための一つの有望なアプローチについて解説する。
　デジタルコンテンツの高度利用の主なものに、パーソナライゼーションとアダプテーションがある。デジタル放送の映像やWeb ページなどのデジタルコンテンツをユーザの好みに応じて変換することをパーソナライゼーションと呼び、それらのコンテンツをパソコンやPDA（Personal Digital Assistant）や携帯電話などのデバイスの特性に合わせて変換することをアダプテーションと呼ぶ。
　本章では、デジタルコンテンツのパーソナライゼーションとアダプテーションを合わせたものをトランスコーディングと呼ぶ。現状では、インターネットへのアクセスはパソコン経由で行なわれることが多い。しかし、この様相は近年、急激に変わりつつある。パソコンに加えて、携帯電話やPDA、テレビ、カーナビなどを使ってインターネットにアクセスする機会がますます増加するだろう。このとき重要となるものがトランスコーディングである。たとえば、パソコンで表示することを前提にして作成したWebページを携帯電話などで表示する場合、画像の縮小やテキスト部分の圧縮といった操作を自動的に行なう必要がある。トランスコーディングには、少ない伝送容量を使ってサーバからクライアントにコンテンツを配信できるという利点の他に、ユーザの嗜好に応じた理解しやすいコンテンツを生成できるといった利点がある。トランスコーディング技術を使えば、画面の表示機能やデータ伝送速度など、それぞれ違った仕様や制約をもつ多様な機器に対して、1つのコンテンツ・ソースから情報やサービスを提供できるようになる[3]。コンテンツ・プロバイダやサービス・プロバイダは、それそれの機器に対応したコンテンツを別個に用意しなくても済む。具体的な応用例としては、パソコン向けWeb コンテンツのトランスコーディングによって、iモード向けのコンテンツを生成するといった利用法がある。コンテンツ・プロバイダは、現状のようにパソコン向けとiモード向けのコンテンツを作り分ける必要がなくなる^[1]。

3.7.2 セマンティック・トランスコーディング：デジタルコンテンツの意味的拡張

　このトランスコーディングをさらに進めて、テキストの要約などの内容に基づく処理の精度を高める工夫を盛り込んだのが、筆者の提案するセマンティック・トランスコーディングである[8]。具体的には、コンテンツに含まれるテキスト文要素に言語的な付加情報（アノテーション）を加えることによって、要約や翻訳などの自然言語処理の精度を大きく向上させることができる。たとえば、付加情報を使ってコンテンツに含まれるテキスト文の曖昧さを軽減すると、正確な要約や翻訳が期待できる。コンテンツにアノテーションを付ける手間が増すが、重要な情報はアノテーションをつけて正しく情報を伝え、共有すべきという考えに基づいている。このアノテーションはコンテンツの内容理解を促進するものと位置付けられる。現在、筆者らは原著者を含む多くの人々が文書の内容に関する補足的情報を付加できるような枠組み作りや、その情報を加味して文書を読者に適した形に加工する仕組み作りに取り組んでいる。セマンティック・トランスコーディングは、基本的にテキストコンテンツの処理を中心としたものであるが、その手法は映像や画像などの非テキストコンテンツの加工にも応用され、マルチメディア・データを含むコンテンツに適用できる。
　セマンティック・トランスコーディングは、ユーザが指定したWeb 上の新聞記事などのコンテンツを任意の圧縮率で要約して表示したり、テレビ番組などの映像データからユーザの好みに応じた話題だけを抜き出して、ダイジェスト映像を作成するといったことを可能にする。さらに、要約したコンテンツを翻訳したり、テキストを音声化して聴くこともできる。
　図3.7-1はセマンティック・トランスコーディングシステムの構成を表している。コンテンツサーバにおかれたテキスト、画像、音声、映像などのコンテンツはトランスコーディングプロキシによって、ユーザの使用するデバイス（パソコン、携帯電話、カーナビなど）や、ユーザの要求(概要をつかみたい、母国語で読みたい、声で聞きたい、など)に合わせて加工される。このとき、アノテーションと呼ばれる付加情報を用いて、より精度の高い要約・翻訳を行なう。アノテーションはアノテーションサーバに蓄えられている。
　図3.7-2で示されるように、アノテーションは、現在のWebに上位構造を作る基盤になる。現在のWebコンテンツが最下層で、アノテーションはコンテンツに情報を付け加えるメタ（上位）コンテンツ、さらにメタコンテンツに対するメタコンテンツのように階層をなしている。
　セマンティック・トランスコーディングの手法を使って、具体的にはHTML文書などのWebコンテンツが抱える、以下の3つの課題を解消できるだろう。

HTML（HyperText Markup Language）ではレイアウトなどの文書の表現については規定している。しかし文書の意味などといった内容に関してはほとんど何も規定していない^[2]。
HTMLなどで記述したハイパーテキストは、各文書間のネットワーク構造を記述できる。ただし、リンク情報が常に正しいとは限らず、その修正ができるのは基の文書の著者だけである。
Web文書の著者は一般にその読者のことを考慮して著作してはいない。なおかつ著者と読者の間に立って吟味・調整する役割の人間も通常はいない。

　 Webは、新しいスタイルの文書のあり方を示したという点において革新的だったと言えるだろう。Webコンテンツの自由度の高さは疑いようがない。しかし、現状ではWeb コンテンツを読者が読みやすいような体裁に機械的に変換することは非常に困難である。
　図3.7-2にあるように、従来のWebコンテンツは一枚の平面上に存在する要素郡として捉えることができる。セマンティック・トランスコーディングでは、Web コンテンツを平面から立体に拡張する手法を提案する。コンテンツの各要素に意味や文書構造を示すアノテーションを付加する。このことによってWebコンテンツに、コンテンツの各要素の意味や文書構造を記述した上位構造を築く。代表的なアノテーションの例としては、リンク元の文書に埋め込まれていないハイパーリンクである外部リンク^[3]や、コンテンツに対するコメントなどが挙げられる。アノテーションを作成して公開することが容易になれば、Webコンテンツの表現力は大幅に高まり、その利用価値が飛躍的に向上するだろう。

3.7.3　アノテーションとトランスコーディング

　ここでのアノテーションには、大きく分けて3つの種類がある。テキスト文の言語構造などを付与する言語的アノテーション、画像やハイパーリンクなどのコンテンツを構成する各要素に対するコメント・アノテーション、ビデオ映像などマルチメディア・データの意味的構造を記述するためのマルチメディア・アノテーションがある。具体的な応用例としては、Webページの要約や翻訳、レイアウト変換、音声→テキストやテキスト→音声といった変換、映像から要約した映像への変換などが挙げられる。さらに、複数のコンテンツからユーザの好みに合った新規のコンテンツを生成するといった応用も視野に入っている。実際にアノテーションを付与する手法は、コンテンツの種類によって異なる。

図3.7-1　セマンティック・トランスコーディングシステムの構成

図3.7-2　アノテーションによるWWW の拡張

3.7.3.1　アノテーションエディタ
　コンテンツに効率良くアノテーション情報を付加するために、筆者らはアノテーションエディタと呼ばれるオーサリングツールを開発している。これをアノテーションデータの自動生成や編集に用いる。アノテーションエディタはJavaアプリケーションとしてユーザ側のクライアント上で利用できる。生成したアノテーションデータは、アノテーションサーバへ送信され、分類／格納される。アノテーションデータの記述には、XMLを用いる。アノテーションデータを記述したWebページが更新された場合、更新前のアノテーションデータの再利用を図る^[4]。更新前のアノテーションデータを参照しながら、更新後のアノテーションデータの再構成を試みるような仕組みを取り入れた。
　このエディタを使って、ユーザは言語構造(構文や意味に関する構造)に関するアノテーションをテキスト文に付加したり、コンテンツ内の画像や音声といった要素にコメントを付けたりすることができる。言語構造に関するアノテーションは自動生成できる。ただし、その構造に曖昧さが含まれる場合は、ユーザがアノテーションエディタを操作して修正する。言語構造の表示は、ツリー状に表示してその構造が把握しやすいように工夫した。
　図3.7-3は、アノテーションエディタの画面例である。これは、テキストに含まれる言語構造を自動解析し、その結果を修正するツールである。言語構造をビジュアル化して表示し、簡単なマウス操作で、修正できる。その他の機能として、HTML文書の任意のタグ要素にコメント文を付け加える機能がある。
　さらに、われわれはコンテンツの原著者がアノテーションを制御する方法を開発している。原著者が自分のコンテンツに対する一切のアノテーションを許可しない場合、コンテンツ内にアノテーションを許可しないという記述を入れることによって、アノテーションサーバがそれを認識し、アノテーションエディタからの要求がきても拒否するような仕組みになっている。

図3.7-3　アノテーションエディタの画面例

3.7.3.2　言語的アノテーションとテキスト・トランスコーディング
　テキスト文書のトランスコーディングとは、言語的アノテーションを用いたテキスト文書の加工を指す。言語的アノテーションは、修飾-非修飾関係といった言語構造や固有名詞、動詞といった意味付けをコンテンツに与えるために使う。具体的には、XML形式のタグを使って言語構造や意味付けを基となるコンテンツに付加する。
　言語的アノテーションは、コンテンツに含まれるテキスト文の言語構造に関するアノテーションである。語間の係り受けや代名詞の指示対象、多義語の意味といった詳細な情報を含む。この言語的アノテーションは、ドキュメントの内容理解に大きく貢献し、テキスト文のトランスコーディング以外にも、たとえば、内容検索や知識発見などにも利用できる。
　言語的アノテーションの記述形式として、GDA（Global Document Annotation）と呼ばれるものがある[2]。これは、XML形式のタグを利用して、文書の統語・意味・談話構造を明示化するものである。GDAタグ付きドキュメントは、たとえば以下のようなものである。

<su><adp rel="loc"><adp rel="pos">人間の</adp><np sense="0f2e4c">細胞</np>には、
</adp><np syn="p"><np><vp><adp><adp><np sense="0f74e9">自動車</np>でいえば
</adp><adp rel="iob">アクセルに</adp>当たり、</adp><adp rel="obj">
<np id="a1" sense="3be2c7">がん</np>を</adp><adp rel="gra">どんどん</adp>増殖する
</vp><n>「<namepid="a2"><np eq="a1" sense="3be2c7">がん
</np><n id="a3" sense="3bf4d0">遺伝子</n></namep>」</n></np>と、
<np><adp><np rel="pos" sense="107ab3">ブレーキ</np>役の
</adp><n>「<namep id="a4"><np eq="a1"rel="obj" sense="3be2c7">がん
</np><nsense="10d244 3cf57c">抑制</n><n eq="a3" sense="3bf4d0">遺伝子</n></namep>」
</n></np></np>がある。</su><su><adp rel="cnd"><adp rel="sbj">
<np><adp rel="pos"><np eq="a2 a4" sense="0face2">双方</np>の</adp>バランス
</np>が</adp>取れていれば</adp>問題はない。</su>

　これらは統語構造を表わしており、各エレメント(タグで囲まれた部分)は統語的構成素である。ここで、<su>は一文の範囲を表し、<n>, <np>, <vp>,<adp>, <namep>は、それぞれ名詞、名詞句、動詞句、形容詞句/形容動詞句(前置詞句、後置詞句を含む)、固有名詞句を表す。syn="p"は等位構造（たとえば上の「～がん遺伝子と～がん抑制遺伝子」）を表わす。等位構造の定義は、係り受け関係を共有するということである。特に何も指定がない場合は、たとえば、<np><adp rel="x">A</adp><n>B</n> </np>はAがBに依存関係があることを表す。また、rel="x"は<adp>エレメントの関係属性を表している。また、sense="*"は語義属性を表している（属性値としては、たとえばEDR単語辞書[5]の概念識別子が利用できる。また、一語が複数の語義を持つ場合は、属性値が複数になる）。
　この形式を用いて、テキスト文書の要約や翻訳を実現する。たとえば、このタグを使った要約のアルゴリズムは以下のようになる[9]。

①	要素とその参照要素の間で重要度が等しくなり、それ以外では重要度が減衰するように重要度の計算(活性拡散)を実行する。
②	重要度の拡散演算が終了した時点で、平均重要度の大きい順に文を選択する。
③	選択された文で削除すると意味が通らない必須要素を抽出する。
④	文の必須要素をつなげて文の骨格を生成し、要約に加える。代名詞などの参照表現の先行詞が要約に含まれない場合は参照表現を先行詞で置き換える。
⑤	要約が指定された分量に達したときは終了する。まだ余裕がある場合は、次に重要度の高い文と省略した要素の重要度を比較して、高い方を要約に加える。

　必須要素になり得る要素は、大きく分けて3つある。一つは要素の主辞である。主辞とは、ほかの要素に依存しない中心となる要素である。もう一つは内容、原因、条件、主題などの関係属性を持つ要素で、たとえば、主語や目的語などがあてはまる。ほかに、等位構造が必須要素の場合は、それに直接含まれる要素も必須要素になる。等位構造とは、たとえば二つの要素Aと要素Bが、AND あるいはORの関係で結ばれている構造を指す。等位構造の要素のうちいずれを削除しても文の意味が変わってしまう。
　今回の手法では、特定の個人の趣味や嗜好により柔軟に合わせて一連の処理を実行することも可能である。実際に今回開発したシステムでは、要約を開始する時点でユーザが任意のキーワードを入力して嗜好や興味を反映できるようにした。ユーザが入力したキーワードと関連する単語を重要語として処理する。重要語を含む要素は重要度の初期値をかなり大きく取る。このうえで重要度の拡散演算を行なう。さらに、今回のシステムでは、ユーザの趣味や嗜好の学習機能も盛り込んだ。キーワード設定の行動履歴に応じて、コンテンツに含まれる要素の重要度を決める。これによって、要約システムは特にユーザからの入力がなくても、その後、ユーザに特化した要約を生成することができる。このほか、テキスト文書のトランスコーディングの例としては翻訳が挙げられる。現在、英語から日本語、および英語からヨーロッパ言語(ドイツ語、フランス語、スペイン語、イタリア語)の自動翻訳をトランスコーディングとして実現している。今回、英日翻訳に関しては、日本アイ・ビー・エムが開発した翻訳エンジンを使用している。当社のパソコン向け翻訳ソフトウェア「インターネット翻訳の王様」の翻訳エンジンを、アノテーションを考慮して翻訳するように拡張した。翻訳で用いる言語的アノテーションはIBM 東京基礎研究所が開発したLAL（Linguistic Annotation Language）に基づいている[15, 16]。翻訳時のトランスコーディングでは、アノテーションデータをGDA からLAL へ自動的に変換してから翻訳エンジンに渡している。
　LAL 形式の文は、たとえば以下のようなものである(mod は係り先を、pos は品詞を表す)。

<s>
<w id="1" mod="2" pos="det">The </w>
<w id="2" mod="6" pos="n">goal </w>
<w id="3" mod="2" pos="prep">of </w>
<w id="4" mod="5" pos="det">our </w>
<w id="5" mod="3" pos="n">research </w>
<w id="6" mod="0" pos="v">is </w>
<w id="7" mod="6" pos="infto">to </w>
<w id="8" mod="7" pos="v">make </w>
<w id="9" mod="8" pos="pron">it </w>
<w id="10" mod="8" pos="adj">easy </w>
<w id="11" mod="10" pos="prep">for </w>
<w id="12" mod="13" pos="n">users </w>
<w id="13" mod="11" pos="conj">and </w>
<w id="14" mod="15" pos="n">content </w>
<w id="15" mod="13" pos="n">providers </w>
<w id="16" mod="10" pos="infto">to </w>
<w id="17" mod="16" pos="v">increase </w>
<w id="18" mod="21" pos="det">the </w>
<w id="20" mod="21" pos="n">reach </w>
<w id="21" mod="17" pos="conj">and </w>
<w id="22" mod="21" pos="n">customizability </w>
<w id="23" mod="21" pos="prep">of </w>
<w id="24" mod="25" pos="n">Web </w>
<w id="25" mod="23" pos="n">contents</w>.
</s>

　図3.7-4(a)は基となるコンテンツであり、要約・翻訳した結果が(b)である。
　翻訳エンジンによる誤訳の多くの部分は、語間の係り受け解析の失敗や、多義語の訳語選択の失敗による。係り受けや語義を明示化したアノテーションをコンテンツに付加することによって、翻訳精度の改善が見込める。将来的にはコンテンツの作者は、トランスコーディングによって誤解が生じるのを防ぐために、積極的にアノテーションを付けるようになるだろう。
　近い将来、Webコンテンツを母国語でしか表現していない人々が、トランスコーディングによってさまざまな言語圏の人々に情報発信できるようになるだろう。
　また、読者の理解度に合わせて専門的な表現をより一般的な表現に書き換えて、わかりやすい文章にする、パラフレーズ・トランスコーディングについても研究を進めている。

3.7.3.3　コメント・アノテーションと音声トランスコーディング
　セマンティック・トランスコーディングシステムは、テキスト文などのコンテンツを音声合成によって、音声に変換することもできる。テキスト文だけでなく、画像とテキスト文が混在するコンテンツの場合、画像の説明にあたるコメント・アノテーションを用いることによって、非テキスト要素も含めて音声化することができる。さらに固有名詞など、正しい読み方が音声合成用の辞書に無い場合も言語的アノテーションによって、読み方を指定することができる。
　図3.7-5 は、Web ページの音声トランスコーディングの結果を示している。音声化を行なうとMP3（MPEG-1Audio Layer 3）データが生成され、該当する部分にアイコンが挿入され、リンクされる。ブラウザ上でそのアイコンをクリックするとプレイヤが起動して音声が再生される。
　コメント・アノテーションは、主に非テキスト要素に対する任意のコメントを含むアノテーションである。コメントはテキスト文だけでなく、画像やハイパーリンクなども含むことができる。たとえば、コメント・アノテーションを含んだ画像をマウス・ポインタで指すと、その画像の説明ウィンドウがポップアップして表示される。あるいは画像とテキストを含むコンテンツ全体を合成音声で読み上げた場合、画像部分に関してはコメント・アノテーションを参考にして音声化する。コメント・アノテーションは以前から研究が行なわれている。たとえば、コメントを管理するサーバと、コンテンツにコメントを加えて加工するプロキシを別個に用意するというものである[10, 11]。これはコンテンツを共有するグループが、コンテンツに関する補足情報を効果的に共有できるように配慮したものである。基本的には、セマンティック・トランスコーディングの枠組みもこれと同様である。ただし、コメントを付与する単位がコンテンツ全体ではなく、任意のHTMLの要素に対して行なえる。コメントはそれを読む人間のためであると同時に、そのコンテンツを機械が理解して適切にトランスコードするための手段として捉えている。
　実際にコンテンツを音声に変換してユーザに配信するには2 種類の方法があるだろう。一つはトランスコーディングを担当する外部サーバが音声データを作成してクライアントに配信する方法である。クライアントが音声合成機能を持たない場合に有効である。たとえば、携帯電話からWebページにアクセスするときに使う。もう一つは、音声合成システムを備えたクライアントに加工したテキストデータを配信する方法である。この場合、音声合成に適した形式にコンテンツをトランスコーディングすることになるだろう。MP3のデコーダが内蔵された携帯電話が発売されるようになった。今後、配信された音声データを携帯電話に保存して、ユーザの都合の良いときに聞くといった使い方が盛んになると思われる。

図3.7-4(a)　テキスト・トランスコーディングの例

図3.7-4(b)　テキスト・トランスコーディングの例

図3.7-5　音声トランスコーディングの例

3.7.3.4　イメージ・トランスコーディング
　画像のトランスコーディングは、ユーザが使用する機器の表示能力などに合わせてコンテンツに含まれる画像のサイズや解像度を変換する処理である。今回のシステムでは、変換された画像は必ず基となる画像へのリンクを含むようにした。トランスコーディング前のサイズや解像度で見たいときは、単にその画像をクリックすれば基の画像が現れる。今回、画像のトランスコーディングとテキストのトランスコーディングを併用して、ユーザの好みに応じて、画像と文書の表示バランスを変えられるようにした。表示する要約の分量や、画像と文書の表示バランスは設定ウィンドウで調整できる。

3.7.3.5　マルチメディア・アノテーションとビデオ・トランスコーディング
　映像コンテンツをトランスコーディングする場合、まず映像コンテンツに含まれる音声のトランスクリプト(書き起こしたテキスト文)を用意する。このトランススクリプトに、意味構造や、シーンの変わり目のタイムコード、シーンごとのキー・フレームの位置、映像の各シーンに登場するオブジェクトの名前とその出現位置(時間と座標)などをアノテーションとして付加する。
　セマンティック・トランスコーディングシステムでは、トランスクリプトを自動的に生成して、半自動的にアノテーションを作成できる。映像のシーンの変わり目も自動認識し、シーンに関するタグ付けを支援する。
　このシステムは、現在のところ、映像コンテンツの要約の生成、映像コンテンツからテキストと画像からなるコンテンツへの再構成や、ビデオ音声の翻訳などが実現できる。
　図3.7-6(a)はビデオアノテーションエディタの画面例を示している。このエディタは、ビデオのシーンへの分割と音声部分のテキスト化を行なう。自動処理の結果はインタラクティブに修正できる。(b)はビデオのアノテーションに基づいて作成した要約ビデオを再生するプレイヤの画面例である。要約ビデオモードでは、要約部のみを再生し、フルビデオモードでは、任意のシーンをランダムに選択・再生できる。
　映像を要約するには、まず映像のトランスクリプトを要約する。その要約に対応する映像シーンを抽出することによって映像の要約を実現している。映像シーンの抽出は、タイムコードの情報を手がかりに自動的に行なう。映像コンテンツからテキストとイメージへの変換は、クライアント側にビデオ再生機能が無い場合に有効に使えるだろう。映像コンテンツ中に含まれる、それぞれのシーンを代表する画像とそれぞれのシーンの内容を表すテキスト文からなるコンテンツを生成することができる。さらに、生成したテキスト文を要約／翻訳することも可能である。近い将来に映像コンテンツの音声部分を翻訳し、映像と同期させながら合成音声で出力させる機能も今回のシステムに統合したい。一つの映像コンテンツから複数の言語に対応した映像コンテンツを作成することが実現できるだろう。われわれは映像コンテンツが今後重要な情報ソースになることを確信している。そのため、要約やフィルタリングに限定されない、コンテンツの再利用を可能にするさまざまな枠組みをできるだけ早めに用意しておきたいと考えている。今回のアノテーションを利用した

図3.7-6　ビデオアノテーションと要約ビデオプレイヤ 手法は、将来の枠組みに対しても容易に付加情報を変換して対応できるようにした。たとえば、MPEG-7（Moving Picture Experts Group Phase 7）のようなアノテーションの標準的なフレームワークが確立した場合にも容易に移行できる。MPEG-7は、ISO/IECに属するMoving Picture Experts Group（MPEG）によって標準化活動が行なわれている新しい規格である[7]。これはマルチメディア・コンテンツ記述という新しい仕様を含む。このコンテンツ記述は、映像に直接含まれないデータ（いわゆるメタデータ）によって検索や要約を容易にする仕組みを設けることを試みる。さらに、映像を再生する表示デバイスのスペックに応じて、画像の解像度を変えたり、色情報を減らしたり、音声の帯域を制限したりすることも考慮されている。さらに、シーンに登場する人物や物、場所などの情報も付け加える、オブジェクト・レベルの記述も可能になる見込みである。
　MPEG-7は、例えば、以下のような形式で表されるメタデータのフレームワークである（詳しい説明は省略する）。

　現在、映像コンテンツの要約はテキストの要約と同様に盛んに研究が進められている。古くはCarnegie Mellon Universityが開発したInfomediaがある。これは、映像コンテンツに含まれるさまざまな属性を自動抽出して、より重要な部分を選択する[14]。たとえば、画面上に現れる文字情報や人の顔、シーンの変わり目、クローズド・キャプションと呼ばれる字幕情報などを使う。あらかじめリストアップされた重要な固有名詞の出現頻度や、キーワードの重要度を計算し、そのキーワードの現れるシーンをつなぎ合わせて要約とする。他の例としては、IBM Almaden Research Centerが開発しているCueVideo[1]や、同T. J. Watson Research Centerが開発しているVideoZoom[13]が挙げられる。
　CueVideoでは、映像コンテンツ中のキー・フレームを並べて表示する。人間がキー・フレームのどれかを選択し、その部分の映像のみを再生することによって、人間が映像コンテンツ全体を見る手間を減らすことができる。さらにCueVideoでは、紙芝居のように静止画を表示しながら音声を再生する手法も採用した。シーンの変化時だけ静止画を入れ替える。コンテンツのダウンロードに要する時間を節約することをねらった。音声は再生スピードを変化させることによって、早口にしたり、ゆっくり聞き取りやすくすることもできる。このほか、音声認識を利用した映像シーンの検索も実現した。任意の単語やフレーズを入力すると、音声認識でその言葉を含む部分を抽出してリストアップを行なう。そのうちのどれかを選択するとその部分を再生する。
　IBM T. J. Watson Research CenterのVideoZoomでは、映像の解像度をシーンに応じて動的に変化させる。たとえば、解像度の低い映像をまずダウンロードして、細かく見たいところのみについて差分の情報を追加していくことができる。この手法も、ネットワークや表示デバイスの制約に依存して、映像コンテンツを加工するトランスコーディングの一種と言える。

3.7.4　トランスコーディングの仕組み

　セマンティック・トランスコーディングの具体的なシステム構成としては、トランスコーディング実行用のソフトウェアを、プロキシサーバ側に置いた。プロキシサーバは、ユーザがパソコンなどのクライアント側からコンテンツを渡すと所望の結果を返す。さらにアノテーション情報や事例を収めたアノテーションサーバを別個に用意した。こうした形をとるのは、不特定多数の人がソフトウェアを利用してもらうことで、サーバ側の事例辞書にノウハウを蓄積し変換精度を高めるためである。
　セマンティック・トランスコーディングを実行する複数のソフトウェア・モジュール（トランスコーダ）は、HTTP（HyperText Transfer Protocol）プロキシ上で機能するプラグインとして実装した。トランスコーダを従制御するHTTPプロキシをトランスコーディングプロキシと呼ぶ。トランスコーディングプロキシを中心とした情報の流れは次のようになる。

①	クライアントのWeb ブラウザからURL（Uniform Resource Locator）とクライアントIDを受け取る。
②	WebサーバにURLの示すWebページをリクエストする。
③	Webページを受け取ると、そのハッシュ値を計算する。
④	アノテーションサーバにURLに関連するアノテーションデータを要求する。もし、アノテーションデータが見つかったら、アノテーションサーバからデータを受け取る。
⑤	データを受け取ると、データのハッシュ値とWebページのハッシュ値と比較する。
⑥	同時にクライアントIDに基づいてユーザ情報を検索する。ユーザ情報がない場合は、ユーザから与えられるまでデフォルト設定を使う。
⑦	ハッシュ値を照合したら、アノテーションデータとユーザ情報に基づいて適切なトランスコーダを起動する。
⑧	加工したコンテンツをユーザのWebブラウザに送信する。

　トランスコーディングプロキシは、実装環境としてIBM Almaden Research Center の開発したWBI（WebIntermediaries）を使用した^[5] [4]。このWBIを利用したトランスコーディングプロキシには、以下の3つの主要な機能がある。個人情報の管理、アノテーションデータの収集と管理、そしてトランスコーダの起動と結果の統合である。
　個人情報の管理を行なうには、まずアクセスしてきたユーザを特定する必要がある。ユーザの特定にCookieを使う。個人情報を管理するIDを、Cookieデータとしてユーザに渡す。これにより、ユーザのアクセスポイントに関係なくユーザの特定が行なえる。ただし、既存のWebブラウザは、Cookieをセットしたサーバに対して、そのCookieを渡すものであり、プロキシのCookie利用は考慮されていない。通常プロキシは、ホスト名とIP（Internet Protocol）アドレスのみによってユーザを識別する。そこで、ユーザが個人情報をセットした時に、Cookie情報（ユーザID）と個人情報を関連付け、一方、アクセスポイントの変化ごとにIPアドレスとホスト名、Cookie情報（ユーザID）を関連付け直す。これによりIPアドレスが変化してもユーザの特定が行なえる^[6]。
　トランスコーディングプロキシは、アノテーションサーバと通信して、アノテーションデータを入手する。アノテーションサーバは複数存在するので、それぞれのサーバの管理するアノテーションデータのインデックスを定期的に作っておく。このインデックスを、どのアノテーションサーバからデータを入手すべきかを判断するときに役立てる。トランスコーディングプロキシの最も重要な役割は、個人情報とアノテーションデータに基づいてコンテンツを加工することである。コンテンツの加工は、必要なトランスコーダを起動し、その結果を統合することによって行なう。現在、開発済みのトランスコーダは、テキスト文、画像、音声、映像にそれぞれ対応したものである。これらのトランスコーダは、直列あるいは並列に結合することで、複合的なトランスコーディングが実現できる。たとえば、文書を要約後に翻訳して、さらに音声化するなどの一連の処理をトランスコーダの使い分けにより行なう。

3.7.5　おわりに：情報の洪水を乗り切るために

　今後の課題は、Web コンテンツの効率的な検索および知識発見を実現することである。近い将来には、Web上の情報検索には、既存の検索エンジンから、複数のコンテンツから新たな知識を得てその結果を要約して出力するような、いわば知識発見エンジンを使うようになるだろう。それによって、ハイパーリンクを集めた大量のリストの代わりに、短時間で容易に理解できるように要約されたコンテンツを読むことができるようになる。さらにもう一つの課題は、映像や音声といったマルチメディア・データを含むデジタルコンテンツの効率的な検索である。この場合の検索の質問には単なるキーワードではなく、音声あるいはテキストの自然言語文を用いる。こうした課題を克服することは、将来やってくる情報の洪水から自分自身を守る最良の方法になるだろう。オンライン・コンテンツを人類共有の知識とするために一丸となって努力をすることがなければ、人々は今後も無限に拡大していく情報の圧迫から自分自身を解放することができないだろう。

謝辞

　セマンティック・トランスコーディングは筆者とIBM東京基礎研究所の（元）学生研究員（細谷真吾、白井良成、東中竜一郎、米岡充裕、伊藤大輔、Kevin Squire）との共同研究である。諸氏に感謝します。また、ビデオアノテーションエディタの音声認識部については、IBM東京基礎研究所の西村雅史氏と伊東伸秦氏、言語解析と翻訳トランスコーダについては、同研究所の渡辺日出雄氏、アノテーションエディタのHTML解析部については、同研究所の近藤豪氏、音声トランスコーダについては、同研究所の鳥原信一氏に協力していただきました。さらに、言語的アノテーションに関しては、GDAプロジェクトと連携して行なわれています。プロジェクトリーダーの電総研の橋田浩一氏には、常に議論の相手をしていただいています。ここに記して感謝いたします。

参考文献

[1] A. Amir, S. Srinivasan, D. Ponceleon, and D. Petkovic. CueVideo: Automated indexing of video for searching and browsing. In Proceedings of SIGIR’99. 1999.

[2] Koiti Hasida. Global Document Annotation.

http://www.etl.go.jp/etl/nl/gda/.

[3] Masahiro Hori et al. Annotation-based Web Content Transcoding. In Proceedings of the Ninth International WWW Conference. 2000.

[4] IBM Almaden Research Center. Web Intermediaries(WBI). http://www.almaden.ibm.com/cs/wbi/.

[5] Japan Electoronic Dictionary Research Institute. Electoronic Dictionary.

http://www.iijnet.or.jp/edr/J index.html.

[6] Hiroshi Maruyama, Kent Tamura, and Naohiko Uramoto. XML and Java: Developing Web applications. Addison-Wesley, 1999.

[7] Moving Picture Experts Group (MPEG). MPEG-7 Context and Objectives.

http://drogo.cselt.stet.it/mpeg/standards/mpeg-7/mpeg-7.htm

[8] Katashi Nagao et al. Semantic Transcoding: Making the World Wide Web more understandable and usable with external annotations. TRL Research Report

RT0386. IBM Tokyo Research Laboratory, 2000.

[9] Katashi Nagao and Koiti Hasida. Automatic text summarization based on the Global Document Annotation. In Proceedings of COLING-ACL’98. 1998.

[10] Martin Roscheisen, Christian Mogensen, and Terry Winograd. Shared Web annotations as a platform for third-party value-added information providers: Architecture, protocols, and usage examples. Technical Report CSDTR/DLTR. Computer Science Department, Stanford University, 1995.

[11] Matthew A. Schickler, Murray S. Mazer, and Charles Brooks. Pan-browser support for annotations and other meta-information on the World Wide Web. Computer Networks and ISDN Systems. Vol. 28, 1996.

[12] SemanticWeb.org. The Semantic Web Community Portal.

http://www.semanticweb.org/.

[13] John R. Smith. VideoZoom: Spatio-temporal video browser. IEEE Trans. Multimedia. Vol. 1, No. 2, pp.157-171, 1999.

[14] Michael A. Smith and Takeo Kanade. Video skimming for quick browsing based on audio and image characterization. Technical Report CMU-CS-95-186. School of Computer Science, Carnegie Mellon University, 1995.

[15] Hideo Watanabe. Linguistic Annotation Language: The markup langauge for assisting NLP programs. TRL Research Report RT0334. IBM Tokyo Research Laboratory, 1999.

[16] Hideo Watanabe, Katashi Nagao, Michael C. McCord, and Arendse Bernth. Improving Natural Language Processing by Linguistic Document Annotation. In Proceedings of COLING 2000 Workshop for Semantic Annotation and Intelligent Content. pp.20–27, 2000.

[17] World Wide Web Consortium. Extensible Markup Language (XML). http://www.w3.org/XML/.

[1]携帯電話向けのコンテンツ変換システムは、さまざまな企業がすでに製品化している。代表的なものはIBM のWebSphere Transcoding Publisher とOracle のPortal-to-Go である。

[2]この点を反省してか、最近はセマンティック・ウェブ(Semantic Web)という考えが提唱されている[12]。これは、Web コンテンツそのものを機械が理解可能な形式にして、人間の質問に答えられるようにしようということである。しかしその実体は、ほとんど明確にされていない。

[3] 外部リンクは、XML (eXtensible Markup Language)の仕様にも取り入れられている。ただし、既存のWeb の構造上での実装方法などの実現法は、現状では議論の段階である[17]

[4]ユーザがトランスコーディングを要求したWeb コンテンツが更新されたかどうかは、DOM (Document Object Model)ハッシュと呼ばれる手法を利用する[6]。DOM ハッシュでは、Web コンテンツの内部構造に関してハッシュ値の演算を行なう。どのHTML エレメントが更新されたかを知ることができる。

[5]WBI は、IBM Corp.のWeb サイトであるalphaWorks(http://www.alphaworks.ibm.com/)からダウンロードできる。WBI は、プログラマブルなHTTP プロキシであり、通常のプロキシとしての機能のほかに、ユーザ毎のアクセス制御や、プロキシに流れるデータの加工を容易に行なえるAPI (Application Programming Interface)を提供する。

[6]通常のプロキシとして動くときは、クライアントID(ホスト名とIP アドレス)→Cookie 情報(ユーザID)→個人情報という流れで、クライアントID から個人情報を引き出す。アクセスポイントが変化したときは、プロキシをサーバとしてアクセスすることで、Cookie情報を取得し、クライアントID とCookie 情報(ユーザID)を関連付け直す。

【次へ】

3.7 アノテーションに基づくデジタルコンテンツの高度利用

3.7.1 トランスコーディング：デジタルコンテンツの高度利用

3.7.2 セマンティック・トランスコーディング：デジタルコンテンツの意味的拡張

3.7.3 アノテーションとトランスコーディング

3.7.4 トランスコーディングの仕組み

3.7.5 おわりに：情報の洪水を乗り切るために

3.7　アノテーションに基づくデジタルコンテンツの高度利用

3.7.1　トランスコーディング：デジタルコンテンツの高度利用

3.7.3　アノテーションとトランスコーディング

3.7.4　トランスコーディングの仕組み

3.7.5　おわりに：情報の洪水を乗り切るために