【前へ】

米国における最近のIT重点分野に関する調査

3.3 プログラムの分析

 ヒトゲノム計画の開始と順調な実施は、それに先立って実施された小規模で地味なプログラムとあいまって、ほんの10年前には多くの人が想像もできなかった技術的展望を開いてくれた。その過程で中心的な役割を果たしたのは、コンピュータ/情報科学と生物学という2つの科学分野の間で、徐々にではあるが着実に進められた互恵的な交流である。たしかに、この2つの専門分野は、自然な発達の過程で個別に急激な変化を経験してきたが、今や誰もが期待するようになった最も大きな反響と潜在的可能性を生み出したのは、2つの分野の密接な相互関係だった。その結実として、今後のポストゲノム時代において、新たに生じる医学の飛躍的な進歩、ヘルスケア・システムの改善、そしてそうした活動に伴う新興産業と経済成長など、当分野の研究成果が我々の生活にもたらすものへの期待に勝るものはないだろう。コンピュータ、ネットワーク、情報システムは生物学において大きな役割を果たしたが、逆に、生物学がコンピュータ分野を変化させて行く未来が予見される。この相互作用がどれだけ成功するかが、バイオテクノロジーの未来を大きく決定付けるだろう。

A. 交差領域における技術の融合

 情報学という用語は、コンピュータ、ネットワーク、そして情報システムの本質を一度に捕らえるために(特に他の地域よりも欧州で)使用されることが多いが、情報学とは、生物学系の諸科学とコンピューティング系の諸科学が交差する場である、と考えられるケースが多い。この数年、この両分野が互いをどのように変化させるかという点で、両者の相互作用の現れが顕著になり始めている。

コンピューティングは生物学をどのように変化させているか

 この変化が生起している多様な形は、次のように要約できる。

生物学はコンピューティングをどのように変化させているか

 これまでの生物学とコンピューティングの相互作用では、コンピュータの側が働きかけて生物学に変化を与えるケースがほとんどであった。しかし、逆に生物学がコンピューティングを変化させるケースも活発に生起し始めたという徴候も見られる。顕著な例を以下に示す。

B. 研究と技術の新たな領域

 2つ(以上)の専門分野間の互恵的な交流は、当然の成り行きとして、個々の分野の主流以外のところに新しい研究領域を出現させる。専門分野の学者が交差領域や未知の分野の周辺領域で何らかの課題を追求するためには、大きな勇気と忍耐力が必要になる。それには確実な投資と激励による持続的な援助が必要となる。そうした研究を適切に育成し、順調に実施すれば、その投資と援助は各専門分野にさらに多くの革新をもたらす原動力となるだろう。さらに重要な点は、こうした発展途上の研究領域は、新しい有望な技術を創造する力となることである。

  この調査で取り上げた研究開発プログラムや、その他の進行中の活動に基づいて、新たに出現してきた研究を3つのカテゴリーに分けることができる。すなわち、コンピュータ生物学、生物情報学、そして生物学応用型コンピューティングである。表3.2に、各カテゴリーに関連した具体的な研究領域と、その成果として期待される新しい先端技術の可能性について要約する。

表3.2 コンピューティングと生物学の交差領域に新しく現れた研究領域とテクノロジー
カテゴリー 範囲/定義 新しく現れた共同研究の領域 可能性のある技術の例
コンピュータ生物学
  • 生体システムを研究するための理論的なデータ解析の手法、コンピュータによるモデリングとシミュレーション
  • コンピューティング要素を統合した生物実験
    例:バイオチップ
  • 生体システムのすべてのレベルの間の構造的機能の関係
  • 空間的および時間的なエンコーディングの解析のためのコンピュータのアルゴリズム
  • マイクロアレイ解析とタンパク質の配列解析
  • 知識ベースモデリング技術
  • 統合技術
  • 次世代DNAチップ、プロテインチップ
生物情報学
  • 生物学、医学、または保健のデータの利用を拡大するためのコンピュータのツールとアプローチ。入手データ、組織化データ、解析データ、視覚化データを含む。
  • データのモデリング、データ構造、データ発掘
  • 共有データ環境とリソースマネジメント
  • DNA、細胞、組織から有機的組織体への連続した情報学
  • 視覚化および3D画像解析
  • 多重感覚データのための融合、統合
  • 機能的ゲノム、プロテオミクス、細胞情報学、組織工学、仮想人間
  • 次世代仮想現実技術
生体機能に基づくコンピューティング
  • コンピューティングデバイス、システム、ネットワークあるいは関連するソフトウエアをデザインするための生物材料あるいは生体特徴の利用
  • 知能を持った人と機械のインターフェイス
  • 分子、DNA鎖によるコンピューティング
  • 有機コンピューティング−有機素材を利用して数値計算の構築あるいは促進を行う
  • バイオメトリクスとテクノロジー
  • バイオ・マイクロ・エレクトロメカニカル・テクノロジー
  • ナノテクノロジー

C. 新しいバイオテクノロジー研究のデータ・リソースとツール

 2つの専門分野とその研究コミュニティを結び付けることは容易ではない。その理由の1つとして、交差領域の研究は既存領域と比べて定義が曖昧であり、実際の取り組みに際しても困難が大きいことがある。たとえば、生物学的モデリングの世界では、NSFやNIHなどの機関が基礎研究に対して資金を長年供給してきたにもかかわらず、その進展はかなりの成果を上げつつも限界があった。分子モデリングに関する世界技術評価センター(WTEC)の最近の調査研究では、両方のコミュニティが先進的なコンピューティング・ツールをまとめ上げたことが分かっている。しかし、それにも係らず、成功したモデルやソフトウェアの大半は、比較的複雑でない細胞レベルまたは分子レベルにとどまっていることが明らかである。しかし、バイオテクノロジー分野が人体の全機能を扱うまでに成長するにつれて、ある1つのレベル(例: 単細胞)におけるモデリングが、他のレベル(亜細胞または多細胞)およびレベル間の相互作用に大きく依存していることが明らかになってきた。したがって、レベルの表現方法の問題、レベル間の関係、そしてソフトウェアの相互運用性の問題が、細胞、組織、器官から、機能、人間行動までを含む、複雑な生物学的システムを研究する上で、次第にその重要性を増している。この課題を解決するためには、研究者が互いのアプローチを比較しながら研究成果を共有できるように、データ・リソースとコンピュータ関連のインフラストラクチャを大量に投入することが必要となる。2つの学問分野は、現在、多数の未解決のニーズと課題に直面しているが、この種の問題もその一部である。

  幸いにも、HGPのほか、多様な機関にまたがる他の研究開発プログラムのような、国家規模のプロジェクトが、こうした問題に集中して取り組み始めた。実際、もし無理を承知で、このようなプログラムが全体として成し遂げた成果を特に1つだけ選び出すとすれば、研究開発重点投資戦略の一部として過去10年間で急激に増加した新しいデータとコンピューティング設備ということになるであろう。このようなリソースは、さまざまな地域で多様な機能と任務を果たしている多数の研究所に散在している。また、こうしたリソースは、生物学、生物医学、バイオテクノロジーにおける現在と将来の研究開発の可能性に重大な影響を与えるものである。以下に、主なデータ・リソースとツールを例に挙げるが、こうしたリソースは、新しいバイオテクノロジーの研究でこれまで重要な役割を果たしており、今後も果たし続けるであろう。

GenBank

 このデータベースは、NIHの国立医学図書館の国立バイオテクノロジー情報センター(NCBI)に置かれている、NIHの遺伝子配列データベースである。このデータベースは、一般に公開されているすべてのDNA配列の集合を注釈付きで保存しており、ヒトゲノム計画のデータ・リポジトリとなっている。しかし、GenBankは、国際ヌクレオチド配列データ(International Nucleotide Sequence Data)共同データベースの一部に過ぎない。この共同データベースには、GenBankのほかに、日本DNAデータバンク(DDBJ: DNA DataBank of Japan)や欧州分子生物学研究所(EMBL: European Molecular Biology Laboratory)も含まれている。2001年11月現在、GenBankには1,400万件を超えるレコードが収納されている。GenBankの各エントリには、配列に関する簡潔な説明、元になった有機体の学名と分類、そして生物学的意味情報を特定するための特徴を表すテーブルが格納されている。GenBankは、関連ソフトウェア(たとえば、下記のBLASTを参照)とともに、ゲノム関連の研究において最も信頼できるリソースとなった。

プロテイン・データバンク(PDB: Protein Data Bank)

 PDBは、3次元生物高分子構造データの加工と配布を目的とした世界規模のリポジトリである。運営には、米国(UCサンディエゴ、ラトガース大学、国立標準/技術研究所[NIST])と、英国、日本、ブラジル、シンガポールの複数の国際チームが当たっている。エネルギー省、NIH、全米科学財団が、共同で運営資金を提供している。このデータ施設の非常にユニークな特徴は、データの配布だけでなく加工にも力を入れていることである。PDBが四半期に一度作成しているCD-ROMには、高分子構造のエントリが格納されており、一般に利用可能となっている。このCDデータの最新版には、2001年1月1日現在で利用可能な16,972個の構造が収められている。PDBのWebサイトへのアクセスと組み合わせると、PDBは、ネットワーク化された環境や多忙な研究者にとって価値のあるリソースとなる。

BLAST(Basic Local Alignment Search Tool)

 DNA配列またはタンパク質配列データを検索するために設計された類似性検索プログラムの集合である。1990年に最初に公開されて以来、BLASTは、幾多の変更と改良を経ながら、インターネットや他の従来型媒体を通じて生体情報への統合的アプローチを提供してきた。このツールは、NIHのNCBIの中にあり、NIHが資金を拠出して運営に当たっている。

LocusLink

 実験段階にあるユニークなデータ検索ツールで、NCBIの研究者によって開発されたものである。一般に、遺伝子など、特定の遺伝子座に関するデータは、質的に異なる複数のリソースの中に存在する可能性もある。一方では、GenBankなどの単一のリソースが、単一の遺伝子に関して複数の配列を保持している可能性もある。LocusLinkは、1つのデータ・ソースから他のデータ・ソースへの移動を容易にする、統合化された照会/相互参照システムを提供する。

人体可視化計画(The Visible Human)

 人間の解剖学的構造と機能を研究するためのユニークなデータベースを作成する実験的プロジェクトであり、標準的な男女の人体を解剖学的に完全に表現した詳細な3次元画像の作成に携わるものである。典型的な男女の死体のCATスキャン(CT)や磁気共鳴映像法(MRI)からデータを取り込んで、それをデータソースとして使用してきた。男性については1mmの間隔で断面の撮影を行い、女性については3分の1mmの間隔で行った。1990年代の半ばに完了して以来、生物医学とバイオテクノロジーの分野で多数の応用研究が進められた。人体可視化計画の長期的目標は、視覚的な知識形式を、専門家だけでなく一般大衆も容易に理解して利用できる記号的/機能的な知識形式と透過的に(利用者に意識されない方法で)リンクする、知識構造のシステムを開発することである。後の項(3.5)で検討するように、人体可視化計画は、人間の生理全体をコンピュータを利用して理解するというアプローチの領域で生起しようとしていることの序章にすぎない。

  上記の例は、研究コミュニティに対して効用と利益があることを実証した主要なリソースの代表に過ぎない。ここで重要な点を繰り返すと、このようなリソースがほとんど例外なしに公的資金によって支えられているという事実である。しかも、GenBankやプロテイン・データバンクなど、大規模な設備では、常に国際的な機関の参加が重要なポイントとなる。

【次へ】