タンパク質の配列解析プログラム

えられており、ネットワーク上で、左上から右下への矢のスコアの総計を最大に
する経路を探索するのである。この例では、黒丸のノードを通る矢の経路が最適
であり、その経路が、最適アライメントに対応している。矢のスコアには比較さ
れる文字、または文字群の間の類似度が反映されている。タンパク質配列のアラ
イメントの場合、スコアにはDayhoffの数値テーブルが最も一般的に使用されて
いる。これは、アミノ酸の突然変異率を統計的に解析した結果から得られた。

P.59 Figure
図 1: 2次元 DP の処理
理論的にはN次元のDPを用いることで、N組の配列群問の最適なアライメ ントが得られるのであるが、配列群の数が増えると指数的に計算量が増大する。 現在でも、3組を越える配列群問のアライメントに対しては、現実的に計算機上 での実行が困難である。従来から、生物分野の研究者は、アライメントされた配 列群を結合することでマルチプルアライメントを作成してきた。ツリーべ一ス法 と呼ばれる従来の典型的な方法は、2次元DPを用いて、似ている配列から順に、 次々と並べ合わせていくというものであった。 この従来のアルゴリズムは短時間で実行が済むのだが、結果のアライメントは、 質という面では十分ではなかった。そこで、マルチプルアライメントは多くの場 合、熟練した研究者によって人手で行われている。今日でも、たくさんの配列を アライメントするのは、研究者にとって非常に大きな負荷となっている。 並列反復改善法によるマルチプルアライメント 我々は、計算機による高品質の解を高速に算出する、並列反復改善法を用いた アライメントシステムを開発した。この並列改善法のアルゴリズムは、反復改善 法をもとにしている。まず最初に、この反復改善法について解説し、その後、我 々の並列反復改善法について説明する。 反復改善法では、次のような反復戦略(図2)を採っている。まず、初期状態 にある配列群をランダムに2つのグループに分割する。そして、2次元DPを用 いて、分割されたグループ間でのアライメントを行う。こうして得られた結果を、 - 59 -