研究の成果

Up: 「並列論理型言語を用いた最尤法による分子進化系統樹作成プログラムに関する研究」に関する成果概要 Previous: 研究の内容

研究の成果

研究上の成果

研究の初期段階においては、与えられた系統樹の尤度を計算するための方程式の構造を、そのままKL1のコーディングに置き換えたが、この結果得られた結果は、きわめて悲観的なものだった。次に再帰的に尤度を計算するアルゴリズムに検討を加え、再帰的な計算の途中で生じる中間結果をベクターとして保存するようにしたところ、劇的な高速化を達成できた。ここでは、論理型言語の実際のコーディング過程において、枝長の最適化アルゴリズムの論理的構造がきわめて明瞭に提示されたため、方程式のレベルでは埋没していた計算の冗長性を自然に指摘することができた。る論理型言語の優位性と考えられる。

尤度曲面の変化の様子を視覚化するためのプログラムcontour/1を PIMOS 上に実装した。このソフトウェアを用いると、系統樹の任意の2本の枝を少しずつ変化させたとき、尤度曲面がどのような振る舞いをするかを直感的に観察することができる。尤度曲面が単峰性であるという保証はどこにもなく、尤度を最大にするような枝長の最適化アルゴリズムが誤った結論を導く可能性を否定できない。実は、最尤法の考え方は、未解決の問題を含んでおり、任意のデータに対して盲目的に適用してよいというものではない。最終的に得られた結果に疑問の余地がある場合、coutour/1はあるデータに対応した尤度曲面を振る舞いを調べるための道具として活用できる。いずれにせよ、将来的には尤度という尺度そのものに理論的な裏付けを与えることは必要である。

contour/1により、PIMOS上で負荷分散の実験を行った。用いたハードウェアはPIM/m (64PE)およびPIM/p (128PE)である。データは人工的に生成した塩基配列で、このデータがどのような系統樹を導くかはあらかじめ別の手法(最大節約法)で推定してある。

大きな固まりとしてタスクを扱う場合と、タスクを細切れにして処理させる場合の効率であるが、これにプロセッサの数とデータ量という要素を加味した場合、処理時間にどのような差が生まれるだろうか。この様子をグラフにしたのが図１である。

図１: プロセッサ数とデータ量

このグラフから直ちにわかることは、データ数が極端に少ない(プロセッサ数以下である)場合を除いて、前者の大きな固まりとしてタスクを扱う場合の方が効率が良いということである。これはメッセージパッシングのコストが、プロセッサをアイドリングさせるよりも高くつくことを示唆している。ただし、ここでの尤度の計算においては、2本の枝の長さ以外まったく同一のデータを各プロセッサが処理していることを考慮すべきである。換言すれば、この場合プロセッサ毎の処理時間には、大した差はないのかもしれない。

traverse/3、1回目の枝長の最適化で、ほぼ最大尤度を得ることができる。むしろ、2回目以降は微々たる改良でしかない。現在のアルゴリズムでは、改良された尤度の差を見て探索の打ち切りを決めているのだが、この1回目の改良された尤度の値を見て、これ以降の処理を続けるかどうかを判断できるかもしれない。ただし、この方法で必ず最尤系統樹を得られるという保証はどこにもない。多くの系統樹を吟味し、1回目の改良で得られた尤度と真の尤度との間の関係を統計的に検証する必要がある。また、トポロジーに無理のある系統樹の尤度はなかなか改良されないと予想できる。つまりこのような系統樹の尤度曲面は、きわめて「平坦」となる。このことが統計的に有意であることを示せれば、改良のための繰り返し回数は、処理の打ち切りのためのよい指標となろう。

topology/2は、traverse/3に与えるためのトポロジーを生成する。現時点では、完全探索のための仮説空間生成を生成でき、完全探索が原理的に可能である。

ソフトウェアとしての成果

ソフトウェア構成の概要

ソフトウェアの構成図を図２に示す。

図２: ソフトウェアの構成図

アピールすべき点

尤度曲面を視覚化して、その性質を調べることができる。また、この処理は並列化することにより、高い効率で実行可能である。
尤度および枝長最適化のための計算は、指定された枝の両端のノードから開始され、系統樹の葉に至るまで再帰的に繰り返される。この際、中間的な結果をベクタとして保存しているため、内部ノードの2番目以降の状態に対応する計算を高速に行うことができる。
尤度の計算は、最初の1回を除いて、枝長最適化のための計算結果を再利用している。このため、高速な計算が可能である。
EMアルゴリズムにおいて、探索パスが最大尤度に対応する点を追い越してしまった場合も、後戻りできるように工夫してある。
入力データ及び入力パラメータは、テキストファイルして与えるが、コメント文を交えて記述することができる。このため利用者は容易にこのファイルを作成できるし、覚え書きを書くことも可能である。
トポロジーの入力フォーマットは、クラスタによる表現と枝の集合による表現から選ぶことができる。
アミノ酸配列の入力フォーマットは、基本的にaeditの出力を用いるが、最も広く使われていると考えられるFASTAフォーマットも使うことができる。
プログラムは、最尤法の概念を知っている者ならば、容易に理解できるよう、論理型言語を用いてできるだけ平易に書かれてある。一部を除いてほとんどKL1を用いており、並列処理との親和性が高い。実際PVMとの併用により、すべてのプログラムは並列実行可能である。

進行状況

contour/1, traverse/3　ver.1.0は基本的な機能はすでに実現している。

contour/1は現在塩基配列のみしか扱えないが、 traverse/3　ver.1.0はアミノ酸配列を扱うことが可能である。最も大きな問題は処理速度で、特にtopology/2　ver.1.0は、実用的な運用をするためには、少なくとも3倍から5倍の高速化が必要である。 topology/2については、無条件にすべてのトポロジー空間を生成するアルゴリズムが完成している。トポロジーはネストしたリストで表現されるが、実際の処理ではノードを両端に持つような枝の集合として扱われる。ネストしたリストを枝の集合に変換するプログラムがc2b/2である。入力データ（イプシロン、デルタ、サイトの数、配列、トポロジーと枝長の初期値、探索打ち切りのための閾値）は一定のフォーマットで、PROLOG的なtermとして与えられる。配列データを標準入力から読み込み、上述のフォーマットに整形するプログラムがget_seq/3である。

今後の展開

PIMOSでの実験の結果が思わしくなかったので、今後は基本的にワークステーションをクラスタリングすることで並列処理を行うよう方針を変更した。 traverse/3　ver.1.0のPVM上での動作を確認したが、効率に関する実験はまだ行っていない。現在、2台のワークステーション(FUJITSU S-4/20L+Solaris 2.3およびFUJITSU S-4/20L+Solaris 2.4 )をイーサネットで接続したきわめてプリミティブな環境を用いている。近々、Macintosh(Power PC搭載機と68K搭載機の混成)、DOS/Vマシン、そして並列計算機にPVMと分散 KLICをインストールする予定である。図３に現時点でのtraverse/3　ver.1.0の実行の様子を示す。画面はXPVMである。

図３: XPVMによる実行画面

トポロジーの探索の方法は、距離行列法との組合せにより行うのが有望だろう。探索の打ち切り基準はあらかじめ与えるのではなく、探索の優先順位だけをなんらかの方法で導いておいて、処理時間の上限を用いるのが現実的かもしれない。

上記２つの成果についての自己評価

万能なデータ解析プログラムなど存在しない。特に分子進化系統樹の推定プログラムの場合は、現実問題として結果の検証が困難なので、より注意深い使用が必要である。本プログラムの当初のポリシーは、できるだけ単純で明快なソースコードを使用者に提供し、使用者はプログラムをブラックボックスとして用いるのではなく、ある程度プログラムを理解した上でデータ解析を行うというものだった。しかし高速化のための版を重ねるにつれ、プログラムは徐々に複雑になりつつある。しかしながら、論理型言語の使用は明らかにソースコードの単純化に寄与している。

この種のソフトウェアをデータ解析のための道具とみなしたとき、すでに開発済みのソフトウェアとの比較を避けるわけにはゆかない。その多くは、研究の現場での厳しい要求を反映し、洗練されたものとなっている。特に高速化に関しては、極限まで努力が払われていると言ってよい。しかしながら本ソフトウェアのような論理型言語によるアプローチを試みたものはまだなく、その意味で本研究は特異な位置を占めると言える。

www-admin@icot.or.jp