Document for FGCS'92 Demonstrations Documents P.93

概要

分子生物学の分野の重要なテーマであるタンパク質の配列モチーフ抽出を行
なう実験システムをPIM上に構築した。大規模な探索空間を持つタンパク質モ
チーフ抽出問題において、記述長最小基準と遺伝的アルゴリズムを用いた確率的
探索手法が高い並列性を有し、PIM上で効率的に実行できることを示す。

特徴

モチーフ抽出実験システムは、タンパク質データベースPIRに含まれるタ
ンパク質を対象に、シトクロムCなどの特定のタンパク質を識別するためのモチー
フを自動的に抽出する実験システムである。本システムでは、データに混在する
エラーや分類エラーの問題を解決するために、モチーフを例外事象を含む確率的
規則として扱う。モチーフ抽出実験システムの特徴は次の通りである。

モチーフ評価に記述長最小(MDL)基準を採用し、抽出されるルールの
現データベースヘの過剰適合を防止。

ルールの学習に確率的探索アルゴリズムである遺伝的アルゴリズム(GA)
を利用し、計算時間の組み合わせ的爆発を回避。

試行並列、分割並列、データ並列の3種類の並列性を持つ並列GAにより、
PIMの高並列性をフルに活用。





モチーフ抽出実験システムの構成

					- 93 -