概要 分子生物学の分野の重要なテーマであるタンパク質の配列モチーフ抽出を行 なう実験システムをPIM上に構築した。大規模な探索空間を持つタンパク質モ チーフ抽出問題において、記述長最小基準と遺伝的アルゴリズムを用いた確率的 探索手法が高い並列性を有し、PIM上で効率的に実行できることを示す。 特徴 モチーフ抽出実験システムは、タンパク質データベースPIRに含まれるタ ンパク質を対象に、シトクロムCなどの特定のタンパク質を識別するためのモチー フを自動的に抽出する実験システムである。本システムでは、データに混在する エラーや分類エラーの問題を解決するために、モチーフを例外事象を含む確率的 規則として扱う。モチーフ抽出実験システムの特徴は次の通りである。
- モチーフ評価に記述長最小(MDL)基準を採用し、抽出されるルールの 現データベースヘの過剰適合を防止。
- ルールの学習に確率的探索アルゴリズムである遺伝的アルゴリズム(GA) を利用し、計算時間の組み合わせ的爆発を回避。
- 試行並列、分割並列、データ並列の3種類の並列性を持つ並列GAにより、 PIMの高並列性をフルに活用。
![]() モチーフ抽出実験システムの構成 |