概要

分子生物学の分野の重要なテーマであるタンパク質の配列モチーフ抽出を行
なう実験システムをPIM上に構築した。大規模な探索空間を持つタンパク質モ
チーフ抽出問題において、記述長最小基準と遺伝的アルゴリズムを用いた確率的
探索手法が高い並列性を有し、PIM上で効率的に実行できることを示す。

特徴

モチーフ抽出実験システムは、タンパク質データベースPIRに含まれるタ
ンパク質を対象に、シトクロムCなどの特定のタンパク質を識別するためのモチー
フを自動的に抽出する実験システムである。本システムでは、データに混在する
エラーや分類エラーの問題を解決するために、モチーフを例外事象を含む確率的
規則として扱う。モチーフ抽出実験システムの特徴は次の通りである。
  1. モチーフ評価に記述長最小(MDL)基準を採用し、抽出されるルールの 現データベースヘの過剰適合を防止。
  2. ルールの学習に確率的探索アルゴリズムである遺伝的アルゴリズム(GA) を利用し、計算時間の組み合わせ的爆発を回避。
  3. 試行並列、分割並列、データ並列の3種類の並列性を持つ並列GAにより、 PIMの高並列性をフルに活用。
P.93 Figure 1
モチーフ抽出実験システムの構成
- 93 -