(68)配列解析実験システム
マ シ ン:PIM
環 境:PIMOS
言 語:KL1
ソース量:200 KB
文 書:マニュアル (日本語/英語)
概要
同一カテゴリの蛋白質に保存されるアミノ酸配列であるモチーフを抽出するシ
ステム
特徴
モチーフ抽出は遺伝子情報処理における重要な問題の一つである。モチーフは
同一カテゴリ蛋白質のアミノ酸配列の共通パターンであり、進化的に保存され、
蛋白質の機能/構造を特徴付けるからである。本システムは、記述量最少
(MDL) 基準及び遺伝的アルゴリズムを用いて、蛋白質データベースからモチー
フを自動的に抽出する。
機能
良いモチーフの評価に記述長最少 (MDL) 基準を採用している。MDL基準は記述
長 (=モチーフの複雑さ+分類誤り) が最少のモチーフを良いとする基準であ
り、分類誤りはあるが単純なモチーフと分類誤りはないが複雑なモチーフとの
比較を可能にする。
モチーフ候補は大量に存在し単純な探索では莫大な計算量が必要となるため、
モチーフ探索手法として遺伝的アルゴリズムを採用している。遺伝的アルゴリ
ズムは2進文字列で表現されたモチーフ候補の集団に対して遺伝的操作を適用
することにより確率的探索を行う。遺伝的操作は、交差、突然変異、選択から
なっており、選択操作においてMDL基準が本質的な役割を果たしている。
本システムは、試行並列、分割並列、データ並列、の3種類の大規模な並列性
を持ち、並列推論マシン (PIM) の能力をフルに活用できる。
文献
- 小長谷、確率的モチーフ:現状と課題、第2回ゲノム情報ワークショップ、
1991. 小長谷、他、MDL基準と遺伝子情報処理、人口知能学会全国大会、
1991. Konagaya, et al., Stochastic Decision Predicate:A Scheme to
Represent Motifs, AAAI Workshop, 1991.
- 小柳、他、マルチPSIを利用したタンパク質の配列モチーフ抽出、第2回
ゲノム情報ワークショップ、1991.
- Yamanishi, et al., Learning Stochastic Motifs from Genetic
Sequences, Machine Learning Workshop, 1991.
FTP
- 配列解析実験システム [169K]
www-admin@icot.or.jp