タンパク質の配列解析

タンパク質は20種類のアミノ酸から構成されており、各アミノ酸はそれぞれ
異なるアルファベット1文字で表される。ひとつのタンパク質は平均200個程
度のアミノ酸が連なっており、20種類の文字からなる配列として表現される。
アミノ酸は対水和性、極性、大きさなどの性質を持っており、タンパク質の構造
や機能は、アミノ酸の順序によって決定されると考えられている。
タンパク質配列を決定する実験技術はすでに確立されているため、2万以上の
配列が、文字列として特定されており、日々その数は増加し続けている。また、
タンパク質の構造も次第に特定されてきてはいるものの、それには大変な困難が
伴うため、1つのタンパク質の構造決定に1年程度を必要とするのが現状である。
そのため、構造が決定されたタンパク質の数は、今のところ極めて少ない。
そこで、配列情報からタンパク質の構造や機能を推察する手法の開発が、期待
されている。アミノ酸配列が似ているタンパク質は、類似の構造や機能をとりや
すいので、配列解析によって、未知の構造や機能へのアプローチが行える。配列
の類似性解析の代表的な手法に、マルチプルアライメントがある。
次に、6本のタンパク質配列の一部分をマルチプルアライメントした例を示す。

P.58 Sequence
各配列の文字のひとつひとつがアミノ酸を表している。例えば、最上段左端に見 られるHEKLは、それぞれヒスチジン、グルタミン酸、リシン、ロイシンである。 ところどころにある"-"は、ギャップと呼ばれている。このギャップを配列中に 入れることで、各カラムに同じアミノ酸か、もしくは性質の似通ったアミノ酸が 並ぶようにした配列群が、マルチプルアライメントである。この例には、H....H やC..Cなどの共通文字が、縦に並んでいる箇所が見られる。このような箇所は、 タンパク質の構造や機能のうえで重要である可能性が高く、一般に配列モチーフ と呼ばれている。こうしたモチーフは、突然変異や自然淘汰といった進化の過程 を経ても、共通にずっと保存されてきた部分と考えられている。 ダイナミックプログラミングによるアライメント ダイナミックプログラミング(以下DP)は、最適なアライメントを見つける 基本的な手法である。このDPはN次元ネットワーク上の最適経路探索とみなす ことができる。2組の配列群が与えられたときには、まず矢で連結された多数の ノードからなる2次元のネットワークを作る(図1)。各々の矢にはスコアが与 - 58 -