Kappa-Pの特徴
Kappa-Pの開発目的は、知識情報処理システムにデータベース管理機能を提供することである。代表的なものとして、電子化辞書をもつ自然言語処理システム、分子生物学データベースをもつ遺伝子情報処理システムなどがあり、複雑かつ大量のデータを効率的に処理する必要がある。このために、つぎのような特徴を持つ。
非正規関係モデル
従来の関係モデルはよい性質を持っているが、複雑かつ大量のデータを効率的に扱うのには適していない。非正規関係モデルは、集合構成子と属性の階層構造を許し、複雑な構造のデータを自然に表現でき、関係の不必要な分割を避けることができる。Kappa--Pは、FGCSプロジェクトのKBMSのためのデータベース・エンジンでもあるため、その意味論はKBMSの知識表現言語であるQuixoteにそったものとなっている。
実装に当たって、様々な知識を格納できるようにタームをデータ型として追加し、大容量のデータを扱うためにデータの圧縮やインデックスの強化などをおこなった。
システム構成
Kappa-Pのシステム構成は、PIMの構成に対応し、クラスタ間並列とクラスタ内並列を分けている。Kappa-Pは、要素DBMSの集まりから成り立ち、それはクラスタに割り当てられる。要素DBMSは、それぞれ独立したDBMSでもあり、協調して問合せを処理する。
非正規関係の大域情報は、サーバDBMSと呼ばれる複数の要素DBMSで複製されている。このサーバDBMSは、大域情報だけではなく、普通の非正規関係も管理している。サーバDBMS以外の要素DBMSは、ローカルDBMSと呼ばれる。応用プログラムとKappa-Pを結び付けるために、インタフェース・プロセスが作られ、問合せを受けとり、結果を返す。
データ配置
非正規関係の配置は、並列性に対応し、要素DBMS問配置と、要素DBMS内配置の二種類がある。
クラスタ間並列を利用するためには、非正規関係を複数の要素DBMSに配置する必要がある。単純な場合が、分散データベースのように複数の要素DBMSに分散配置することである。処理能力やディスク・アクセス速度が重要な非正規関係は、水平分割関係としてタプル単位で分けられ、複数の要素DBMSに配置することができる。頻繁に利用される非正規関係は、その複製
をいくつかの要素DBMSに置くことができる。現在の実装では、この複製はサーバDBMSの大域情報でのみ使われる。
要素DBMS内では、非正規関係は、主記憶か二次記憶あるいはその両方に置かれる。主記憶のみに存在する非正規関係は、一時関係である。擬似主記憶関係は、主記憶と二次記憶の両方に存在し、更新が二次記憶に反映されることが保証される。
問合せ処理
問合せ処理のために原始コマンドとKQLの二種類のコマンドがある。原始コマンドは、非正規関係に対する基本操作のみに限定されるが、効率的である。KQLは、拡張関係代数に基づく問合せ言語であり、構文的にはKL1に似せている。問合せ時に、新たな演算を定義し使うことができる。
KQLの問合せは、拡張関係代数のたやの中問言語の部分問合せに変換され、対応する要素DBMSに送られる。原始コマンドの問合せは、直接対応する要素DBMSに送られる。これらの問合せは、関係する要素DBMS間の分散トランザクションとして処理され、二相コミットプロトコルで制御される。
並列処理
Kappa-Pの並列処理には、要素DBMS問のクラスタ間並列処理と要素
DBMS内のクラスタ内並列処理がある。クラスタ間並列処理は、大きな処理能力が利用できるが、通信オーバヘッドが増加する。大量のデータを扱うDBMSではその判断が重要である。
一方、クラスタ内並列処理は、大量のデータを扱うDBMSに向いている。
Kappa-Pではそれを要素DBMSの内部処理に使っている。たとえば、タプルのストリームや、集合演算、主記憶インデックス操作などがある。
タンパク質データベース統合利用環境
タンパク質に関するデータベースを一つのデータベースシステムとしてKappa-P上に格納し、ユーザインタフェースのレベルでの統合環境を実現した。
目的
●分子生物学のデータベースに適したDBMSの提供
●視覚化し統合化したタンパク質データベースシステムの提供
●Kappa-Pの評価のための応用システムの提供
構成
Kappa-Pにタンパク質の配列(PIR)・構造(PDB)・特徴(ProSite)の各データベースを格納した。特徴表示に関してはXウィンドウ上に統合的なグラフィックユーザインタフェース(GUI)を用意し、RPCを介してKappa-Pに質問を対話的に発行できるようにした。Kappa-Pの並列検索用のフィルタとしてモチーフ検索プログラムを指定し、GUIから起動できるようにした。
評価
●既存の公共データベースに適したデータモデル
特徴記述に関するテーブルの属性の階層的な構造は非正規関係表現によって自然に表現できる。タンパク質の名称、分類などに関する静的な部分と生物
学者によって動的に追加更新が起こる特徴記述とは分離して格納し、追加更新の効率化を図っている。このように、必要に応じてテーブルを分離できるのは関係モデルと同様である。
●タンパク質データベースの統合的な利用環境
公共のタンパク質データベースは保有データの種類により管理主体が異なり、従って属性名称などさまざまな点で互いに異なる。特徴記述は典型的な例で、部分的な機能や特徴、構造的な特徴、ある特徴に共通なアミノ酸パターン、とそれぞれ別のデータベースに記述されている。Xウィンドウ上に構築した統合的なGUIにより、位置情報の図示と併せてこれらの特徴を一元的に表示することができる。
●網羅的な検索(モチーフ検索)の高速化
機能未知のタンパク質のアミノ酸配列と機能既知の配列との相同性から機能予測を行うことが、タンパク質配列データベースの最も一般的な利用法である。一方モチーフ検索は、アミノ酸の配列バターンからデータベースを検索する利用法である。いずれも全解探索が必要とされ、並列処理の効果が期待できる課題と言える。
Kappa-Pには、ユーザから指定されたプログラムをインタフェースプロセスが各ローカルDBMSへ渡して実行させるという機構がある。各DBMSで検索された結果は、インタフェースプロセスに集められ、ユーザに返される。
これにより、インタフェースプロセスが各ローカルDBMSからデータを一度全て受けとり、作業を各PEにデータの一部とともに再配分するような形式に比べ、通信コストの大きな節約が期待できる。
デモ概要
二側面からの実演を交互に行う。
●Kappa-P
Kappa-Pのシステムについて、水平分割と質問処理の機能および性能を示す。
●タンパク質統合データベースシステム
Kappa-Pの応用システムであるタンパク質統合データベースシステムについて、応用システムのXウィンドウ上のGUIの機能と、モチーフ検索の並列化による性能向上を示す。
いずれの実演も以下のデータベースを用いる。各データベースの内容、大きさ、Kappa-Pにおけるテーブルの数と種類はそれぞれ以下の通り。
PIR:アミノ酸配列、および機能的な特徴を格納
60メガバイト(1991年9月)、配列、特徴、文献の3テーブル
PDB:立体構造、および構造上の特徴を格納
150メガバイト(11月)、配列、特徴、構造、座標軸情報の4テーブル
ProSite:特徴部位のアミノ酸バターンを格納
508バターン、1メガバイト(5月)、1テーブル