A.2 カルフォルニア大学バークリー校
・名 称:Computer Science Department, University of California at Berkeley
・所在地:Soda Hall, Berkeley, California, USA
・訪問日:1999年2月27日(金)
・面会者:Matt Welsh 氏, Philip Boonadonna 氏, David Culler 氏 (リーダ)
Millennium プロジェクトミーティングにも参加
・名 称:International Computer Science Institute, University of California at Berkeley
・所在地:1947 Center Street, Suite 600, Berkeley, California 94704, USA
・訪問日:1999年2月26日 (木)
・面会者:Dan Ellis 氏, Nelson Morgan 氏 (リーダ)
音声認識グループミーティングにも参加
A.2.1 概要
最近、PC クラスターとして、Beowulf (http://www.beowulf.org/)クラスター計算機が、価格性能費の優れた並列コンピューティングシステムとして注目を浴びている。Beowulfクラスターの最初のシステムは、1994年夏に CESDIS (Center of Excellence in Space Data and Information Sciences) で構築された。これは、NASA の Earth and space sciences プロジェクトのための16ノードクラスターである。これは、DX4 プロセッサーを使い、10M bps の Ethernet (TCP/IP) を相互結合網として用いており、ソフトウェアは Linux である。並列化は、PVM (Parallel Virtual Machine) あるいはMPI (Message Passing Interface) を用いる。この成功によって、Beowulf クラスターは、世界中で構築が行われるようになった。実際、1997年には、2クラスターを統合した総計199ノードのP6 プロセッサーが、PPM (Piece-wise Parabotic Method) の PVM バージョンで 10.1 Gflop/sの性能を出し、同じ週に CALTECH の140ノードクラスターがN 体問題で 10.9 Gflop/s の性能を出している。
Beowulf クラスターを分類すれば、MPP (超並列マシン) とワークステーションをネットワークで相互結合した NOW (Networks of Workstations) の中間に位置するということができよう。MPP が Beowulf クラスターと異なる点は、その規模が大であり、さらに、相互結合網の遅延がはるかに小さいことである。一方、Beowulf クラスターが NOW と異なる点は、それほど顕著ではない。Beowulf クラスターでは、クラスターに属するノードはクラスター専用であり、ネットワークも専用である。この結果、負荷分散やネットワークロードの制御が行いやすくなり、さらに、外部ネットワークから遮断されているので、セキュリティーの管理が簡単になる。さらに、資源割当ても、複雑な資源割り当てや微細度の通信などはサポートされいない単純な中央制御で行われる。
Beowulf クラスクラスターの特徴は、市販の PC を使用して、公開されたソフトウェア (Extreme Linux) を使うことで、簡単に高性能のクラスターが構築できることである。実際、科学技術振興事業団 創造科学技術推進事業の北野共生システムプロジェクトでは、Pentium II 450MHz 256MB メモリをノードとし、と Fast Ethernet (100Base-TX) を相互結合網とした32ノードで構成される ERATO-1 を最近構築し、現在評価を行っている。数台の規模の Beowulf クラスターならば、新たに購入しなくても、古くなり使われていない PC を利用すれば簡単に構築できよう。
さて、背景説明が長くなったが、今回訪問をしたカルフォルニア大学バークリー校のコンピュータサイエンス学部は、これまでに BSD Unix、Franz Lisp、INGRES、Sparc チップなどを開発し、コンピュータサイエンスの研究で世界をリードしてきたトップの研究教育機関である。同学部では、Berkeley NOW プロジェクトの成功を受け、クラスターのクラスターであるMillennium を構築し、さまざまな研究分野でスーパーコンピュータを活用していく Millennium プロジェクトを進めている。
A.2.2 Berkeley NOW プロジェクト
Berkeley NOW プロジェクトは、NOW (Network of Workstation) を一つの建物内での分散型スーパーコンピュータとして構築することを目標としていた。つまり、並列応用に対しては、MPP よりは性能価格費のよいシステムを提供し、逐次型応用に対しては1台のワークステーションよりは高性能なシステムを提供しようというわけである。NOW の最終的な形態は、105台の SUN Ultrasparc、32台の SUN Sparcstation、8 プロセッサ SMP (Shared Memory Processor) の4台クラスター、35台の Intel Pentimu Pro、および500台のIBMディスク装置、を Myrinet スイッチで接続していた。構築された NOW は、Datamation のディスクコピー・ベンチマークで最高速を達成した。さらに、Inktomi という Web サーチエンジンにも使われ、高性能を示したので Wiered Digital 社に買収され、HotBot としてサービスが提供されている。HotBot は、1997年、98年、99年と Best search engine on the webとしてさまざまな賞を受賞している。
A.2.3 Millennium プロジェクト
NOW プロジェクトは、言ってみれば学科単位のクラスターということができよう。それに対して、Millennium は、キャンパス内にあるさまざまなクラスターをクラスターとして統合するキャンパス規模での階層的な科学技術計算システムである。Millennium プロジェクトの背後思想は、理学 (Science) と工学 (Engineering) という従来の二分法的な概念ではなく、それら2つに計算学 (Computing) を加えた3本柱であらゆる学問分野をとらようとする。この3本柱という概念に立てば、従来の学問分野で必要とされた図書館と研究所の他に、計算設備が必要となる。実際、本報告でも見てきたように情報処理技術が使われる分野は、科学技術計算だけではなく、金融、財政のモデル化を行う金融工学、あるいは、さまざまな分野でのデータベース処理に広がっており、計算パワーの需要が増大する一方である.
Millennium には、学内の21団体が参加しており、以下のようなプロジェクトが現在走っている。
1.バークリーマルチメディア研究センター (Berkeley Multimedia Research Center)
2.化学
3.土木
4.計算天文学
5.計算財政金融学 (金融工学)
6.ディジタルライブラリ
7.経済学
8.地質学・地球物理
9.ハイパーフォーマンス計算学 (High Performance Computing)
10.インターネット級システム研究プロジェクト (Internet Scale Systems Research Project)
11.数学
12.機械工学
13.米国航空システムシミュレーション (National Airspace Systems SImulation)
14.米国エネルギー研究科学技術計算学 (National Energy Research Scientific Computing)
15.複雑な製造オペレーションにおける最適化とシミュレーションのための並列計算学 (IEOR)
16.脳腫瘍の中性子放射線療法のための患者対応の最適化と治療計画 (原子力工学科)
17.物理学
18.Integrative Biology における生命史の再構築
19.情報管理・システム学部 (School of Information Management and Systems)
20.システムアーキテクチャ
21.テクノロジーCAD
Beowulf のように TCP/IP スタック (ソフトウェア群) を使用すると、何階層ものプロトコル変換が行割れるので、応用プログラムの多様な資源割り当て要求に対応することが難しい。Millennium では、ユーザレベルから直接ネットワークハードウェアが制御できるzero-copy 通信ソフトウェアの開発がコンピュータサイエンスの1つの研究課題となっている。
ユーザレベルから直接ネットワークハードウェアを制御するインターフェースの設計として、仮想インターフェースアーキテクチャ (Virtual Interface Architecture, VIA) が提唱されている。クラスター内での通信の業界標準を設定するために、コンパック、インテル、マイクロソフトの三社が共同で VIA の標準化を進めている (http://www.viarch.org/)。Berkeley VIA プロジェクトでは、Millennium 用のクラスターネットワーク層として、VIA アーキテクチャを採用し、高性能の VIA 処理系を複数のOS やハードウェアに対して開発し、性能評価を通じて VIA の性能特徴項目を決定し、VIA の改良を行うことを目指している。現在、Gigabit スイッチである Myrinet のための通信ソフトウェアを Linux 用、Windows NT 用、Solaris 用に開発しており、無料で公開されている。Linux 版 VIA インターフェースをLinux の TCP/IP スタックと置き替えれば、Myrinet を使った Beowulf が構築できる。
Millennium はクラスターのクラスターであり、それを構成する各クラスターは、学内のさまざまな部局から提供される。Millennium の提供側と使用者側との間で、一種の経済活動が生じることになる。クラスター提供者が計算資源を「販売」し、クラスター使用者が計算資源を「購入」し、取り引きが成立するわけである。計算資源を仮想的な貨幣で取り引きするような経済活動は「計算経済」(computational economy) をとらえることができる。Millenniumプロジェクトのコンピュータサイエンス学科のグループは、システム技術の設計と開発だけではなく、計算経済における計算資源の取引のモデル化と、その取引所の機構の設計と開発についても研究を行っている。
A.2.4 Dan Ellis のプロジェクト
Dan Ellis 氏は、MIT Media Labで音一般を理解する Computational Auditory Scene Analysis の研究を行っており、博士号を取得した後、UCB の ICSI (International Computer Science Institute) に研究員として採用された。
ICSI は元々はドイツ政府の肝いりで設立されたコンピュータサイエンス研究所であるが、現在はドイツ政府の資金援助はなく、国内企業からの援助で運営されている。奥乃が訪問したのは、Speech Recognition グループである。同グループは、Nelson Morgan 主任研究員の下に運営されている。主たるテーマは、電話音声の音声認識である。出席したミーティングでは、subband に分けた音声認識についての最近の成果が報告された。使用している音声認識システムは MLP (Multi Lingual Processing) である。subband の定義は、人間の聴覚機能を観測した実験結果の報告を基に一番性能のよかったものを使用している。
音声認識システムの課題は、制限された帯域での入力への対応、多言語を統合的に扱うフレームワーク、ノイズ対策などを含めたロバストな認識システム、などが挙げられる。MLP は、同プロジェクトの最も重要な研究テーマとなっており、英語、フランス語、ポルトガル語の音声認識システムのデモを見せてもらった。このシステムは、入力される言語を指定すれば、対応する言語での認識を行う。音声認識技術には、隠れマルコフモデルを使用している。最近、フランス政府と MLP の応用を共同で研究開発するプロジェクトがスタートしたそうである。