【前へ】




3.3.4 大規模科学技術計算のための超高速計算機システム    横川三津夫 委員

 ペタフロップスマシン技術に関する調査研究も3年目が終了しつつある。筆者は、前回の報告書において、並列型の形態を取らざるを得ないペタフロップスマシンは大規模科学技術計算においてこそ重要であり、一般に普及される必要はなく特殊な実験装置として特定の研究者、技術者に提供されるべきであるとの主張を述べた。したがって、ペタフロップスマシンの一般的需要が見込めないことから、商業ベースの開発によって達成することが極めて困難であり、日本の科学及び産業技術の基盤技術を維持、向上させるためにもペタフロップスマシンの開発は国がリードしていくべきであると考えている。産業界へのインパクトは、ペタフロップスマシンの開発に伴う波及効果として捉えるべきであろう。

 大規模科学技術計算においても、MPPが有効であるアプリケーションは当然存在することから、ペタフロップスマシンの形態はベクトル並列とスカラ並列の両方が協調して動作するハイブリッド型が良いと筆者は考えている。しかし、本稿では、最近コストパフォーマンスの低いベクトル計算機の重要性の認識が低下していることから、ベクトル計算機に対するいくつかの意見を概観するとともに、地球変動研究のために開発されているベクトルプロセッサを採用した超高速並列計算機システム「地球シミュレータ」の概要を述べることにする。

 

3.3.4.1 ハイエンドコンピューティングを巡る日米欧の状況

 ハイエンドコンピューティング技術は、国家の安全保障上極めて重要であると認識されており、東西冷戦時において米国はベクトル型計算機維持のために豊富な資金を投入した。しかし、冷戦終結とともに、コストパフォーマンスのよいコモディティ・プロセッサ等商用品をハイエンドマシンに利用するASCI計画が進められており、米国のスーパーコンピュータ市場は大きな方針転換がなされたと言われている[1]。LINPACKベンチマーク性能に基づく計算機のランク付けであるTOP500においても、米国のSMPやMPPが上位を独占するようになってきた[2]。しかし、産業用の実アプリケーションコードでは、LINPACKのようにうまく並列化できないことが次第に明らかとなり、数千台の並列計算機のスケーラビリティを生かす並列プログラムの開発が極めて困難であることが認識されている。実際、大統領の諮問委員会であるPITACの報告書においても、スケーラブルな並列アーキテクチャが大規模アプリケーションに効果的に対応できないことが述べられており、革新的なアーキテクチャの開発が必要であると結論づけている[3]。ASCI計画に投入した資金とその結果を見れば、米国の開発路線は誤った方向に向いていたと言って良い。

 また、欧州においては、すでに数千個のプロセッサから構成されたMPPは、HPCアプリケーションでは役に立たないとの意見が述べられている[4]。すなわち、日常的に利用する多くの並列アプリケーションプログラムは、高々32並列までがスケーラブルな性能が得られる範囲であり、特に構造解析などの大規模な既存の産業用コードは32並列以上の並列化は不可能である。したがって、並列台数は少ないが単体プロセッサの性能が高い並列ベクトル計算機の方がHPC分野には適合しており、高い実効性能を達成することが可能である。SMPやMPPは、いわゆるスループットマシンとしての位置づけに留まるであろうとの考えが示されている。

 一方、アプリケーション分野の動きを見ると、地球温暖化防止に関する京都会議を契機に地球環境問題が広く取り上げられており、地球変動に関する数値シミュレーション分野が世界的にも注目されている。科学技術庁においては、地球規模の複雑な現象を解明することが重要であるという認識の下に、地球変動プロセスに関する基礎研究、地球規模の観測、数値シミュレーションの三位一体による研究体制を推進している。このうち、数値シミュレーション分野の推進では、地球規模の複雑な諸現象をシミュレートするための超高速並列計算機システム「地球シミュレータ」の開発と高度なアプリケーション・ソフトウェアの開発を目標とする「地球シミュレータ」計画が策定された[5]。

 気象・気候分野のシミュレーションでは、並列ベクトル計算機とキャッシュベースのマイクロプロセッサを要素計算機とするMPPでの実効性能を比較した結果、並列ベクトル計算機の並列化効率が格段に高いことが明らかとなった。従って、気象・気候分野のシミュレーションを高速化することを目的とする地球シミュレータのハードウェア構成では、ベクトル計算機を要素計算機とする並列計算機を採用している[6]。

 この計画に刺激を受けた米国は、DOEの新しいプロジェクトであるACPI(Accelerated Climate Prediction Initiative)計画を検討しており、気候変動シミュレーション研究を推進する報告書が提出された[7]。報告書では、気候モデリング分野における米国の計算機資源が他の国と比較してかなり後退してしまったとの危機感が述べられているが、計画している40テラフロップス計算機はASCI計画で得られた成果を基に開発するとしており、この計画でベクトル計算機を採用することはなさそうである。しかし、連続体モデルに基づく気象・気候分野のシミュレーションでは、単体プロセッサとしてのベクトル計算機の優位性は明らかであり、米国がACPI計画においてどういう新規のアーキテクチャを採用するかは注目に値する。

 

3.3.4.2 地球シミュレータの概要

 超高速並列計算機「地球シミュレータ」は、ベクトルプロセッサを要素計算機とした分散主記憶型並列計算機であり、その基本設計が終了した。ここでは、基本設計に基づく地球シミュレータの概要について述べる。ただし、ここで述べるハードウェアの構成は、今後の開発の進展により変更される可能性があることをご承知願いたい。

 地球シミュレータは、640台の計算ノードをクロスバネットワークで結合させた分散メモリ型並列計算機である。計算ノード(PN: Processor Node)は、ピーク性能8Gflop/sのベクトル型計算プロセッサ(AP: Arithmetic Processor)8台が主記憶装置16GBを共有する共有メモリ型並列計算機となっている。したがって、全体ではAPが5120台、ピーク性能は40Tflop/s、主記憶容量10TBとなる(図1)。

 

図1 地球シミュレータの全体構成

 

 各PNは、8台のAP、32台の主記憶ユニット(MMU: Main Memory Unit)、リモート制御装置(RCU: Remote Control Unit)及び入出力プロセッサ(IOP:I/O Processor)から構成されている(図2)。

 

図2 計算ノードの構成

 

 APは、ベクトル処理部(VU: Vector Unit)、スカラ処理部(SU: Scalar Unit)等が1つのLSI上に実装され、主要クロック周波数500MHzで動作する。SUは、4ウェイのスーパースカラであり、128個の汎用レジスタ、2ウェイセットアソシアティブ方式の命令キャッシュとデータキャッシュをそれぞれ64KBづつ実装している。 VUは、6種類(加算、乗算、除算、論理、ビット列論理、ロード/ストア)のベクトル演算器と72個のベクトルレジスタからなるベクトル演算器セット8個で構成され、最大8Gflop/sの性能を有する。32台のMMUには、主記憶素子として128Mbitの高速RAMを採用し、2048バンク構成を取っている。各々のAPは、主記憶システムとの間に32GB/sのバンド幅を持っており、1PNで256GB/sを確保している。

 RCUはクロスバネットワークと直接接続され、クロスバを介した送信、受信をAPと独立に動作させることができる。クロスバネットワーク(IN: Internode Network)は、実際のデータが転送されるデータパス部(XSW: Internode Crossbar Switch)と、PN間の転送経路の予約、競合調停等を行う制御部(XCT: Internode Crossbar Control Unit)から構成されている。 IN及びRCUは、PN間データ転送機能、PN間同期等の機能を持つ。データ転送機能では、同期型転送と非同期型転送がサポートされており、主記憶上の連続した領域のデータを転送するブロック転送の他に、非同期型転送としてストライド付きベクトル転送、リストベクトル転送が可能である。データ転送のスループットはハードウェアの最大性能で送信、受信とも16GB/sである。

 地球シミュレータのシステムソフトウェアは、既存のUnix系オペレーティングシステム(OS)をベースに地球シミュレータ全体を管理、制御するための種々の機能を実現する予定である。特に、大規模分散並列処理に対応するために、高速ファイルアクセスが可能なファイルシステムを導入するとともに、並列ファイル入出力機能を提供する予定である。地球シミュレータ上の並列プログラミングでは、AP内ベクトル処理、PN内並列処理(共有メモリ型)及びPN間並列処理(分散メモリ型)が可能な3階層の並列実行機能を有効に活用できる環境を用意する予定である。基本的なプログラミングスタイルとして、Fortran90またはCをベースにメッセージパッシングライブラリMPI2を利用した並列処理形態を用意する。また、ユーザの利便性と従来のプログラム資産を考慮し、HPF2を拡張した言語体系も用意する予定である。

 地球シミュレータは、平成13年度内の完成を目標に本体製作に着手することになっており、ベクトル型計算機の性能を再考する上でも重要な試金石となる。過去、大規模科学技術計算分野においては、汎用コンピュータがベクトル計算機に置き代わっていったのと同じように、並列計算の技術が習熟した後は、ベクトル計算機を要素計算機とした並列ベクトル計算機へと移行していくのが自然な流れと思われる。しかも、同じ性能を達成するための並列台数が少ないため、ソフトウェア開発はMPPと比較して格段に容易であることが予想される。米国においてはベクトル計算機技術を再構築するのが極めて難しい状況にある中で、日本においてペタフロップスマシンがベクトル計算機の技術で達成されれば、十分なインパクトを持つであろう。

 

3.3.4.3 おわりに

 ペタフロップスマシンの技術調査も3期めが過ぎ、すでに調査に関する意欲が失われつつあるように思う。ペタフロップスマシン開発に向けた実際の動きが少しでも前向きであればさらに調査課題も絞り込めるものと思われるが、その動きすら感じられない状況において何を議論すべきであろう。米国では、MPPだけを利用するという極端に片寄った政策を取っておりその成果が疑わしくはあるが、少なくとも100テラフロップスマシン開発を念頭においたロードマップを描いており、ペタフロップスマシン開発にも意欲的である気がする。一方、日本においてはペタフロップスマシンに向けた産・官・学の体制さえまとまっておらず、今後のハイエンドマシンの開発について非常に危惧している。本報告書によって、ペタフロップスマシン開発の機運がさらに高まることを期待するものである。

 

参考文献

  1. 宍戸、”アメリカの方針転換で変わるスパコン市場”、 情報処理、Vol.40, No.3  (1999).
  2. http://phase.etl.go.jp/TOP500
  3. “Information Technology research: Investing in Our Future,” National Coordination Office for Computing, Information, and Communications, February (1999).
  4. “Europe can take the lead again in supercomputing ? vectors can be the answer”, http://www.hoise.com/primeur/9/articles/live/AE-PR-01-99-5.html.
  5. 「地球シミュレータ」計画の推進について、科学技術庁計算科学技術推進会議、平成9年7月.
  6. 横川他、“地球シミュレータ用性能評価システムの開発、”情処研報、Vol.99, No.21 (1999).
  7. “Capacity of U.S. Climate Modeling to support Climate Change Assessment Activities,” National Academy Press, Washington, D.C. (1998).