Untitled Document

　
第4章技術ロードマップからみた研究開発の方向性

4.1 アーキテクチャ

4.1.1 シングルチップマイクロプロセッサのロードマップ (天野英晴委員)

　1980年代の後半、マイクロプロセッサはRISCの提案による命令の簡素化によるクロックの向上とパイプライン処理の利用により高速化を果たしたが、90年代になって、命令の動的スケジューリング、複数命令の同時発行、キャッシュの高機能化、投機的実行など、高速化のテクニックはますます発達し、それにつれてマイクロプロセッサの構造はますます複雑化した。複雑化した構造は、それを実装するための半導体の面積を必要としたが、高機能マイクロプロセッサの実装に見合う分の面積は、半導体技術の発達によって常に供給が保証されてきた。このようにして高性能マイクロプロセッサの性能は向上し続けてきたが、1996年に入って、シングルプロセッサとしての高速化テクニックが限界に達する一方、半導体技術の発達が衰えぬペースで続いた結果、半導体の面積を有効に利用できない可能性が生じた。この問題を解決するためのアプローチが２つ提案された。

(1) シングルチップマルチプロセッサ：巨大な高機能プロセッサに代わって、比較的簡単なRISCプロセッサを複数搭載する。

　オンチップマルチプロセッサ、マルチプロセッサチップ、１チップマルチプロセッサと呼ばれる場合もあるが、ここではシングルチップマルチプロセッサと呼ぶことにする。

図1に最も基本的なシングルチップマルチプロセッサの構成を示す。

この構成では、4つのプロセッサが大規模な共有L2キャッシュと共に１チップ上に搭載されている。

図1 基本的なシングルチップマルチプロセッサの構成

(2) DRAM混載：主記憶の一部であるDynamic RAMを同一チップ上に搭載する。

　後者の考え方には、チップ外のメモリへのアクセスの壁(Memory Wall)による性能の低下に対する解決法のひとつとしての意味も持っている。

　もちろん、この両方を用いる、すなわち、シングルチップマルチプロセッサにDRAMを混載するアプローチも有力である。今回のロードマップは、半導体技術の発展に対して、この２つのアプローチがそれぞれの年代で取り得る形式を検討する。

　まず、SIAのロードマップ[1]を参考に、各要素の面積の予測をざっとまとめると表1のようになる。

表1 各要素の面積

表2 可能となる構成例

　表1を基に、それぞれの年代で、どのような構成が可能になるかをざっと予測してみた(表2)。予測には、２種類のプロセッサを用いた。比較的軽量の組込み用プロセッサとしてはR5000 (3.6Mgates、 64KB Cache)を選び、WS/デスクトップPC用のプロセッサとしては、現在最も面積が大きく性能の高いDEC Alpha 21164 (9.3Mgates、 112KB Cache)を選んだ。シングルチップマルチプロセッサ構成にした場合、キャッシュの要求量が問題だが、問題を簡単化するために、各プロセッサ毎に現在のキャッシュ分だけ持たせると仮定した。すなわち、Single Portの共有キャッシュなら、現在のプロセッサ数倍、プロセッサ数分のポート数を持たせるならば、現在と同量を搭載することになる（これはちょっと少ないかもしれない）。

　シングルチップマルチプロセッサ構成は、プロセッサ数は最大4とした。これは現状の技術の延長で汎用目的では、これ以上あっても活用が難しいと考えたためである。

　また、ここでは、WS/デスクトップPC用の高性能プロセッサ(DT)と、ラップトップあるいは移動、制御目的用軽量省電力プロセッサ(LT)の２種類を分けて考えた。前者は、予測された最大面積を使うとしたが、後者は、年代にかかわらず150mm2とした。年代が進んでも、この辺の面積を越すと価格がぐっとアップするという状況はあまり変わらないのではないかと考えたためである。表中で4＋56MBと表記した場合、4プロセッサのシングルチップマルチプロセッサで56MB DRAM搭載可能を示す。表中は、一応バランスが取れているとみなせる場合のみを示し、プロセッサに対して極端にDRAMが少なくなったり、多くなるようなアンバランスな構成になる場合は示していない。

この表自体大変怪しい代物だし、将来Alphaを上回る巨大チップが確実に出現するので、1ランク上のプロセッサに対する予測が必要であるが、少なくても以下の点を読みとることができる。

(1)余った面積をシングルチップマルチプロセッサにつぎこんだ方が有利になる時期は、2回来るだろう。

　1回目は、現在から近い未来(1998年)である。この時期は、DRAM混載技術がまだ立ち上がり段階で、余った面積をDRAMにつぎこむと、価格的に有利な面積のチップでは十分な量搭載することができない。これに対しDRAMを混載しないシングルチップマルチプロセッサは、容易に数を増やすことでピーク性能を上げることができる。しかし、シングルチップマルチプロセッサにしても、並列プログラムでピーク性能を上げたり、マルチジョブをするだけでは、商業的に採算は合わないと考えられるので、実験的なシステムに留まる可能性が高い。しかし、この時期に実験システム上で、シングルジョブの高速化技術を確立しておく必要がある。

　2回目は、シングルチッププロセッサ＋DRAM構成にしても面積が余るようになる2004年以降である。もちろんAlphaを上回る面積の高性能プロセッサは今後も出てくると思うが、それでも2004年を越えると上記の傾向は出てくると考えられる。最初の時期に、シングルジョブの高速化技術をきちんと確立しておけば、これ以降シングルチップマルチプロセッサ＋DRAMがマイクロプロセッサの王道になることが期待される。

(2) 先にブレークするのは、DRAM混載、LT用であろう

　DRAM混載型プロセッサは、[1] 実装面積が小さくなる、[2] 電力消費量が減る、の２点で携帯用、移動用、制御用に圧倒的に有利である。DT用では、これからも面積の大きい強力なチップが登場するであろうから、DRAM混載がブレークするのは、まず移動用分野で、それが可能になるのは150mm2程度のサイズで搭載が可能になる2001年前後であろう。それから、どんどんDT用に普及が広がっていくであろう。

(3) DRAM混載型は必然だがシングルチップマルチプロセッサはわからない

　前項のようにDRAM混載は、絶対的に有利な点と将来性のある分野を抱えているがシングルチップマルチプロセッサはそうではない。ここ数年のうちにシングルチップマルチプロセッサ上で並列化されていない単一ジョブを高速化する技法が発達することが重要である。NECの提案するMUSCUT[2]、早稲田大学の笠原研の提案するコンパイラ主導のアプローチ[3]は、有望かどうかは別としてどんどんやらなければならない。2007年以降、余った面積を使うためにのみシングルチップマルチプロセッサ化が行われるとしたら、その頃はWS/PC自体が、今のメインフレームのように計算機利用の主体からはずれているのではないかと思われる。普及しはじめたSMPの使われ方に注目する必要がある。また、マルチメディア用チップ、FPGAを用いたCustom Computing Machine、通信用チップ等専用チップと考えられているチップに注目する必要があろう。

参考文献

[1]: SIA Roadmap, 1997, SIA
[2]: 鳥居、近藤、本村、西、小長谷: "On Chip Multiprocessor 指向制御並列アーキテクチャMUSCAT" JSPP97論文集 pp.229-236, 1997.
[3]: W. Ogata, A. Yoshida, M. Okamoto, K. Kimura, H. Kasahara, "Near Fine Grain Parallel Processing without Explicit Synchronization on a Multiprocessor System", Proc. of Sixth Workshop on Compilers for Parallel Computers (Aachen, Germany), Dec. 1996.

4.1.2 「付加的」論理のロードマップ (中島浩委員)

　表1は、過去6年の代表的なマイクロプロセッサについて；

● t．．．トランジスタ数（100万Tr単位）

● c．．．オンチップキャッシュ容量（KB単位）

● i．．．整数演算ユニット数

● f．．．浮動小数点演算ユニット数

をまとめ、それに基づいて将来動向を予測したものである。1992～94年と1995～97年ではトランジスタ数とキャッシュ容量が約3倍程度増加したのに対し、演算ユニットの数はさほど増加していない。そこでこの傾向を説明するために、「付加的」論理によるトランジスタ消費量aを、下式によって定義する。

a=t-0.05c-0.5-0.05(i-1)-0.1(f-1)

すなわち；

キャッシュ１バイトあたりのトランジスタ数　 = 50

「基本的」論理による消費量　　　　　　　　 = 50万

整数演算ユニットの増分あたりの消費量　　　= 5万

浮動小数点演算ユニットの増分あたりの消費量 = 10万

と考える。なお「基本的」論理による消費量は、比較的単純な構成であるR4000のキャッシュを除くトランジスタ数である。

　最近の2世代については、この「付加的」トランジスタ数が大きく増加しているが、これは本格的なスーパスカラアーキテクチャの採用、すなわちout-of-orderの命令発行や完了、分岐予測や投機的実行といった高度なプロセッサアーキテクチャが採用されたことによるものである。またこのようなアーキテクチャは、3.1.3で述べた予測技術と密接に関連している。

　そこで将来の動向を以下のように予測する。

● t ．．．SIAによる予測

● c．．．SIAによる製品レベルDRAMのチップあたり容量の1/256ないし1/128

● i/f．．．3年あたり2倍

　その結果、今後10年間では100万から1000万のオーダのトランジスタが、「付加的」論理に費やされるという結論が導かれる。すなわち単純に命令を実行する以外の、予測技術などを含めた種々の機構（あるいは「付加的」プロセッサ）の一層の高度化が予測される。

表1「付加的」論理のロードマップ

4.2 ソフトウェア

4.2.1 分散並列システム (石川裕委員)

――――――――――――――――――――――――――――――――――――――

説明

○ Cluster Computerの製品化: 既にCompaqはSC'97においてWindowsNTをベースにしたPC Clusterの発表をしている。しかし、現在のソフトウェア構成では、性能面において、研究レベルで実証されている通信性能が達成されていない。1999年度中には、現在の研究レベルの通信性能を持つ製品が出始めるであろう。
○ Cluster of Clustersのためのシステムソフトウェア: Cluster Computerが製品化され広く行き渡るようになると、ClustersをさらにClusterする話が現実的になってくる。このためのシステムソフトウェアは、既に研究されているが、Cluster Computerが製品化された後の1年半後には製品化されるだろう。
○ Cluster Computer上のデバッグおよびチューニング環境: 技術的にCluster Computer上のデバッガおよびチューニングツールは従来のMPPにおけるデバッガやチューニングツールと大差はない。特殊なハードウェアの存在を仮定せずに実現する必要があるという点である。デバッガ及びチューニングツールは、ハードウェア、プログラミング言語の進化に応じて進化していく必要がある。
○ SMP Clusterのためのシステムソフトウェア: ここで言うSMP Clusterとは、ノードがSMP構成のクラスタを指すこととする。SMP上でのマルチスレッドと他のプロセッサとの通信に関する実行モデルおよび効率良い処理系の開発が必要である。
○ SMP Clusterのためのプログラミング言語処理系(HPF、 OpenMP): SMP Cluster上で、マルチスレッドおよび通信プログラミングをしなくても並列化されるプログラミング言語処理系が必要である。HPFやOpenMPの言語仕様を基に開発されるだろう。
○ 異機種ハイパフォーマンス並列分散処理のためのシステムソフトウェア: プロセッサアーキテクチャ、single processor/SMP、異なるオペレーティングシステム等異機種環境上において並列プログラミングを可能とするシステムソフトウェアの開発。
○ ハイパフォーマンス並列オブジェクト指向言語処理系(HPC++、 MPC++): オブジェクト指向特にC++の持つ演算子の多重定義機能を用いることにより、可読性に富んだプログラムを記述することができる。さらに、MPC++のように並列化記述をライブラリに持たせると共にライブラリに特別化した最適化機能を提供する処理系開発が進められている。

4.2.2 自動並列化コンパイラ研究ロードマップ (笠原博徳委員)

4.2.3 並列言語インタフェース/ツール(HPC分野) (妹尾義樹委員)

4.3 アプリケーション (福井義成委員)

　前にも述べたように、アプリケーションのロ－ドマップを一般的に示すことは、不可能に近い。そこで、ここではアプリケ－ションを構成する色々な軸をあげ、各軸での方向を示すだけに止める。アプリケ－ションを構成する軸には

・１次元－－＞２次元－－＞３次元

・線形－－＞非線型

・定常解－－＞非定常解（時間的変化）

・１ケースの計算－－＞多くのケースの計算（パラメトリックスタディ、最適化）

・粗いモデル－－＞詳細なモデル

・汎用解法
　（アルゴリズム）－－＞専用解法

・低レベルのモデル記述－－＞高いレベルでのモデル記述（間違いにくい記述方法へ）

・問題解決の重要度の移動（全体の時間を短縮することが重要）

・計算能力の向上により、それまでは不可能であった計算方法・新分野が出現

が考えられる。ある時点のあるアプリケーションはこれらの要素を軸とする多次元空間上の点として表現される。計算機、計算手法の発達により、アプリケーションの位置は各軸の原点から離れた方向に発展している。どのような位置を移動するかはアプリケ－ションの性質に依存する。あるアプリケーションは速く３次元化するであろうし、他のアプリケーションは３次元化をする前にモデルの詳細化が先行するというようなことになるであろう（図1）。

図１　アプリケーションの多次元空間（３次元の例）

・１次元	－－＞	２次元－－＞３次元
・線形	－－＞	非線型
・定常解	－－＞	非定常解（時間的変化）
・１ケースの計算	－－＞	多くのケースの計算（パラメトリックスタディ、最適化）
・粗いモデル	－－＞	詳細なモデル
・汎用解法　（アルゴリズム）	－－＞	専用解法
・低レベルのモデル記述	－－＞	高いレベルでのモデル記述（間違いにくい記述方法へ）
・問題解決の重要度の移動（全体の時間を短縮することが重要）
・計算能力の向上により、それまでは不可能であった計算方法・新分野が出現

第4章 技術ロードマップからみた研究開発の方向性