CPU の高速化テクニックからスーパーコンピュータまで

CPUの高速化テクニックからスーパーコンピュータまでCPUの高速化テクニックからスーパーコンピュータまで天野

SoC設計論 大学院 SoC設計演習マイクロプロセッサアーキテクチャ特論コンピュータアーキテクチャ特論 VLSI設計論　（MIPSの設計、レイアウト） 4年春情報工学実験第2　（I/Oを含んだマイクロプロセッサ） 3年秋コンピュータアーキテクチャ 3年春

高速化の流れ スレッドレベルの高速化 Simultaneous Multithreading マルチコア化複数命令の同時発行（スーパースカラ）命令レベルの高速化パイプラインを細かく（スーパーパイプライン）周波数の向上 RISCの登場パイプライン化命令の動的スケジュールマルチコア革命 2003-2004 1980 1990 2000

ＭＩＰＳの命令セット • 32ビットレジスタが３２個ある • ３オペランド方式 • ＬＤ，ＳＴはディスプレースメント付き • ＡＤＤ　Ｒ3，Ｒ１，Ｒ２ • ＡＤＤＩ　Ｒ3，Ｒ１，＃１ • ＬＤ　Ｒ3，　１０（Ｒ１） • ＳＴ　Ｒ１，　２０（Ｒ２） • ＢＥＱ　Ｒ１，Ｒ２，　ｌｏｏｐ

命令フォーマット 3種類の基本フォーマットを持つ 31 26 25 21 20 16 15 11 10 6 5 0 shift amount R-type opcode rs rt rd function 31 26 25 21 20 16 15 0 I-type opcode rs rt immediate 31 26 25 0 J-type opcode target

ir ｒｄ imm rt rs pc + ALU ALU パイプラインの概観 ID EX MEM WB IF control signals Decoder rwadr Register File MUX dout0 aluout dout1 MUX MUX MUX hazard 4 pcset exfdata MUX badr ifpc memfdata ddataout idata iaddr daddr ddatain Data Memory Instruction Memory

パイプライン処理の問題点とその解決法 • うまく動けば1クロックに1命令終わる　 • CPI=1でクリティカルパスは１/（ステージ数） • ステージ数分高速化、周波数向上のためにもステージ数を増やす • スーパーパイプライン • 命令間に依存性があると継続する命令が実行できずストール（失速）する • データハザード • できる命令から実行する • 命令の動的スケジューリング：アウトオブオーダ実行 • 飛び先と飛ぶかどうかが分からないとストールする • コントロールハザード • 分岐予測 • 投機的実行：実行してしまって後で取り消す

命令のアウトオブオーダ実行 トーマスローのアルゴリズム Hennessy & Patterson Computer Architecture より

IF RF EX WB IF RF EX WB スーパスカラ方式２命令同時発行の例（３，４命令同時発行も実現されている）命令コードの互換性がある命令実行制御がたいへん通常の命令パイプライン浮動小数点演算パイプラインキャッシュ浮動小数点演算命令通常の命令メモリシステム

VLIW（VeryLongInstructionWord）方式 WB EX EX EX EX RF IF ４つの命令分の長い命令実行の制御はコンパイラがあらかじめ行うので制御は簡単コードの互換性がない

マルチスレッドとＳＭＴ(Simultaneous Multi-Threading) Issue Slots Issue Slots Issue Slots Clock Cycles fine-grained multithreaded superscalar superscalar SMT

マルチコア、メニーコア • 動作周波数の向上が限界に達する • 消費電力の増大、発熱の限界 • 半導体プロセスの速度向上が配線遅延により限界に達する • 命令レベル並列処理が限界に達する • メモリのスピードとのギャップが埋まらない →　マルチコア、メニーコアの急速な発達マルチコア革命　2003-2004年 • プログラマが並列化しないと単一プログラムの性能が上がらない

クロック周波数の向上 Pentium4 3.2GHz Nehalem 3.3GHz 高速プロセッサのクロック周波数周波数 1GHｚ年間40％プロセッサの動作周波数は2003年で限界に達した消費電力、発熱が限界に Alpha21064 150MHz 100MHｚ 2008 1992 2000 年

Flynnの分類 • 命令流(InstructionStream)の数：　M(Multiple)/S(Single) • データ流（DataStreaｍ）の数：M/S • SISD • ユニプロセッサ（スーパスカラ、VLIWも入る） • MISD：存在しない（AnalogComputer） • SIMD • MIMD

命令一人の命令で皆同じことをするSIMD 命令メモリ半導体チップ内でたくさんの演算装置を動かすには良い方法アクセラレータ（普通のCPU にくっつけて計算能力を加速する加速装置）の多くはこの方式安くて高いピーク性能が得られる →パソコン、ゲーム機と　　共用演算装置 Data memory

TSUBAME2.0(Xeon+Tesla,Top500 2010/114th) 天河一号(Xeon+FireStream,2009/11 5th) GPGPU：PC用グラフィックプロセッサ ※()内は開発環境

GeForce GTX280 240 cores Host Input Assembler Thread Execution Manager Thread Processors Thread Processors Thread Processors Thread Processors Thread Processors … PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM Load/Store Global Memory

GPU(NVIDIA’s GTX580) 128 Cores 128 Cores L2 Cache 128 Cores 128 Cores 128個のコアは SIMD動作をする４つのグループは独立動作をするもちろん、このチップをたくさん使う 512 GPU cores ( 128 X 4 ) 768 KB L2 cache 40nm CMOS 550 mm^2

MIMD（Multipe-Instruction Streams/Multiple-Data Streams) Node　００ Node　１１２ＩｎｔｅｒｃｏｎｎｅｃｔiｏｎＮｅｔｗｏｒｋ Node2 ３メモリ空間 Node　３独立して動けるプロセッサを複数使う

MIMD（Multipe-Instruction Streams/Multiple-Data Streams)の特徴 • 自分のプログラムで動けるプロセッサ（コア）を多数使う • 同期：足並みを揃える • データ交信：共通に使うメモリを持つなど • 最近のPC用のプロセッサは全部この形を取っている • 最近はスマートフォン用のCPUもマルチコア化

Multi-Core (Intel’s Nehalem-EX) L3 Cache CPU CPU CPU CPU CPU CPU L3 Cache CPU CPU 8 CPU cores 24MB L3 cache 45nm CMOS 600 mm^2

Intel 80-core chip [Vangal,ISSCC’07] Intel 80-Core Chip

まとめ • 汎用プロセッサのマルチコア化は現在絶好調進行中 • 世代が進む毎に２ずつ増えている • しかし、コア数をこれ以上増やしても良いことがないかも、、、 • メニーコア • GPUなどのアクセラレータの性能向上は進む • メニーコアによるクラウドコンピューティング

スーパーコンピュータ • 特に科学技術計算が非常に速い計算機 • 医療、物理、天体、気象などの研究用の膨大な計算をする • 非常に高価なため主として国の研究機関に設置 • 開発、運用のためには総合的な技術が必要 • 世界一高速なスーパーコンピュータはアメリカ、日本、中国で争ってきた • 巨額の国家予算がつぎ込まれるため、政治的な関心が高い→2009年12月　事業仕分けの対象になる　「一番じゃなきゃいけないんですか？」昨年、「京」が世界一を奪取、10PFLOPSを達成今、最もマスコミが取り上げてくれるコンピュータ

FLOPSって何？ • Floating Point Operation Per Second:一秒間に実行できる浮動小数点演算の数 • 浮動小数とは？ • (仮数)×　２　（指数乗）　で表す数 • 倍精度(64ビット)、単精度(32ビット）があり世界標準（IEEE標準）が決まっている指数仮数符号単精度 8ビット 23ビット倍精度 11ビット 52ビット

ペタフロップスって何？ 10の6乗 10の9乗 10の12乗 10の15乗 10の18乗 100万 M（メガ） 10億 G（ギガ） 1兆 T（テラ） 1000兆 P（ペタ） 100京 E（エクサ）スーパーコンピュータ数10TFLOPS-10PFLOPS iPhone4S 140MFLOPS アクセラレータ数TFLOPS ハイスペックなPC 50-80GFLOPS 注意！　スーパーコンピュータの性能向上率は1.9倍/年 10PFLOPS=1秒に1京回浮動小数点演算を行う →　「京」の名前の由来

世界一はどのように決まる？ • Top500/Green500Linpackという行列計算プログラムを動かした場合の性能、性能/電力をランキング • 演算性能重視 • ゴードンベル賞 • もっとも演算性能が高いマシン、値段が安くて性能の高いマシン、特徴のあるマシンを表彰 • HPC Challenge • Global HPL　行列演算：　演算性能 • Global Random Access：　メモリのランダムアクセス：　通信性能 • EP stream per system:　多重負荷時のメモリアクセス：　メモリ性能 • Global FFT:演算性能と通信性能が共に要求されるやっかいな問題 • 11月　ACM/IEEE Supercomputing Conference • Top500、ゴードンベル賞、HPCChallenge、Green500 • 6月　International Supercomputing Conference • Top500、Green500

Rmax: Peta FLOPS Sequoia USA 16PFLOPS 10 K Japan Top 5 9 8 3 Tianhe(天河)China 2 Jaguar USA Nebulae China １ Roadrunner USA Tsubame Japan Kraken USA Jugene Germany 2011.11 2011.6 2010.11 2010.6

SACSIS2012招待講演より

Top 500 201111月

Green 500 201111月 1-5位はIBM Blue Gene/Q 10位はTsubame-2．0（東工大）

一番じゃなきゃいけないんですか？ • Top500の一位に固執する必要はない • 差が少しならばこだわっても意味がない　　→　オリンピックではないので、、 Green500、ゴードンベル賞コスト対性能部門、HPCChallengeの各プログラムそれぞれの上位のマシンはそれぞれの利用価値があるマスコミはあまり取り上げてくれないが、、 • 今までの歴史を見ると、一位は他を圧倒して登場する • Top500の一位はゴードンベル賞、HPCChallengeも受賞する場合が多い • 京は、Top500 1位、ゴードンベル賞性能部門、HPC Challenge４つすべてで受賞している • 一位の宣伝効果は大きい • 一定の間隔で一位を取れる技術を保持することは重要

スーパーコンピュータはなぜ速い ×凄く速いクロック（時間刻み）で動くから Pentium4 3.2GHz Nehalem 3.3GHz 高速プロセッサのクロック周波数周波数京2GHz 1GHｚ年間40％プロセッサの動作周波数は2003年で限界に達した消費電力、発熱が限界に Alpha21064 150MHz 京の動作周波数はその辺のパソコンのCPUよりも低い →発熱を抑えるため 100MHｚ 2008 1992 2000 年

並列処理の3つの方法 並列処理→　皆で働けば速くなる：プロセッサコア（処理装置）をたくさんもつ • 一人の命令で皆が同じことをやる • SIMD(Single Instruction Stream Multiple Data Streams)：　　シムディー • 流れ作業 • パイプライン処理、ベクトル計算機 • 皆でてんでんばらばらに計算するが、どこかで歩調を合わせる • MIMD(Multiple Instruction Streams Multiple Data Streams): ミムディー、マルチコア、メニーコア、スカラー計算機 • どのマシンも3つの方法を色々なレベルで使っている • しかし、使い方によっていくつかの種類に分けることができる • たくさんのプロセッサをちゃんと動かすために • 巨大、高速なメモリ、ディスク • 高速な結合網

Peta FLOPS ピーク（最大）性能と Linpack性能 11 K Japan 10 5 アクセラレータタイプはピークとLinpack性能の差が大きい 4 Tianhe(天河)China ホモジーニアスアクセラレータ GPU利用 3 Nebulae China 2 Tsubame Japan Jaguar USA １アクセラレータタイプはエネルギー効率が良い

パイプライン処理 １２３４５６ステージそれぞれのステージは自分の仕事が終わったら結果を次に渡すステージの実行時間が同じならば、6倍に性能が上がる要するに流れ作業結果が出るまで次の作業ができない場合は、パイプラインに泡が入ってしまう　→　しかし行列計算など独立に計算ができれば有利！

ベクトル処理（ベクトル計算機） ベクトルレジスタ a0a1a2….. 乗算器加算器 X[i]=A[i]＊B[i] Y=Y+X[i] b0b1b2…. 行列が長ければ効率が良い古典的なスーパーコンピュータはベクトル型　（地球シミュレータ）最近は減っている

ベクトル処理（ベクトル計算機） ベクトルレジスタ a1a2….. 乗算器加算器 a0 b0 X[i]=A[i]＊B[i] Y=Y+X[i] b1b2….

ベクトル処理（ベクトル計算機） ベクトルレジスタ a2….. 乗算器加算器 a1 a0 b0 b1 X[i]=A[i]＊B[i] Y=Y+X[i] b2….

ベクトル処理（ベクトル計算機） ベクトルレジスタ a11….. 乗算器加算器 a10 x1 a9 x0 b9 b10 X[i]=A[i]＊B[i] Y=Y+X[i] b11….

MIMD（Multipe-Instruction Streams/Multiple-Data Streams) Node　００ Node　１１２ＩｎｔｅｒｃｏｎｎｅｃｔiｏｎＮｅｔｗｏｒｋ Node2 ３メモリ空間 Node　３独立して動けるプロセッサを複数使う

日本のスーパーコンピュータ紹介 • 「京」スーパーコンピュータ • 現在の世界一、ホモジーニアスなマルチコア、スカラプロセッサ • アクセラレータを用いず久々に一位を奪取、使いやすい • 地球シミュレータ • ベクトル計算機で世界一を取った最後？のコンピュータ • ピーク性能と実効性能の差が小さい • 東工大　Tsubame • アクセラレータ（GPU)を多数利用、電力比に優れたスーパーコンピュータ • 長崎大　DEGIMA • アクセラレータを利用、手作り感のあるスーパーコンピュータ、優れたコストパフォーマンス、エネルギー効率、ゴードンベル賞受賞 • GRAPEプロジェクト • 天体物理学用、専用計算機、SIMD、様々なマシンがゴードンベル賞を何度も受賞しているユニークなスーパーコンピュータ

スーパーコンピュータ「京」 Memory L2 C Core Core Tofu Interconnect 6-D Torus/Mesh Core Core Inter Connect Controller Core Core Core Core SPARC64 VIIIfx Chip RDMA mechanism NUMA or UMA+NORMA 4 nodes/board 96nodes/Lack 24boards/Lack

水冷式のボード構成

京　のラック構成

6次元トーラス Tofu

CPU の高速化テクニックから スーパーコンピュータまで