CMP におけるオンチップルータの細粒度パワーゲーティングの評価

CMPにおけるオンチップルータの細粒度パワーゲーティングの評価CMPにおけるオンチップルータの細粒度パワーゲーティングの評価 (東京大学) (国立情報学研究所) (慶應義塾大学) (芝浦工業大学) (東京大学) (慶應義塾大学) 松谷宏紀鯉渕道紘池淵大輔宇佐美公良中村宏天野英晴

最近のマルチコア・メニーコア picoChip PC102 picoChip PC205 256 ClearSpeed CSX700 128 Intel 80-core ClearSpeed CSX600 64 TILERA TILE64 Intel SCC 32 Number of PEs (caches are not included) MIT RAW UT TRIPS (OPN) 16 STI Cell BE 8 Sun T1 Sun T2 Fujitsu SPARC64 4 Intel Core, IBM Power7 AMD Opteron 2 2002 2004 2006 2008 2010

最近のマルチコア・メニーコア picoChip PC102 picoChip PC205 256 ClearSpeed CSX700 シンプルな PE を大量に接続 128 Intel 80-core ClearSpeed CSX600 64 TILERA TILE64 Intel SCC 32 Number of PEs (caches are not included) MIT RAW UT TRIPS (OPN) 16 STI Cell BE 高性能 CPU を複数接続 8 Sun T1 Sun T2 Fujitsu SPARC64 4 Intel Core, IBM Power7 AMD Opteron 2 2002 2004 2006 2008 2010

共有メモリ型 CMP: Network-on-Chip • 8-CPU CMP の構成例 • プロセッサ (プライベート L1 キャッシュ内蔵) • 共有 L2 キャッシュ、バンク分割 (non-uniform cache arch) [Beckmann, MICRO’04] UltraSPARC L1キャッシュ (I & D) (各 16kB) L2キャッシュバンク (各 256kB, 4-way)

共有メモリ型 CMP: Network-on-Chip • 8-CPU CMP の構成例 • プロセッサ (プライベート L1 キャッシュ内蔵) • 共有 L2 キャッシュ、バンク分割 (non-uniform cache arch) • プロセッサと L2 バンクの結合  Network-on-Chip (NoC) NoCは CMP の通信インフラストラクチャーなので、いつでもパケット転送できる状態でなければならない。 • でも、それだと NoCが常にリーク電力を消費してしまう。。そこで、NoCにランタイム・パワーゲーティングを適用して、リーク電力を最小限に抑えよう！ [Beckmann, MICRO’04] UltraSPARC L1キャッシュ (I & D) (各 16kB) L2キャッシュバンク (各 256kB, 4-way) オンチップルータ

発表の流れ: 細粒度 PG ルータの評価 • オンチップルータの細粒度パワーゲーティング • 入力バッファ、出力ラッチ • クロスバMUX、仮想チャネルMUX • パワードメインのハードウェア評価 • 回路設計 @ Fujitsu 65nm • 面積、ウェイクアップ遅延、On/Off エネルギー • 早期ウェイクアップ手法 • ウェイクアップ遅延の隠ぺい • CMP システムレベル評価 • アプリケーション性能 (早期ウェイクアップ付き) • リーク電力の削減量 (On/Off エネルギー込み) 35個のパワードメイン (ルータ1個あたり) オーバヘッドをちゃんと評価します

パワーゲーティング: 粗粒度 vs. 細粒度 IP Core • 粗粒度なアプローチ • IPコア (モジュール) 単位 • VGND リングで囲む • VGND と GND の間にパワースイッチを挿入 • 細粒度なアプローチ • スタセル単位 • セルごとに VGND ポート • 同じドメインのセルは、同じ VGND ラインを共有 IP Core IP Core IP Core IP Core IP Core [宇佐美, ICCD’06] Virtual GND (VGND) IP Core IP Core On/Off PowerSwitch GND ring

パワーゲーティング: 粗粒度 vs. 細粒度 • 細粒度なアプローチ • スタセル単位 • セルごとに VGND ポート • 同じドメインのセルは、同じ VGND ラインを共有 • 粗粒度なアプローチ • IPコア (モジュール) 単位 • VGND リングで囲む • VGND と GND の間にパワースイッチを挿入 IP Core [宇佐美, ICCD’06] PowerSwitch VDD VDD VDD Virtual GND (VGND) OR OR OR AND AND AND On/Off GND GND GND IP Core VGND GND GND GND On/Off PowerSwitch INV INV INV DFF DFF DFF GND ring VDD VDD VDD

パワーゲーティング: 粗粒度 vs. 細粒度 • ルータ内の細かい部品 (入力バッファ、マルチプレクサ)は、互いに独立して動作する • 細粒度 PG のほうがスリープできるチャンスが多い ARBITER X+ X+ Packet#1 X- X- Y+ Y+ Packet#2 Y- Y- 5x5 CROSSBAR CORE CORE

細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE

細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ Packet X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE

細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE

細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE 各パワードメインは本当に使われるときだけ起こされる (リークを消費)

発表の流れ: 細粒度 PG ルータの評価 • オンチップルータの細粒度パワーゲーティング • 入力バッファ、出力ラッチ • クロスバMUX、仮想チャネルMUX • パワードメインのハードウェア評価 • 回路設計 @ Fujitsu 65nm • 面積、ウェイクアップ遅延、On/Off エネルギー • 早期ウェイクアップ手法 • ウェイクアップ遅延の隠ぺい • CMP システムレベル評価 • アプリケーション性能 (早期ウェイクアップ付き) • リーク電力の削減量 (On/Off エネルギー込み) 35個のパワードメイン (ルータ1個あたり)

細粒度ランタイムPGルータ: 設計フロー • Verilogネットリスト • Holdセル挿入 (スリープ時に不定値伝搬を防ぐ) • 自動配置配線 • パワースイッチ挿入 • 自動配置配線 (再び) • SPICE ネットリスト抽出 • SPICE シミュレーション Synopsys DesignCompiler module FIFO (in, out); input [127:0]in; output [127:0] out: DFF reg0 (in0, out0, clk); • DFF reg1 (in1, out1, clk); endmodule By hand Synopsys Astro Sequence Design CoolPower Synopsys Astro Cadence Assura (QRC) Synopsys HSIM

細粒度ランタイムPGルータ: 設計フロー • Verilogネットリスト • Holdセル挿入 (スリープ時に不定値伝搬を防ぐ) • 自動配置配線 • パワースイッチ挿入 • 自動配置配線 (再び) • SPICE ネットリスト抽出 • SPICE シミュレーション Synopsys DesignCompiler module FIFO (in, out); input [127:0]in; output [127:0] out: DFF reg0 (in0, out0, clk); • DFF reg1 (in1, out1, clk); • HOLD (out0); • HOLD (out1); endmodule By hand Synopsys Astro Sequence Design CoolPower Synopsys Astro Cadence Assura (QRC) Synopsys HSIM

細粒度ランタイムPGルータ: 設計フロー • Verilogネットリスト • Holdセル挿入 (スリープ時に不定値伝搬を防ぐ) • 自動配置配線 • パワースイッチ挿入 • 自動配置配線 (再び) • SPICE ネットリスト抽出 • SPICE シミュレーション Synopsys DesignCompiler VDD OR AND DFF By hand GND Synopsys Astro GND Sequence Design CoolPower INV DFF AND OR NOR Synopsys Astro VDD Domain#0 Domain#1 Cadence Assura (QRC) Synopsys HSIM

細粒度ランタイムPGルータ: 設計フロー • Verilogネットリスト • Holdセル挿入 (スリープ時に不定値伝搬を防ぐ) • 自動配置配線 • パワースイッチ挿入 • 自動配置配線 (再び) • SPICE ネットリスト抽出 • SPICE シミュレーション Synopsys DesignCompiler PowerSwitch VDD OR AND DFF By hand GND VGND Synopsys Astro GND Sequence Design CoolPower INV DFF AND OR NOR Synopsys Astro VDD Domain#0 Domain#1 Cadence Assura (QRC) Synopsys HSIM

パワードメインの評価: 面積オーバヘッド • Hold セル • ゲート数 2.6% 増 • ドメインの出力ポート数に応じて増える • パワースイッチ • ゲート数 1.7% 増 • ウェイクアップ速度に応じて増える • スタセルの改造 • 各セルに VGND ポートを取り付ける • 全セルの高さを 10/9 倍 PowerSwitch VDD OR AND DFF GND VGND GND INV DFF AND OR NOR VDD Domain#0 Domain#1 Holdセル&パワースイッチで 4.3%増、スタセル改造を含めると15.9%

パワードメインの評価: ウェイクアップ遅延 Correct output • ウェイクアップ遅延 • 電源オフの回路に電源を投入し、動作するまで • パケット通信遅延が増える FIFO OUT[1] 2.8nsec Wakeup & Initialization FIFO OUT[0] FIFO 入力 VC バッファの例 VDD Clock FIFO VGND Wakeup Power ON Switch Wakeup GND Fujitsu 65nm CMOS (1.20V, 75C)

パワードメインの評価: ウェイクアップ遅延 Correct output • ウェイクアップ遅延 • 電源オフの回路に電源を投入し、動作するまで • パケット通信遅延が増える MUX OUT[1] 1.3nsec Wakeup MUX OUT[0] クロスバ MUX の例 VDD Clock MUX VGND Wakeup Power ON Switch Wakeup GND パワードメインの電源オンして動作するまで 3nsec (3-cycle@1GHz) Fujitsu 65nm CMOS (1.20V, 75C)

パワードメインの評価: On/Off エネルギー • On/Off エネルギー • パワースイッチの駆動 • ウェイクアップ信号の配線 • スリープ期間が短いと、 “元” が取れなくなる FIFO OUT[1] Clock is stopped to clearly show On/Off energy FIFO OUT[0] FIFO 入力 VC バッファの例 Power Off VDD Wakeup FIFO On/Off energy Current VGND Wakeup GND Switch 60～99nsec以上のスリープなら、On/Off エネルギーを償却できる Fujitsu 65nm CMOS (1.20V, 75C)

ウェイクアップ遅延の影響: 評価環境 • CMPシミュレータ: GEMS/Simics • 3サイクルルータ • ウェイクアップ遅延: 2, 3, 4 cycles • SPLASH-2 ベンチマーク (8スレッド) [Martin,CAN’05] [RC] [VSA] [ST] radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) UltraSPARC L1キャッシュ (I & D) (各 16kB) L2キャッシュバンク (各 256kB, 4-way) オンチップルータ

ウェイクアップ遅延の影響: 評価環境 • CMPシミュレータ: GEMS/Simics • 3サイクルルータ • ウェイクアップ遅延: 2, 3, 4 cycles • SPLASH-2 ベンチマーク (8スレッド) • 仮想チャネル0 • リクエスト (L1 ⇔ L2) 用 • 仮想チャネル1 • リクエスト (L2 ⇔ 主記憶) 用 • 仮想チャネル2 • リプライ用 • 仮想チャネル3 • スタベイション回避用 [Martin,CAN’05] [RC] [VSA] [ST] radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) Token coherence プロトコル [Martin,ISCA’03]

ウェイクアップ遅延の影響: 評価結果 SPLASH-2 ベンチ (10個の並列アプリ) の実行時間 2-cycle ウェイク 3-cycle ウェイク 4-cycle ウェイク (667MHz) (1000MHz) (1333MHz) アプリの実行時間 (正規化) パワーゲーティングしないときの実行時間 = 1.00 アプリの実行時間が平均 23.2% ～ 46.3% 増加 Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave 実行時間の増加はエネルギ増  ウェイクアップ遅延の隠蔽が必須 trace rend NS SP

早期ウェイクアップ: Look-ahead method • 2ホップ先のルータモジュールを事前にウェイクアップ • Look-ahead ルーティングを使用 [松谷,ASPDAC’08] CPU L2キャッシュ 1ホップ目 2ホップ目 3ホップ目 4ホップ目 5ホップ目 Wakeup Wakeup Wakeup ルータ(1)が、ルータ(2)の出力ポートを決める ルータ(3)の入力ポートが判明ルータ(2) ルータ(3) ルータ(1) ST NRC NRC VSA ST NRC VSA VSA ST HEAD DATA 1 SA SA SA ST ST ST DATA 2 ST ST ST SA SA SA ST ST ST DATA 3 SA SA SA ところで、、1ホップ目はどうやって事前にウェイクアップさせるの??

早期ウェイクアップ: LA + CPU ever-on • 2ホップ先のルータモジュールを事前にウェイクアップ • Look-ahead ルーティングを使用 • Ever-on ドメイン • 電源を落とさない • ウェイクアップ遅延無し • CPU隣接ポートの VC0、VC2 のみ Ever-on に設定 • 仮想チャネル0 • リクエスト (L1 ⇔ L2) 用 • 仮想チャネル1 • リクエスト (L2 ⇔ 主記憶) 用 • 仮想チャネル2 • リプライ用 • 仮想チャネル3 • スタベイション回避用 [松谷,ASPDAC’08] CPU L2キャッシュ Ever-on 1ホップ目 2ホップ目 3ホップ目 4ホップ目 5ホップ目 Wakeup Wakeup Wakeup NoCのトラフィック量を解析 Ever-on チャネルは全体の4.7%  最小コストで遅延を大幅に削減

早期ウェイクアップ: LA + Buffer window • FIFO バッファの先頭を予め電源オン • Window size= 常にオンにしておくバッファ量 • 短いパケット (window size 以下)  ウェイクアップ遅延無し [Chen,ISLPED’03] ARBITER X+ Window size = 3 X- Y+ Y+ Y- 5x5 CROSSBAR Read CORE Write

早期ウェイクアップ: LA + Buffer window • FIFO バッファの先頭を予め電源オン • Window size= 常にオンにしておくバッファ量 • 短いパケット (window size 以下)  ウェイクアップ遅延無し [Chen,ISLPED’03] ARBITER X+ Window size = 3 X- Y+ Y+ Y- 5x5 CROSSBAR Read CORE Write 遅延は隠蔽できるが、window size分PGできないリーク削減量(少)

CMP シミュレータ: GEMS/Simics • フルシステムシミュレーション • CPU 8個、L2バンク64個、4x4メッシュ • Sun Solaris 9、Sun Studio 12 • SPLASH-2 ベンチマーク (8スレッド) [Martin,CAN’05] radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) UltraSPARC L1キャッシュ (I & D) (各 16kB) L2キャッシュバンク (各 256kB, 4-way) オンチップルータ

CMP シミュレータ: GEMS/Simics • フルシステムシミュレーション • CPU 8個、L2バンク64個、4x4メッシュ • Sun Solaris 9、Sun Studio 12 • SPLASH-2 ベンチマーク (8スレッド) • 仮想チャネル0 • リクエスト (L1 ⇔ L2) 用 • 仮想チャネル1 • リクエスト (L2 ⇔ 主記憶) 用 • 仮想チャネル2 • リプライ用 • 仮想チャネル3 • スタベイション回避用 [Martin,CAN’05] radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) Token coherence プロトコル [Martin,ISCA’03]

評価環境: アプリケーション性能 • フルシステムシミュレーション • CPU 8個、L2バンク64個、4x4メッシュ • Sun Solaris 9、Sun Studio 12 • SPLASH-2 ベンチマーク (8スレッド) • 早期ウェイクアップ手法(3種)で、アプリ性能を比較 • ウェイクアップ遅延: 3nsec (3-cycleウェイクアップ@ 1GHz) radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) SRC SRC DST DST Wakeup Wakeup Window size = 2 Ever-on Read LA + CPU ever-on LA + Buffer window Look-ahead Write

評価結果: アプリケーション性能 SPLASH-2 ベンチの実行時間 (3-cycle ウェイクアップ@ 1GHz) Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window (1.00 = パワーゲーティングしないときの実行時間) 早期ウェイクアップ手法がないときの実行時間 (+35.3%) アプリの実行時間 (正規化) CPU ever-on のときの性能オーバヘッドは +4.0% Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave 早期ウェイクアップ手法によって、性能オーバヘッドを大幅に緩和 trace rend NS SP

評価環境: リーク電力 (On/Offエネルギー込) • On/Off エネルギーのモデリング 1. 各ドメインの On/Off エネルギー (SPICE シミュレーション) 2. ウェイクアップ信号の配線エネルギー (リピータ付き3mm配線)  GEMS/Simicsには、上記 1. と 2. をパラメータとして与える • 細粒度パワーゲーティングを3段階で適用 (Level 1～3) Level-1 power gating Level-2 power gating Level-3 power gating ARB ARB ARB 入力バッファ+クロスバ入出力バッファ+クロスバ入力バッファのみ

評価結果: リーク電力 (On/Offエネルギー込) Level 1 PG: 入力バッファのみ (3-cycleウェイクアップ@1GHz) Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window On/Offエネルギーパワーゲーティングしないときのリーク電力リーク電力　(オーバヘッド込、正規化) Level 1 PG によって、リーク電力を 51.8% 削減 Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave trace rend NS SP

評価結果: リーク電力 (On/Offエネルギー込) Level 2 PG: 入力バッファ、クロスバ (3-cycleウェイクアップ@1GHz) Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window On/Offエネルギーパワーゲーティングしないときのリーク電力リーク電力　(オーバヘッド込、正規化) Level 2 PG によって、リーク電力を 55.8% 削減 Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave trace rend NS SP

評価結果: リーク電力 (On/Offエネルギー込) Level 3 PG: 入力バッファ、クロスバ、出力ラッチ Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window On/Offエネルギーパワーゲーティングしないときのリーク電力リーク電力　(オーバヘッド込、正規化) Level 3 PG によって、リーク電力を 59.3% 削減 Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave trace rend NS SP

まとめ: CMP向け細粒度 PG ルータの評価 • パワードメインの実装 @ Fujitsu 65nm • 入力バッファ、出力ラッチ • クロスバMUX、仮想チャネルMUX • パワードメインのオーバヘッド (SPICE シミュレーション) • 面積オーバヘッド:4.3～15.9% 増 • ウェイクアップ遅延:3nsec 以下 • On/Off エネルギー: 60～99nsec のスリープで償却可能 • CMP を想定した評価(フルシステム・シミュレーション) • アプリの性能オーバヘッド: 35.3% (早期ウェイクアップ無し) • アプリの性能オーバヘッド: 4.0% (早期ウェイクアップ有り) • リーク電力の削減量は 59.3% (On/Off エネルギー込み) 35個のパワードメイン (ルータ1個あたり)

今後の課題: さらなるオーバヘッド削減 • Return wakeup: 性能オーバヘッドのさらなる削減 • リプライ (L2  CPU) の1ホップ目遅延を隠ぺい • 宛先(L2)到着時に、リプライで使われるポートをウェイクアップ • パワードメイン統廃合:面積オーバヘッドのさらなる削減 • クロスバMUXと出力ラッチを統合 CPU L2キャッシュ Return wakeup Ever-on ARBITER X+ X+ X- X-

ご清聴ありがとうございました

オンチップルータ: 消費電力の解析 • 消費電力の分類 • スイッチング電力: 回路がスイッチングする際に消費 • リーク電力: 電源が入っている限りちょっとずつ消費 • Fujitsu 65nmで配置配線し、500MHzでシミュレーションスタンバイ時の消費電力の 35.7% がリーク電力 (動作時75℃のとき)

評価結果: アプリケーション性能 SPLASH-2 ベンチの実行時間 (2-cycle ウェイクアップ@ 667MHz) Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window (1.00 = パワーゲーティングしないときの実行時間) 早期ウェイクアップ手法がないときの実行時間 (+23.2%) アプリの実行時間 (正規化) CPU ever-on のときの性能オーバヘッドは +3.2% Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave trace rend NS SP

CMP におけるオンチップルータの 細粒度パワーゲーティングの評価