1 / 51

CMP におけるオンチップルータの 細粒度パワーゲーティングの評価

CMP におけるオンチップルータの 細粒度パワーゲーティングの評価. ( 東京大学 ) ( 国立情報学研究所 ) ( 慶應義塾大学 ) ( 芝浦工業大学 ) ( 東京大学 ) ( 慶應義塾大学 ). 松谷 宏紀 鯉渕 道紘 池淵 大輔 宇佐美 公良 中村 宏 天野 英晴. 最近のマルチコア・メニーコア. picoChip PC102. picoChip PC205. 256. ClearSpeed CSX700. 128. Intel 80-core. ClearSpeed CSX600. 64. TILERA TILE64.

bond
Download Presentation

CMP におけるオンチップルータの 細粒度パワーゲーティングの評価

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CMPにおけるオンチップルータの細粒度パワーゲーティングの評価CMPにおけるオンチップルータの細粒度パワーゲーティングの評価 (東京大学) (国立情報学研究所) (慶應義塾大学) (芝浦工業大学) (東京大学) (慶應義塾大学) 松谷 宏紀 鯉渕 道紘 池淵 大輔 宇佐美 公良 中村 宏 天野 英晴

  2. 最近のマルチコア・メニーコア picoChip PC102 picoChip PC205 256 ClearSpeed CSX700 128 Intel 80-core ClearSpeed CSX600 64 TILERA TILE64 Intel SCC 32 Number of PEs (caches are not included) MIT RAW UT TRIPS (OPN) 16 STI Cell BE 8 Sun T1 Sun T2 Fujitsu SPARC64 4 Intel Core, IBM Power7 AMD Opteron 2 2002 2004 2006 2008 2010

  3. 最近のマルチコア・メニーコア picoChip PC102 picoChip PC205 256 ClearSpeed CSX700 シンプルな PE を大量に接続 128 Intel 80-core ClearSpeed CSX600 64 TILERA TILE64 Intel SCC 32 Number of PEs (caches are not included) MIT RAW UT TRIPS (OPN) 16 STI Cell BE 高性能 CPU を複数接続 8 Sun T1 Sun T2 Fujitsu SPARC64 4 Intel Core, IBM Power7 AMD Opteron 2 2002 2004 2006 2008 2010

  4. 共有メモリ型 CMP: Network-on-Chip • 8-CPU CMP の構成例 • プロセッサ (プライベート L1 キャッシュ内蔵) • 共有 L2 キャッシュ、バンク分割 (non-uniform cache arch) [Beckmann, MICRO’04] UltraSPARC L1キャッシュ (I & D) (各 16kB) L2キャッシュバンク (各 256kB, 4-way)

  5. 共有メモリ型 CMP: Network-on-Chip • 8-CPU CMP の構成例 • プロセッサ (プライベート L1 キャッシュ内蔵) • 共有 L2 キャッシュ、バンク分割 (non-uniform cache arch) • プロセッサと L2 バンクの結合  Network-on-Chip (NoC) NoCは CMP の通信インフラストラクチャーなので、 いつでもパケット転送できる状態でなければならない。 • でも、それだと NoCが常にリーク電力を消費してしまう。。 そこで、NoCにランタイム・パワーゲーティングを適用して、 リーク電力を最小限に抑えよう! [Beckmann, MICRO’04] UltraSPARC L1キャッシュ (I & D) (各 16kB) L2キャッシュバンク (各 256kB, 4-way) オンチップルータ

  6. 発表の流れ: 細粒度 PG ルータの評価 • オンチップルータの細粒度パワーゲーティング • 入力バッファ、 出力ラッチ • クロスバMUX、仮想チャネルMUX • パワードメインのハードウェア評価 • 回路設計 @ Fujitsu 65nm • 面積、ウェイクアップ遅延、On/Off エネルギー • 早期ウェイクアップ手法 • ウェイクアップ遅延の隠ぺい • CMP システムレベル評価 • アプリケーション性能 (早期ウェイクアップ付き) • リーク電力の削減量 (On/Off エネルギー込み) 35個のパワードメイン (ルータ1個あたり) オーバヘッドをちゃんと評価します

  7. パワーゲーティング: 粗粒度 vs. 細粒度 IP Core • 粗粒度なアプローチ • IPコア (モジュール) 単位 • VGND リングで囲む • VGND と GND の間にパワースイッチを挿入 • 細粒度なアプローチ • スタセル単位 • セルごとに VGND ポート • 同じドメインのセルは、同じ VGND ラインを共有 IP Core IP Core IP Core IP Core IP Core [宇佐美, ICCD’06] Virtual GND (VGND) IP Core IP Core On/Off PowerSwitch GND ring

  8. パワーゲーティング: 粗粒度 vs. 細粒度 • 細粒度なアプローチ • スタセル単位 • セルごとに VGND ポート • 同じドメインのセルは、同じ VGND ラインを共有 • 粗粒度なアプローチ • IPコア (モジュール) 単位 • VGND リングで囲む • VGND と GND の間にパワースイッチを挿入 IP Core [宇佐美, ICCD’06] PowerSwitch VDD VDD VDD Virtual GND (VGND) OR OR OR AND AND AND On/Off GND GND GND IP Core VGND GND GND GND On/Off PowerSwitch INV INV INV DFF DFF DFF GND ring VDD VDD VDD

  9. パワーゲーティング: 粗粒度 vs. 細粒度 • ルータ内の細かい部品 (入力バッファ、マルチプレクサ)は、互いに独立して動作する • 細粒度 PG のほうがスリープできるチャンスが多い ARBITER X+ X+ Packet#1 X- X- Y+ Y+ Packet#2 Y- Y- 5x5 CROSSBAR CORE CORE

  10. 細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、 出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE

  11. 細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、 出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ Packet X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE

  12. 細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、 出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE

  13. 細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、 出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE

  14. 細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、 出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE

  15. 細粒度ランタイム PG ルータ • 各ルータは、多数のマイクロパワードメインに分割 • 入力 VC バッファ、 出力ラッチ • 仮想チャネルMUX、クロスバMUX 35個のパワードメイン (ルータ1個あたり) ARBITER X+ X+ X- X- Y+ Y+ Y- Y- 5x5 CROSSBAR CORE CORE 各パワードメインは本当に使われるときだけ起こされる (リークを消費)

  16. 発表の流れ: 細粒度 PG ルータの評価 • オンチップルータの細粒度パワーゲーティング • 入力バッファ、 出力ラッチ • クロスバMUX、仮想チャネルMUX • パワードメインのハードウェア評価 • 回路設計 @ Fujitsu 65nm • 面積、ウェイクアップ遅延、On/Off エネルギー • 早期ウェイクアップ手法 • ウェイクアップ遅延の隠ぺい • CMP システムレベル評価 • アプリケーション性能 (早期ウェイクアップ付き) • リーク電力の削減量 (On/Off エネルギー込み) 35個のパワードメイン (ルータ1個あたり)

  17. 細粒度ランタイムPGルータ: 設計フロー • Verilogネットリスト • Holdセル挿入 (スリープ時に不定値伝搬を防ぐ) • 自動配置配線 • パワースイッチ挿入 • 自動配置配線 (再び) • SPICE ネットリスト抽出 • SPICE シミュレーション Synopsys DesignCompiler module FIFO (in, out); input [127:0]in; output [127:0] out: DFF reg0 (in0, out0, clk); • DFF reg1 (in1, out1, clk); endmodule By hand Synopsys Astro Sequence Design CoolPower Synopsys Astro Cadence Assura (QRC) Synopsys HSIM

  18. 細粒度ランタイムPGルータ: 設計フロー • Verilogネットリスト • Holdセル挿入 (スリープ時に不定値伝搬を防ぐ) • 自動配置配線 • パワースイッチ挿入 • 自動配置配線 (再び) • SPICE ネットリスト抽出 • SPICE シミュレーション Synopsys DesignCompiler module FIFO (in, out); input [127:0]in; output [127:0] out: DFF reg0 (in0, out0, clk); • DFF reg1 (in1, out1, clk); • HOLD (out0); • HOLD (out1); endmodule By hand Synopsys Astro Sequence Design CoolPower Synopsys Astro Cadence Assura (QRC) Synopsys HSIM

  19. 細粒度ランタイムPGルータ: 設計フロー • Verilogネットリスト • Holdセル挿入 (スリープ時に不定値伝搬を防ぐ) • 自動配置配線 • パワースイッチ挿入 • 自動配置配線 (再び) • SPICE ネットリスト抽出 • SPICE シミュレーション Synopsys DesignCompiler VDD OR AND DFF By hand GND Synopsys Astro GND Sequence Design CoolPower INV DFF AND OR NOR Synopsys Astro VDD Domain#0 Domain#1 Cadence Assura (QRC) Synopsys HSIM

  20. 細粒度ランタイムPGルータ: 設計フロー • Verilogネットリスト • Holdセル挿入 (スリープ時に不定値伝搬を防ぐ) • 自動配置配線 • パワースイッチ挿入 • 自動配置配線 (再び) • SPICE ネットリスト抽出 • SPICE シミュレーション Synopsys DesignCompiler PowerSwitch VDD OR AND DFF By hand GND VGND Synopsys Astro GND Sequence Design CoolPower INV DFF AND OR NOR Synopsys Astro VDD Domain#0 Domain#1 Cadence Assura (QRC) Synopsys HSIM

  21. パワードメインの評価: 面積オーバヘッド • Hold セル • ゲート数 2.6% 増 • ドメインの出力ポート数に応じて増える • パワースイッチ • ゲート数 1.7% 増 • ウェイクアップ速度に応じて増える • スタセルの改造 • 各セルに VGND ポートを取り付ける • 全セルの高さを 10/9 倍 PowerSwitch VDD OR AND DFF GND VGND GND INV DFF AND OR NOR VDD Domain#0 Domain#1 Holdセル&パワースイッチで 4.3%増、スタセル改造を含めると15.9%

  22. パワードメインの評価: ウェイクアップ遅延 Correct output • ウェイクアップ遅延 • 電源オフの回路に電源を投入し、動作するまで • パケット通信遅延が増える FIFO OUT[1] 2.8nsec Wakeup & Initialization FIFO OUT[0] FIFO 入力 VC バッファの例 VDD Clock FIFO VGND Wakeup Power ON Switch Wakeup GND Fujitsu 65nm CMOS (1.20V, 75C)

  23. パワードメインの評価: ウェイクアップ遅延 Correct output • ウェイクアップ遅延 • 電源オフの回路に電源を投入し、動作するまで • パケット通信遅延が増える MUX OUT[1] 1.3nsec Wakeup MUX OUT[0] クロスバ MUX の例 VDD Clock MUX VGND Wakeup Power ON Switch Wakeup GND パワードメインの電源オンして動作するまで 3nsec (3-cycle@1GHz) Fujitsu 65nm CMOS (1.20V, 75C)

  24. パワードメインの評価: On/Off エネルギー • On/Off エネルギー • パワースイッチの駆動 • ウェイクアップ信号の配線 • スリープ期間が短いと、 “元” が取れなくなる FIFO OUT[1] Clock is stopped to clearly show On/Off energy FIFO OUT[0] FIFO 入力 VC バッファの例 Power Off VDD Wakeup FIFO On/Off energy Current VGND Wakeup GND Switch 60~99nsec以上のスリープなら、On/Off エネルギーを償却できる Fujitsu 65nm CMOS (1.20V, 75C)

  25. 発表の流れ: 細粒度 PG ルータの評価 • オンチップルータの細粒度パワーゲーティング • 入力バッファ、 出力ラッチ • クロスバMUX、仮想チャネルMUX • パワードメインのハードウェア評価 • 回路設計 @ Fujitsu 65nm • 面積、ウェイクアップ遅延、On/Off エネルギー • 早期ウェイクアップ手法 • ウェイクアップ遅延の隠ぺい • CMP システムレベル評価 • アプリケーション性能 (早期ウェイクアップ付き) • リーク電力の削減量 (On/Off エネルギー込み) 35個のパワードメイン (ルータ1個あたり)

  26. ウェイクアップ遅延の影響: 評価環境 • CMPシミュレータ: GEMS/Simics • 3サイクルルータ • ウェイクアップ遅延: 2, 3, 4 cycles • SPLASH-2 ベンチマーク (8スレッド) [Martin,CAN’05] [RC] [VSA] [ST] radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) UltraSPARC L1キャッシュ (I & D) (各 16kB) L2キャッシュバンク (各 256kB, 4-way) オンチップルータ

  27. ウェイクアップ遅延の影響: 評価環境 • CMPシミュレータ: GEMS/Simics • 3サイクルルータ • ウェイクアップ遅延: 2, 3, 4 cycles • SPLASH-2 ベンチマーク (8スレッド) • 仮想チャネル0 • リクエスト (L1 ⇔ L2) 用 • 仮想チャネル1 • リクエスト (L2 ⇔ 主記憶) 用 • 仮想チャネル2 • リプライ用 • 仮想チャネル3 • スタベイション回避用 [Martin,CAN’05] [RC] [VSA] [ST] radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) Token coherence プロトコル [Martin,ISCA’03]

  28. ウェイクアップ遅延の影響: 評価結果 SPLASH-2 ベンチ (10個の並列アプリ) の実行時間 2-cycle ウェイク 3-cycle ウェイク 4-cycle ウェイク (667MHz) (1000MHz) (1333MHz) アプリの実行時間 (正規化) パワーゲーティングしないときの実行時間 = 1.00 アプリの実行時間が平均 23.2% ~ 46.3% 増加 Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave 実行時間の増加はエネルギ増  ウェイクアップ遅延の隠蔽が必須 trace rend NS SP

  29. 早期ウェイクアップ: Look-ahead method • 2ホップ先のルータモジュールを事前にウェイクアップ • Look-ahead ルーティングを使用 [松谷,ASPDAC’08] CPU L2キャッシュ 1ホップ目 2ホップ目 3ホップ目 4ホップ目 5ホップ目 Wakeup Wakeup Wakeup ルータ(1)が、ルータ(2)の出力ポートを決める ルータ(3)の入力ポートが判明 ルータ(2) ルータ(3) ルータ(1) ST NRC NRC VSA ST NRC VSA VSA ST HEAD DATA 1 SA SA SA ST ST ST DATA 2 ST ST ST SA SA SA ST ST ST DATA 3 SA SA SA ところで、、1ホップ目はどうやって事前にウェイクアップさせるの??

  30. 早期ウェイクアップ: LA + CPU ever-on • 2ホップ先のルータモジュールを事前にウェイクアップ • Look-ahead ルーティングを使用 • Ever-on ドメイン • 電源を落とさない • ウェイクアップ遅延無し • CPU隣接ポートの VC0、VC2 のみ Ever-on に設定 • 仮想チャネル0 • リクエスト (L1 ⇔ L2) 用 • 仮想チャネル1 • リクエスト (L2 ⇔ 主記憶) 用 • 仮想チャネル2 • リプライ用 • 仮想チャネル3 • スタベイション回避用 [松谷,ASPDAC’08] CPU L2キャッシュ Ever-on 1ホップ目 2ホップ目 3ホップ目 4ホップ目 5ホップ目 Wakeup Wakeup Wakeup NoCのトラフィック量を解析 Ever-on チャネルは全体の4.7%  最小コストで遅延を大幅に削減

  31. 早期ウェイクアップ: LA + Buffer window • FIFO バッファの先頭を予め電源オン • Window size= 常にオンにしておくバッファ量 • 短いパケット (window size 以下)  ウェイクアップ遅延無し [Chen,ISLPED’03] ARBITER X+ Window size = 3 X- Y+ Y+ Y- 5x5 CROSSBAR Read CORE Write

  32. 早期ウェイクアップ: LA + Buffer window • FIFO バッファの先頭を予め電源オン • Window size= 常にオンにしておくバッファ量 • 短いパケット (window size 以下)  ウェイクアップ遅延無し [Chen,ISLPED’03] ARBITER X+ Window size = 3 X- Y+ Y+ Y- 5x5 CROSSBAR Read CORE Write

  33. 早期ウェイクアップ: LA + Buffer window • FIFO バッファの先頭を予め電源オン • Window size= 常にオンにしておくバッファ量 • 短いパケット (window size 以下)  ウェイクアップ遅延無し [Chen,ISLPED’03] ARBITER X+ Window size = 3 X- Y+ Y+ Y- 5x5 CROSSBAR Read CORE Write

  34. 早期ウェイクアップ: LA + Buffer window • FIFO バッファの先頭を予め電源オン • Window size= 常にオンにしておくバッファ量 • 短いパケット (window size 以下)  ウェイクアップ遅延無し [Chen,ISLPED’03] ARBITER X+ Window size = 3 X- Y+ Y+ Y- 5x5 CROSSBAR Read CORE Write

  35. 早期ウェイクアップ: LA + Buffer window • FIFO バッファの先頭を予め電源オン • Window size= 常にオンにしておくバッファ量 • 短いパケット (window size 以下)  ウェイクアップ遅延無し [Chen,ISLPED’03] ARBITER X+ Window size = 3 X- Y+ Y+ Y- 5x5 CROSSBAR Read CORE Write

  36. 早期ウェイクアップ: LA + Buffer window • FIFO バッファの先頭を予め電源オン • Window size= 常にオンにしておくバッファ量 • 短いパケット (window size 以下)  ウェイクアップ遅延無し [Chen,ISLPED’03] ARBITER X+ Window size = 3 X- Y+ Y+ Y- 5x5 CROSSBAR Read CORE Write 遅延は隠蔽できるが、window size分PGできないリーク削減量(少)

  37. 発表の流れ: 細粒度 PG ルータの評価 • オンチップルータの細粒度パワーゲーティング • 入力バッファ、 出力ラッチ • クロスバMUX、仮想チャネルMUX • パワードメインのハードウェア評価 • 回路設計 @ Fujitsu 65nm • 面積、ウェイクアップ遅延、On/Off エネルギー • 早期ウェイクアップ手法 • ウェイクアップ遅延の隠ぺい • CMP システムレベル評価 • アプリケーション性能 (早期ウェイクアップ付き) • リーク電力の削減量 (On/Off エネルギー込み) 35個のパワードメイン (ルータ1個あたり)

  38. CMP シミュレータ: GEMS/Simics • フルシステムシミュレーション • CPU 8個、L2バンク64個、4x4メッシュ • Sun Solaris 9、Sun Studio 12 • SPLASH-2 ベンチマーク (8スレッド) [Martin,CAN’05] radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) UltraSPARC L1キャッシュ (I & D) (各 16kB) L2キャッシュバンク (各 256kB, 4-way) オンチップルータ

  39. CMP シミュレータ: GEMS/Simics • フルシステムシミュレーション • CPU 8個、L2バンク64個、4x4メッシュ • Sun Solaris 9、Sun Studio 12 • SPLASH-2 ベンチマーク (8スレッド) • 仮想チャネル0 • リクエスト (L1 ⇔ L2) 用 • 仮想チャネル1 • リクエスト (L2 ⇔ 主記憶) 用 • 仮想チャネル2 • リプライ用 • 仮想チャネル3 • スタベイション回避用 [Martin,CAN’05] radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) Token coherence プロトコル [Martin,ISCA’03]

  40. 評価環境: アプリケーション性能 • フルシステムシミュレーション • CPU 8個、L2バンク64個、4x4メッシュ • Sun Solaris 9、Sun Studio 12 • SPLASH-2 ベンチマーク (8スレッド) • 早期ウェイクアップ手法(3種)で、アプリ性能を比較 • ウェイクアップ遅延: 3nsec (3-cycleウェイクアップ@ 1GHz) radix, lu, fft, barnes, ocean, raytrace, volrend, water-ns, water-sp, fmm(10種類のアプリ) SRC SRC DST DST Wakeup Wakeup Window size = 2 Ever-on Read LA + CPU ever-on LA + Buffer window Look-ahead Write

  41. 評価結果: アプリケーション性能 SPLASH-2 ベンチの実行時間 (3-cycle ウェイクアップ@ 1GHz) Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window (1.00 = パワーゲーティングしないときの実行時間) 早期ウェイクアップ手法がないときの実行時間 (+35.3%) アプリの実行時間 (正規化) CPU ever-on のときの性能オーバヘッドは +4.0% Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave 早期ウェイクアップ手法によって、性能オーバヘッドを大幅に緩和 trace rend NS SP

  42. 評価環境: リーク電力 (On/Offエネルギー込) • On/Off エネルギーのモデリング 1. 各ドメインの On/Off エネルギー (SPICE シミュレーション) 2. ウェイクアップ信号の配線エネルギー (リピータ付き3mm配線)  GEMS/Simicsには、上記 1. と 2. をパラメータとして与える • 細粒度パワーゲーティングを3段階で適用 (Level 1~3) Level-1 power gating Level-2 power gating Level-3 power gating ARB ARB ARB 入力バッファ+クロスバ 入出力バッファ+クロスバ 入力バッファのみ

  43. 評価結果: リーク電力 (On/Offエネルギー込) Level 1 PG: 入力バッファのみ (3-cycleウェイクアップ@1GHz) Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window On/Offエネルギー パワーゲーティングしないときのリーク電力 リーク電力 (オーバヘッド込、正規化) Level 1 PG によって、リーク電力を 51.8% 削減 Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave trace rend NS SP

  44. 評価結果: リーク電力 (On/Offエネルギー込) Level 2 PG: 入力バッファ、クロスバ (3-cycleウェイクアップ@1GHz) Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window On/Offエネルギー パワーゲーティングしないときのリーク電力 リーク電力 (オーバヘッド込、正規化) Level 2 PG によって、リーク電力を 55.8% 削減 Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave trace rend NS SP

  45. 評価結果: リーク電力 (On/Offエネルギー込) Level 3 PG: 入力バッファ、クロスバ、出力ラッチ Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window On/Offエネルギー パワーゲーティングしないときのリーク電力 リーク電力 (オーバヘッド込、正規化) Level 3 PG によって、リーク電力を 59.3% 削減 Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave trace rend NS SP

  46. まとめ: CMP向け細粒度 PG ルータの評価 • パワードメインの実装 @ Fujitsu 65nm • 入力バッファ、 出力ラッチ • クロスバMUX、仮想チャネルMUX • パワードメインのオーバヘッド (SPICE シミュレーション) • 面積オーバヘッド:4.3~15.9% 増 • ウェイクアップ遅延:3nsec 以下 • On/Off エネルギー: 60~99nsec のスリープで償却可能 • CMP を想定した評価(フルシステム・シミュレーション) • アプリの性能オーバヘッド: 35.3% (早期ウェイクアップ無し) • アプリの性能オーバヘッド: 4.0% (早期ウェイクアップ有り) • リーク電力の削減量は 59.3% (On/Off エネルギー込み) 35個のパワードメイン (ルータ1個あたり)

  47. 今後の課題: さらなるオーバヘッド削減 • Return wakeup: 性能オーバヘッドのさらなる削減 • リプライ (L2  CPU) の1ホップ目遅延を隠ぺい • 宛先(L2)到着時に、リプライで使われるポートをウェイクアップ • パワードメイン統廃合:面積オーバヘッドのさらなる削減 • クロスバMUXと出力ラッチを統合 CPU L2キャッシュ Return wakeup Ever-on ARBITER X+ X+ X- X-

  48. ご清聴ありがとうございました

  49. オンチップルータ: 消費電力の解析 • 消費電力の分類 • スイッチング電力: 回路がスイッチングする際に消費 • リーク電力: 電源が入っている限りちょっとずつ消費 • Fujitsu 65nmで配置配線し、500MHzでシミュレーション スタンバイ時の消費電力の 35.7% がリーク電力 (動作時75℃のとき)

  50. 評価結果: アプリケーション性能 SPLASH-2 ベンチの実行時間 (2-cycle ウェイクアップ@ 667MHz) Look-ahead + Look-ahead + Look-ahead CPUever-on Buffer window (1.00 = パワーゲーティングしないときの実行時間) 早期ウェイクアップ手法がないときの実行時間 (+23.2%) アプリの実行時間 (正規化) CPU ever-on のときの性能オーバヘッドは +3.2% Ray- Radix Lu Fft Barnes Ocean Vol- Water Water Fmm Ave trace rend NS SP

More Related