370 likes | 442 Views
温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価. 花田高彬 † 井上弘士 ‡ 村上和彰 ‡ † 九州大学大学院 システム情報科学府 ‡ 九州大学大学院 システム情報科学研究院. 発表内容. 研究背景 三次元積層マルチコア・プロセッサ 温度問題 評価実験 プロセッサ想定 温度解析 温度制約下における性能評価 発表のまとめ. 三次元積層技術. プロセッサの性能向上を実現する手段の一つ 三次元積層集積回路の特徴: 三次元積層の利点 ダイ面積を維持しつつ搭載可能トランジスタ数を向上 三次元方向配線&積層ダイの薄膜化により 総配線長を短縮.
E N D
温度制約を考慮した積層構造マルチコア・プロセッサの性能評価温度制約を考慮した積層構造マルチコア・プロセッサの性能評価 花田高彬† 井上弘士‡ 村上和彰‡ † 九州大学大学院 システム情報科学府 ‡ 九州大学大学院 システム情報科学研究院
発表内容 • 研究背景 • 三次元積層マルチコア・プロセッサ • 温度問題 • 評価実験 • プロセッサ想定 • 温度解析 • 温度制約下における性能評価 • 発表のまとめ
三次元積層技術 • プロセッサの性能向上を実現する手段の一つ • 三次元積層集積回路の特徴: • 三次元積層の利点 • ダイ面積を維持しつつ搭載可能トランジスタ数を向上 • 三次元方向配線&積層ダイの薄膜化により総配線長を短縮 集積回路同士を積層し接合 積層回路間は垂直に配線 ※ここでは例として 層間金属柱Through-Silicon Via (TSV)による 垂直方向配線 三次元積層 16Gbit NAND Flash (Samsung Electronics)
実現が期待されている三次元積層(3D)プロセッサ実現が期待されている三次元積層(3D)プロセッサ • 主記憶DRAM積層プロセッサ[Loi’06][Loh’08] • オンチップ主記憶アクセスの実現 • 多数本の層間配線によって広いバス幅を確保可能 • 3Dマルチコア・プロセッサ • 小さい実装面積に積層ダイ数に比例したプロセッサ・コアを搭載可能 • 高速なプロセッサ・コア間通信 積層 DRAM DRAM. die メモリ コントローラ プロセッサ・ダイ Proc. die 積層プロセッサ ダイ 発表者はこちらの3Dプロセッサに着目している
3Dプロセッサの温度問題 • 3Dプロセッサは2つの要因により高温化 • 温度上昇要因 • ダイ面積当たりの消費電力密度の増加 • 垂直方向熱抵抗の増加 • 積層ダイ数に伴い増加 放熱の方向 積層ダイ数増加に伴い消費電力密度が増加 積層ダイの消費電力が追加 積層ダイの消費電力が追加 放熱の方向 発熱 発熱 積層ダイ数に比例し 熱抵抗増加 発熱 発熱 発熱 L2$ Core 2D プロセッサ 4層 3D プロセッサ
温度制約下における3Dマルチコア・プロセッサの性能温度制約下における3Dマルチコア・プロセッサの性能 例えば,以下の想定を置く 温度制約を満たしつつ3Dマルチコア・プロセッサを動作⇒温度低減のため動作周波数を調整 この時,積層ダイが増えると… 2層積層 コア数は倍! 4層積層 コア数さらに倍!! プロセッサ・コア数(並列度) 高 低 高 動作周波数 低 並列度と動作周波数のトレード・オフ関係⇒積層ダイ数増加によって性能向上するかどうかわからない!!
性能評価の目的と手順 • 目的:温度制約下における3Dマルチコア・プロセッサの性能評価 • プロセッサ・ダイ積層によるコア数増加が性能へ与える影響を明らかにする • 評価手順: • 温度解析⇒温度制約を満たす動作周波数を得る • 温度制約下における性能評価
発表内容 • 研究背景 • 三次元積層マルチコア・プロセッサ • 温度問題 • 評価実験 • プロセッサ想定 • 温度解析 • 温度制約下における性能評価 • 発表のまとめ
3Dマルチコア・プロセッサの想定 • 積層構造 • フロアプラン L2Shared Cache ヒートシンク Size: 10 x 10 x 2.5cm 熱伝導率: 240 W/m℃ Core #1 層間接合層 厚: 2um 熱伝導率: 60.24W/m℃ Core #2 ヒートスプレッダ Size: 3 x 3 x 0.1cm 熱伝導率: 400 W/m℃ Int L1 Cache Non-Flip Flip MMU 想定プロセッサ 断面図(4層構成) 層間接続構造 FPU ※パラメータは既存研究[Black’06]にて扱われた値を用いた ホットスポットになり易い 2種類の積層パタン(4層8コアの場合) プロセッサ・ダイのフロアプラン(各層)
温度解析実験の概要 • 目的: 温度制約を満たす3Dマルチコア・プロセッサの最大動作周波数を得る • 手段: 1.熱伝導シミュレーションより, 動作周波数と温度の 相関プロットを作成 温度[℃] ■ 制限温度 ● ※熱伝導シミュレーションには, プロセッサ熱伝導シミュレータ “HotSpot-5.0”[Skadron’03]を用いる 8コア(3D) 2コア(2D) ■ ● ● ■ ● ■ 2.プロットより,近似曲線を作成 ● ■ ● ■ ● ● ● 3.近似曲線より,制限温度 での動作周波数を求める 動作周波数[Hz]
消費電力,動作周波数,電源電圧の想定 • 消費電力(@1.2GHz):120.11W×{ダイ数} • 各ダイの消費電力内訳 • 基準動作周波数:1.2GHz • 基準電源電圧:1.5V L2 Cache 9.17W Core #1 55.27W Core #2 55.27W • ※コア,L2キャッシュの消費電力は,Alpha21364のピーク消費電力[Jain’01]を参考にした
消費電力と電源電圧の動作周波数依存想定 • 消費電力と動作周波数,電源電圧の関係 • 動作周波数を120MHz変動させる毎に電源電圧は0.05V変動すると想定 f: 動作周波数 V: 電源電圧
温度解析結果 • コア数増加(積層ダイ数増加)に伴い温度上昇 • 熱分散を考慮に入れた積層パタンでは比較的低温
Flipによる熱分散効果(3D,8コア@0.6GHz) ヒートシンク側 第1層 第2層 第3層 第4層 Non- Flip FPU (87.25 deg C) FPU (85.60 deg C) FPU (87.58 deg C) FPU (86.59 deg C) ホットスポット (温度) Flip Int. Exe. Unit (72.04 deg C) Int. Exe. Unit (71.33 deg C) L1Cacheの一部分 (70.68 deg C) L1 Cacheの一部分 (71.76 deg C) ホットスポット (温度) ※赤字はそのプロセッサ内で最も高温となった部分(と,その温度)
発表内容 • 研究背景 • 三次元積層マルチコア・プロセッサ • 温度問題 • 評価実験 • 温度解析 • 温度制約下における性能評価 • 発表のまとめ
性能評価実験環境 • 評価方法:性能モデルを用いた評価 • 指標:1秒間当たりのギガ命令実行数 (GIPS) • モデル: • プロセッサ・シミュレータ:M5 • ベンチマーク・プログラム:Splash-2より6種のプログラムを選択 実ベンチマーク・プログラムを用いたプロセッサ・シミュレーションから求める 温度制約下動作周波数 [GHz] ※ GIPS: Giga Instructions Per Second, IPC: Instructions Per Cycle
シミュレータに与えたアーキテクチャ想定パラメータ シミュレータに与えたアーキテクチャ想定パラメータ • プロセッサ・コア • 命令発行方式:In-Order, 発行幅=1 • L1命令/データ・キャッシュ:32KB, 2Ways • コア数:{ダイ数}×2コア • 共有L2キャッシュ • 容量: {ダイ数}×2MB • 連想度: 8ways • L2アクセス時間: 10.4nsec, 13.2nsec, 17.7nsec, 24.6nsec 2D 2コア 3D 4コア 3D 8コア 3D 16コア
性能評価結果 正規化GIPS 正規化IPC ■■■:GIPS値(Non - Flip) □□□:GIPS値(Flip) + :IPC値
性能評価結果 正規化GIPS 正規化IPC コア数増加につれて 性能向上!! コア数増加に伴うIPC向上率が大きい ※具体的には,(IPC向上>動作周波数低下)の関係が成り立っている But.. コア数増加に見合った性能向上は得られていない
性能評価結果 正規化GIPS 正規化IPC コア数増加につれて 性能低下… コア数増加に伴うIPC向上率が小さい ※具体的には,(IPC向上<動作周波数低下)の関係が成り立っている
発表のまとめ • 概要:温度制約下における3Dマルチコア・プロセッサの性能評価 • 結論: • 性能を高めるには熱を分散するフロアプランが有効 • 動作周波数削減による温度低減においては,コア数増加に見合う性能向上は望みにくい • 今後の予定: • 低消費電力なプロセッサをベースとした性能評価 • Dynamic Thermal Managementのように性能への影響の少ない温度低減手法を取り入れた場合の性能評価
参考文献 • 3D-NAND写真の出典:{http://www.i-micronews.com/} • [Black’06]: • B. Black, et al. ,”Die Stacking (3D) Microarchitecture,” MICRO, 2006. • [Jain’01]: • A. Jain, et al. , ”A 1.2 GHz Alpha microprocessor with 44.8 GB/s chip pin bandwidth,” ISSCC, 2001. • [Loi’06]: • G. L. Loi,et. al. , “A Thermally-Aware Performance Analysis of Vertically Integrated (3-D) Processor-Memory Hierarchy,” DAC, 2006.
参考文献 • [Loh’08]: • G. L. Loh. “3D-Stacked Memory Architectures for Multi-Core Processors,” ISCA, 2008 • [Skadron’03]: • K. Skadron, et al. , ”Temperature-Aware Microarchitecture,” ISCA, 2003. • [橋口’09] • 橋口慎哉, 小野貴継, 井上弘士, 村上和彰. “3 次元DRAM‐プロセッサ積層実装を対象としたオンチップ・メモリ・アーキテクチャの提案と評価,” 情報処理学会研究報告, 2009.
ナノメートル・オーダーにおける微細化の問題点ナノメートル・オーダーにおける微細化の問題点 • 近年,微細化による副作用が顕著になっている • グローバル配線遅延の増加 • サブスレッショルド・リーク電流の増加 OFF Current 1/2 Leakage 面積縮小⇒配線抵抗増加 配線遅延の増加 リーク電流の増加 Gate Length 微細化に依らない集積度向上を実現する技術が期待されている
3Dプロセッサの温度低減の方法 • 以下の式より3つに大別できる • 放熱先温度の低減(例:部屋の温度を下げる) • 問題点:温度低減幅につれてコスト大 • 熱抵抗値の削減(例:熱伝導用層間金属柱の挿入) • 問題点:削減幅が素材によって制限 • 消費電力の削減(例: 動作周波数の制限) • 問題点:処理速度への影響を伴う プロセッサ定常温度の算出式 大幅な 温度低減は苦手 大幅な温度低減のためには処理速度を落としてでも消費電力削減を行う必要がある
既存研究:温度制約下におけるメモリ積層プロセッサの性能評価[Loi’06]既存研究:温度制約下におけるメモリ積層プロセッサの性能評価[Loi’06] • 評価対象:主記憶DRAM積層プロセッサ • 3D積層技術により主記憶DRAMをプロセッサに積層 • 利点:メモリ・アクセス性能の向上 • 欠点:高温化⇒温度低減のため動作周波数低下 • 評価結果: (どちらも100℃を超えない動作周波数で動作) 積層 DRAM 主記憶積層プロセッサ 2Dに性能が劣る場合がある!! ※nsec/Inst: 平均命令実行時間 (値が小さいほど嬉しい)
プロセッサ想定:積層構造 • 3Dマルチコア・プロセッサ構造 ヒートシンク Size: 10cm x 10cm x 2.5cm 熱伝導率: 240 W/m℃ TSV 径: 10um, 間隔: 10um 層間接合層 厚: 2um 熱伝導率: 60.24W/m℃ ヒートスプレッダ Size: 3cm x 3cm x 0.1cm 熱伝導率: 400 W/m℃ 積層ダイ 厚: 33um, 熱伝導率: 28.09W/m℃ 層間接続構造 想定プロセッサ 断面図(4層構成)
消費電力と電源電圧の動作周波数依存想定 • 消費電力と動作周波数,電源電圧の関係 • 動作周波数を120MHz変動させる毎に電源電圧は0.05V変動すると想定 α: スイッチング確率 CL: 負荷容量 f: 動作周波数 V: 電源電圧
Flipによる熱分散効果(3D,8コア@0.6GHz) • プリント基板に最も近い層の温度分布 L2 Cache L2 Cache L1 L1 Int Int FPU FPU Non-Flip最高温部: FPU (87.58degC) Flip 最高温部: Integer Exec. Unit (72.04degC) FlipはNon-Flipと比較して熱が分散されている⇒ ホットスポット部の温度が低い
事前評価:Upper Boundを見積もる • ピークIPC=1のシンプルなプロセッサ・コアを想定 ピークIPCにおける性能で比較した場合コア数を8倍にしても性能向上は高々1.88倍
本評価結果において未考慮な点 1 • Out-of-Orderプロセッサモデルでのプロセッサ・シミュレーション • 参考にしたピーク消費電力はOoOプロセッサの消費電力⇒高精度な評価を行うためにはOoO実行プロセッサのシミュレーションであるべき • But.. 実験環境の問題でOoOプロセッサ・モデルでの実験を行えていない⇒今回はInOrderモデルでの評価を行った
本評価結果において未考慮な点 2 • 三次元積層技術を用いた積層構造における共有L2キャッシュへのアクセス時間 • 積層構造プロセッサの有効性を示すには,積層構造を前提とした配線遅延時間を評価に入れた方が良い • But.. 積層構造L2共有バス部の配線遅延時間をどのような値にすれば良いか深く調査できていない⇒今回は2DプロセッサにおけるL2キャッシュ・アクセス時間と同じとした
プログラムの分類,及び3D化による性能向上可能性プログラムの分類,及び3D化による性能向上可能性 (例:OceanContig) (例:Cholesky) (例:Barnes) (例:Raytrace)