10 likes | 135 Views
温度制約を考慮した 三次元 積層マルチコア・プロセッサの性能評価. 花田 高彬 , 井上 弘士 , 村上 和彰 ( 九州大学 ). 研究背景・目的. 3 次元積層マルチコア・プロセッサ. マルチコア・プロセッサ. パッケージ面積に依存せず搭載コア数を増加可能 共有キャッシュ・メモリへのアクセス・バンド幅向上 動作温度上昇 ( 劣化加速やリーク増加の原因 ). 長所. コア数に応じて性能向上. 短所. 3 次元積層技術. 温度を考慮した設計,運用が必要 !!. 層間配線. 特徴: 集積回路ダイを積層し接合 積層ダイ間を垂直に配線
E N D
温度制約を考慮した三次元積層マルチコア・プロセッサの性能評価温度制約を考慮した三次元積層マルチコア・プロセッサの性能評価 花田 高彬, 井上 弘士, 村上 和彰 (九州大学) 研究背景・目的 3次元積層マルチコア・プロセッサ マルチコア・プロセッサ パッケージ面積に依存せず搭載コア数を増加可能 共有キャッシュ・メモリへのアクセス・バンド幅向上 動作温度上昇 (劣化加速やリーク増加の原因) 長所 コア数に応じて性能向上 短所 3次元積層技術 温度を考慮した設計,運用が必要!! 層間配線 • 特徴: • 集積回路ダイを積層し接合 • 積層ダイ間を垂直に配線 • 利点: • 短距離垂直配線による配線遅延改善 • 多数本垂直配線によるバス幅改善 一般の 温度低下手段 • 周辺温度の低下 • 放熱性の高い冷却装置の使用 (例:液体冷却装置の使用) • 消費電力を削減 (例:動作周波数を低く設定) ←本研究対象 疑問点 3次元積層を用いた垂直方向コア数増加が必ずしも性能向上を実現するとは限らない (コア数増加に伴い,動作周波数をより低く設定しなければならないため) 研究目的 温度を考慮した性能評価より,3次元積層マルチコアの有効性を示す 評価対象 3次元積層構造想定 各ダイ想定 Core L2Cache アーキテクチャ想定 ヒートシンク Size: 10 x 10 x 2.5cm 熱抵抗率: 4.2e-3 mK/W ヒートスプレッダ Size: 3 x 3 x 0.1cm 熱抵抗率: 2.5e-3 mK/W L2 Cache 9.17W • L2キャッシュ: 容量:2MB × 積層ダイ数 連想度:8ways レイテンシ:容量に応じて増加 • ※算出にはCACTI(HP Lab.)を使用 L2Shared Cache 層間接合層 厚: 2um 熱抵抗率: 1.7e-2 mK/W Core #1 55.27W • コア・アーキテクチャ:Alpha21364 • データ/命令L1キャッシュ: • 容量:64KB • 連想度:2ways • レイテンシ:1.66nsec Non-Flip積層 Flip積層 Core #0 55.27W Int. L1 Cache 層間接続構造 2種類の積層パタン Core #1 MMU 熱分散を考慮した積層構造が 動作周波数決定に与える影響を比較 消費電力内訳@1200MHz, 1.5V 3次元積層マルチコア断面図 (4層構成の場合) FPU フロアプラン Core #0 温度解析 (動作周波数決定) 性能評価 実験環境 実験環境 • 熱伝導シミュレータ:Hotspot 5.0 (Virginia Univ.) • 消費電力想定 • 各ダイは常にピーク電力を消費 • 消費電力算出式 • リーク消費電力は考慮しない • 動作周波数120MHz増加毎に電源電圧0.05V増加 • 指標:1秒間当たりの百万実行命令数 (MIPS) • 評価指標モデル • プロセッサ・シミュレータ:M5 (Michigan Univ. ) • ベンチマーク・プログラム:SPLASH-2より6種 α: 活性度(本解析では”1”) f : 動作周波数 CL: 負荷容量 VDD: 電源電圧 ■■■■: 正規化MIPS (Non-Flip) ▲: 正規化IPC (Non-Flip) □□□: 正規化MIPS (Flip) △: 正規化IPC (Flip) ベンチマーク・プログラム 比較的並列性の高いプログラム(例:Radix, Barnes)の場合:⇒IPC増加幅が大きく,コア数に応じて性能向上 比較的並列性の低いプログラム(例:FFT, Cholesky)の場合: ⇒IPC増加幅が小さく,コア数に応じた性能向上が困難 動作周波数 (MHz)@ 88.0℃ 熱分散を考慮することで高い動作周波数を設定可能 熱分散を考慮することで高い動作周波数を設定可能 まとめ 並列性の低いプログラム実行においてコア数に見合う性能向上を得るには,温度を考慮した性能向上技術が必要!!