3 次元積層プロセッサアーキテクチャの研究動向

3次元積層プロセッサアーキテクチャの研究動向3次元積層プロセッサアーキテクチャの研究動向九州大学　井上こうじ（inoue@ait.kyushu-u.ac.jp）

世の中いたる所で3D・・・ なぜ3次元積層なのか?

Wire-bonding (WB) 3D stacking (System-in-Package or SiP) Package-on-Package (POP) 3D stacking 半導体も2Dから3Dの世界へ! • 複数のダイを同一パッケージに集積 • ダイ間を貫通ビア（Through Silicon Via:TSV）で接続 TSV Multi-Level 3D IC Sensor IO RF Analog DRAM Source: Yuan Zie, “3D IC Design/Architecture,” Coolchips Special Session, 2009 Processor

3次元積層IC（ISSCC’09より） • イメージセンサ • SoC用SRAM • 大容量DRAM • マルチコア＋SRAM（w/ 無線TSV） • など 8Gb 3D DRAM（Samsung） SRAM+Multicore（Keio Univ.） SRAM for SoCs（NEC） Image Sensor（MIT）スケールは無関係 U. Kang et al., “8Gb DDR3 DRAM Using Through-Silicon-Via Technology,” ISSCC’09. H. Saito et al., “A Chip-Stacked Memory for On-Chip SRAM-Rich SoCs and Processors, “ ISSCC’09. V. Suntharalingam et al., “A 4-Side Tileable Back Illuminated 3D-Integrated Mpixel CMOS Image Sensor,” ISSCC’09. K. Niitsu et al., “An Inductive-Coupling Link for 3D Integration of a 90nm CMOS Processor and a 65nm CMOS SRAM,” ISSCC’09.

メニーコア＋大容量メモリ～Intel (80 coreテストチップ）～ Memory Cores/Caches Mem.-on-core Mem.-on-cache http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=04382571 http://www.legitreviews.com/article/460/1/

3次元積層の「うれしさ」～配線長削減による高性能/低消費電力化～3次元積層の「うれしさ」～配線長削減による高性能/低消費電力化～ • 送受信モジュール間の物理的な距離を短縮 • 「長い配線の負荷容量」を「TSV負荷容量」に置換え • 得に，グローバル配線において効果大（mm→um） • フットプリント面積を削減 • クロック信号や電源ラインなどの配線長を削減 2次元実装IC

3次元積層の「うれしさ」～チップ集積による高性能/低消費電力化～3次元積層の「うれしさ」～チップ集積による高性能/低消費電力化～ • 面と面の接続によるバンド幅拡大 • Intel: 80個のプロセッサ・コア＋SRAM間1) • 1TB/Sのバンド幅で接続 • HRI: プロセッサ＋カスタム回路＋SDRAM2) • プロセッサーカスタム回路間：1,056個のTSVで接続 • カスタム回路ーSRAM間：278個のTSVで接続 • 伝送路の負荷容量削減による低レイテンシ/低消費電力化 • I/Oピンや基板配線の駆動が不要に! 1)インテル：http://www.intel.com/pressroom/archive/releases/20060926corp_b.htm 2)日経マイクロデバイス2008年2月

3次元積層の「うれしさ」～異種ダイの積層による高機能化～3次元積層の「うれしさ」～異種ダイの積層による高機能化～ • 製造プロセスの異なるダイを低コストで積層 • 従来のSiP • TSVを用いることでダイ間を高バンド幅で接続可能 • 従来にない新しい応用の可能性 • SRAM/DRAM以外の選択肢（例：不揮発性メモリの積層など）

100 10 1 0.1 Performance Fine Process Performance Improvement (times) Power Consumption Stacking 180 130 90 65 45 32 22 15 12 Process node(nm) 3次元積層の「うれしさ」～更に，低コスト化までも・・・～古い世代のプロセス技術を用いることでコスト削減も可能に!! 微細化に頼らない高集積化 N.Miyakawa,”3D Stacking Technology for Improvement of System Performance,” International Trade Partners Conference, Nov.2008

3次元積層マイクロプロセッサ・アーキテクチャ3次元積層マイクロプロセッサ・アーキテクチャ

3次元積層デバイスへの期待～アーキテクチャの観点から～3次元積層デバイスへの期待～アーキテクチャの観点から～ • プロセッサコアやメモリそのものの積層 • マルチコア＋マルチコア • いわゆる，メニーコア化 • マルチコア（メニーコア）＋メモリ • 大容量メモリの積層による「メモリーウォール問題」の解決（SRAM，DRAMなど） • 新デバイス（MRAMなど）の積層による高性能化/低消費電力化/不揮発性の活用 • マルチコア＋アクセラレータ • 用途の絞り込みによる加速実行の実現（専用ASIC，再構成可能ハードウェア，ASIP，演算器アレイなど） • 実行効率を向上

3次元積層化のポイントは?～「配線長短縮」と「オンチップ化」～3次元積層化のポイントは?～「配線長短縮」と「オンチップ化」～

FUBレベルの3次元積層 • その狙いは? • フットプリント面積の削減 • Module/FUB内部の配線長短縮による低レイテンシ/低消費電力化フットプリント面積の削減 L3 Cache L3アクセスの低レイテンシ/低消費電力 CPU Core L3 Cache CPU Core CPU Core L3 Cache CPU Core L3 Cache 3次元積層（Bank-on-Bank） 2次元実装 3次元積層（Cache-on-Core)

キャッシュ・メモリを分割&積層する!～ベースモデル：2次元キャッシュ～キャッシュ・メモリを分割&積層する!～ベースモデル：2次元キャッシュ～ 1MB 4-way Set-Associative Cache Bit Line Word Line Bank0 Bank1 Bank2 Bank3 WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr Mux&SA Mux&SA Mux&SA Mux&SA Address Pre Dec. Delay (ns) Output Mux&SA Mux&SA Mux&SA Mux&SA Bank4 Bank5 Bank6 Bank7 WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr • Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3-D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

キャッシュ・メモリを分割&積層する!～バンク同士を積層する～キャッシュ・メモリを分割&積層する!～バンク同士を積層する～ 1MB 4-way Set-Associative Cache Bit Line Word Line Bank0 Bank1 Bank2 Bank3 WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr Mux&SA Mux&SA Mux&SA Mux&SA Address ? Pre Dec. Delay (ns) Output 後述するDWLと同程度の効果と予想される Mux&SA Mux&SA Mux&SA Mux&SA Bank4 Bank5 Bank6 Bank7 WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr • K. Ruttaswamy and G. H. Loh, “Implementing Caches in a 3D Technology for High Performance Processors,” ICCD’05

キャッシュ・メモリを分割&積層する!～メモリアレイをWL方向に分割して積層する～キャッシュ・メモリを分割&積層する!～メモリアレイをWL方向に分割して積層する～ 1MB 4-way Set-Associative Cache Bit Line Word Line 2D-BASE WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr WL Dec&Dr 3D-DWL Address Pre Dec. Delay (ns) Output アドレス/データ線の短縮効果大! Nx×Ny Nx：3次元方向へのWB分割数 Ny：3次元方向へのBL分割数 • Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3-D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

キャッシュ・メモリを分割&積層する!～メモリアレイをWL/BL方向に分割して積層する～キャッシュ・メモリを分割&積層する!～メモリアレイをWL/BL方向に分割して積層する～ 1MB 4-way Set-Associative Cache 2D-BASE 3D-DBL (BL分割) (2 wafers) 3D-DWL (2 wafers) 3D-DBL (4 wafers) 3D-DWL (4 wafers) 3D-DWL (8 wafers) アクセス消費エネルギーも同時に削減 • Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3-D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

レジスタファイルを分割&積層する!～3つのアプローチ～レジスタファイルを分割&積層する!～3つのアプローチ～ • レジスタ分割：エントリを複数グループに分割し積層 • ビットラインの短縮効果 • ビット分割：上位/下位ビットに分割し積層（WL短縮） • ワードラインの短縮効果 • ポート分離：ポート（WL+BL）を分離し積層（bit/面積縮小） • ビット/ワードラインの短縮効果（ただし，TSV面積コスト大） Reg. Partitioned Bit Partitioned Port Split • K. Puttaswamy and G. H. Loh, “Implementing Register Files for High-Performance Microprocessors in a Die-Stacked (3D) Technology,” ISVLSI’06.

Least significant 16 bits (15:0) 16 bits (31:16) 16 bits (47:32) 16 bits (63:48) その他のモジュール/FUBを分割&積層する! Thermal Herding • KiranPuttaswamy and Gabriel H. Loh, “Thermal Herding: Microarchitecture Techniques for Controlling Hotspots in High-Performance 3D-Integrated Processors ,” HPCA 2007 • B. Vaidyanathan., W-L. Hung, F. Wang, Yuan Xie, N. Vijaykrishnan, M. J. Irwin.“Architecting Microprocessor Components in 3D Design Space,” VLSID 2007

Case Study: Alpha 21364の場合～どのように3次元積層するか?～ • 全てのFUBを3次元実装（と仮定） • フットプリント面積が1/2に! • 各FUBのレイテンシ短縮 From 2D to 3D Xie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

Case Study: Alpha 21364の場合～どの程度，性能（IPC×F）が向上するのか?～ FUBの3次元化により動作周波数を向上（フットプリント面積削減） 3次元積層によりFUBの機能拡大（エントリ数増等） 4層 2層 4層 2層クラスタ単位で積層 Xie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

Case Study: Pentium4の場合～どのように3次元積層するか?～ • 複数FUBを積層しパイプラインステージを25%削減 • DL1とFU→load-to-use遅延を削減 • RFとFP→FP実行までの遅延を削減 • FUBを分割積層しレイテンシを削減 • UL2キャッシュ • 性能は15%程度向上，かつ，消費電力を25%削減 1st Layer 2nd Layer Xie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

【ディスカッション】モジュール/FUBレベルの3D化は有効か?【ディスカッション】モジュール/FUBレベルの3D化は有効か? • 分割積層による実装面積（立て床面積）の削減 • 大きな効果あり • 配線長削減による速度向上と低消費電力化 • 多くの場合で効果は限定的（e.g. 10～20%の改善） • 主記憶やキャッシュといった「規則的構造を有し，かつ，潜在的にグローバル配線がクリティカルになる場合」は効果あり • 「3Dによりもたらされるブレークスルー」はどこにあるのか?→On-Chip3D Integration!

3次元積層化のポイントは?～「配線長短縮」と「オンチップ化」～3次元積層化のポイントは?～「配線長短縮」と「オンチップ化」～

そもそも，マイクロプロセッサの進化は「インテグレーション」による!そもそも，マイクロプロセッサの進化は「インテグレーション」による! Intel 4004 (1971) Intel 486 (1989) 2,300個のトランジスタを集積数値演算コプロセッサとキャッシュメモリを集積 Intel Pentium D (2005) Intel Test Chip (2007) 80個のプロセッサコアを1つのダイに集積２個のプロセッサコアを1つのパッケージに集積出展： http://ja.wikipedia.org/wiki/Intel_486, http://ascii24.com/news/i/tech/article/2005/05/27/655984-000.html, http://www.intel.com/museum/online/hist_micro/hof/index.htm, http://techresearch.intel.com/articles/Tera-Scale/1421.htm

インテグレーションが成功するには? • マイクロプロセッサのお仕事は? • プログラム（ソフトウェア）を「効率よく」実行 • インテグレーションの効果を発揮するには? • ソフトウェアの特性を考慮する事が重要成功例：キャッシュメモリの場合 Program Processor メモリアドレス Cache 時間頻繁に参照されるメモリ領域をキャッシュメモリに保存多くのプログラムは「メモリ参照の時間/空間局所性」が有る!!

アーキテクチャ屋としての「面白さ」はどこに?アーキテクチャ屋としての「面白さ」はどこに? 3次元積層の光と影：「4つの素朴な疑問」から見るアーキテクチャ・アプローチ

素朴な疑問その1～大容量キャッシュ積層は本当に得策か?～素朴な疑問その1～大容量キャッシュ積層は本当に得策か?～平均メモリアクセス時間：AMAT L1キャッシュのアクセス時間[cc] L1キャッシュミスの割合 L2キャッシュのアクセス時間[cc] L2キャッシュミスの割合主記憶のアクセス時間[cc]

アプリ特性によっては3Dにより性能が低下する場合もある!アプリ特性によっては3Dにより性能が低下する場合もある! L1キャッシュのアクセス時間[cc] L1キャッシュミスの割合 L2キャッシュのアクセス時間[cc] L2キャッシュミスの割合主記憶のアクセス時間[cc] 性能向上率 3.0 2.5 Ocean 2.0 1.5 1.0 0.5 Cholesky 0 0 50 100 100 80 60 150 40 L2キャッシュアクセス時間の増加 20 0 200 L2キャッシュミス率の削減率 [points] [cc]

SRAM/DRAMハイブリッド・キャッシュ～詳細は21日の発表をご覧下さい～SRAM/DRAMハイブリッド・キャッシュ～詳細は21日の発表をご覧下さい～ • 2つの動作モードをサポート • 「高速かつ小容量」なSRAMキャッシュ・モード • 「低速かつ大容量」なDRAMキャッシュ・モード • 実行プログラムが要求するメモリ容量に応じて動作モード選択 • 高性能化と低消費電力化を同時に達成可能! 32MB DRAM Cache Core Core 32MB DRAM Cache 4MB Tag SRAM Core Core 4MB Cache 橋口慎哉, 小野貴継, 井上弘士, 村上和彰, “3次元DRAM‐プロセッサ積層実装を対象としたオンチップ・メモリ・アーキテクチャの提案と評価,”情報処理学会研究報告, Vol. 2009-ARC-183, No.16, 2009年4月.

素朴な疑問その2～高メモリバンド幅の活用は本当に得策か?～素朴な疑問その2～高メモリバンド幅の活用は本当に得策か?～ • マイクロプロセッサと主記憶の1チップ化 • キャッシュ－主記憶間のデータ転送能力が劇的に向上 • ミス・ペナルティの増加を伴う事無くラインサイズ（ブロックサイズ）を拡大可能平均メモリアクセス時間 = キャッシュヒット時間＋ミス率×ミスペナルティミスペナルティ = DRAMアクセス時間＋ラインサイズ/バンド幅 Stacked Main Memory DRAM Main Memory L1 Mem. BW: → LineSize: ↗ MissPenalty: ↗ Mem. BW: ↗ LineSize: ↗ MissPenalty: → Core L1 Core L1 Core L1 Core

104.hydro2d 14.0 099.go 14.0 072.sc 134.perl 12.0 12.0 052.alvinn 10.0 10.0 8.0 8.0 16KB L1D$ Miss Rate (%) 16KB L1D$ Miss Rate (%) 6.0 6.0 4.0 4.0 2.0 2.0 0.0 0.0 32 16 64 256 128 32 16 64 256 128 Line Size [byte] Line Size [byte] アプリ特性によっては3Dにより性能が低下する場合もある! • 高オンチップメモリバンド幅を積極活用するには? • キャッシュ・ラインサイズ（ブロックサイズ）を拡大 • その効果は? • アプリケーションが有する「メモリ参照の空間局所性の度合い」に大きく依存 Better

可変ラインサイズ・キャッシュ • プログラム特性に応じてDRAMｰキャッシュ間データ転送量（ラインサイズ）を自動調整 • メモリ参照の空間局所性の度合いを静的もしくは動的にモニタリング • ラインサイズを動的もしくは静的に決定 SRAM Cache SRAM Cache SRAM Cache DRAM 動的可変ラインサイズ・キャッシュ：K. Inoue, K. Kai, and K. Murakami, ``Dynamically Variable Line-Size Cache Exploiting High On-Chip Memory Bandwidth of Merged DRAM/Logic LSIs,‘‘ HPCA-5, 1999. 静的可変ラインサイズ・キャッシュ：T. Ono, K. Inoue, K. Murakami, and K. Yoshida, “Reducing On-Chip DRAM Energy via Data Transfer Size Optimization,” IEICE Tran. on Electronics, 2009. 高必要となるメモリバンド幅低高消費するエネルギー低

素朴な疑問その3～温度は性能にどう影響するのか?～素朴な疑問その3～温度は性能にどう影響するのか?～ • 3次元積層LSIの問題点はチップ温度上昇 • チップ温度は消費電力に依存 • 消費電力はプロセッサの動作周波数に依存 • 「プロセッサの最大動作周波数はチップ温度制約により決定」と仮定すると・・・ Stacked Main Memory DRAM Main Memory Tem. : ↘ Freq.: ↗ Mem. Stall: ↗ Tem. : ↗ Freq.: ↘ Mem. Stall: ↘ L1 L1 Core L2 Cache L2 Cache L1 L1 Core

アプリ特性によっては3Dにより性能が低下する場合がある!アプリ特性によっては3Dにより性能が低下する場合がある! • mcf（Highly Memory Intensive） • 動作周波数 • 2D: 約2.9GHz • 3D: 約2.5GHz • 平均命令実行時間 • 2D: 約2.5 • 3D: 約0.6（Better） • twolf（Less Memory Intensive） • 動作周波数 • 2D: 約2.8GHz • 3D: 約2.4GHz • 平均命令実行時間 • 2D: 約0.35（Better） • 3D: 約0.41 G. L. Loi, B. Agrawal, N. Srivastava, S. Lin, T. Sherwood, and K. Banerjee, “A Thermally-Aware Performance Analysis of Vertically Integrated (3-D) Processor-Memory Hierarchy,” DAC’06.

Alpha21364マルチコアの積層では?～詳細は21日の発表をご覧下さい～Alpha21364マルチコアの積層では?～詳細は21日の発表をご覧下さい～

素朴な疑問その4～MRAMの積層は本当に得策なのか?～素朴な疑問その4～MRAMの積層は本当に得策なのか?～ 65nm X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, “Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement,” DAC’08.

シングルコア＋MARM-L2キャッシュの効果は? • 性能（IPC）に関しては大幅な改善無し • ワーキングセット・サイズが小さいため? • リーク消費電力の削減による効果大 4MB SRAM 16MB DRAM 16MB MRAM IPC Static + Dynamic Power (W) Alpha 21264 like processor (8way) @ 90nm X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, “Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement,” DAC’08.

アプリ特性によっては3Dにより性能が低下する場合もある!アプリ特性によっては3Dにより性能が低下する場合もある! 2MB SRAM-SNUCA 8MB MRAM-SNUCA 2MB SRAM-DNUCA 8MB MRAM-DNUCA • Performance • galgel, apsi • 若干の性能向上 • 他のベンチマーク • MRAMの使用により性能低下 • swimとstreamclusterで顕著 • 書込みレイテンシ増大による後続Readイベントの停滞 Better 2MB SRAM-SNUCA 8MB MRAM-SNUCA 2MB SRAM-DNUCA 8MB MRAM-DNUCA • Power Consumption • 全てのベンチマーク • 低消費電力化を実現 • 書込みエネルギーが大きいため，Writeイベントが多い場合は効果が低減 Better G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.

MRAMの欠点を解決するアーキテクチャ・サポートMRAMの欠点を解決するアーキテクチャ・サポート • アーキテクチャ・サポート • 書込み遅延の削減 • ライトバッファのエントリ数を増加（4→20エントリへ） • ライトイベントの後続リードイベントによる割込み許可 • 書込み回数の削減 • MRAMキャッシュの一部をSRAMで実現（31way:MRAM, 1way:SRAM） • SRAMはコアと同じレイヤに実装 • 頻繁に書込みが発生するブロックをSRAMへマイグレート 2MB SRAM-SNUCA 2MB SRAM-DNUCA 8MB SRAM+MRAM Hybrid Better Better G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.

3Dの世界には様々な「トレードオフ」が存在!～九州大学での取組み～3Dの世界には様々な「トレードオフ」が存在!～九州大学での取組み～ • 大容量キャッシュ積層は本当に得策か? →SRAM/DRAMハイブリッド・キャッシュ（1月21日「3D-II」） • 高メモリバンド幅の活用は本当に得策か? →可変ラインサイズキャッシュの提案 • 温度は性能にどう影響するのか? →3Dマルチコアの性能評価/解析（1月21日「3D-II」） • MRAMの積層は本当に得策なのか? →不揮発メモリを用いた3Dメモリ・アーキテクチャ • その他にも・・・ →3Dアクセラレータ・アーキテクチャ

様々な3Dアーキテクチャ研究～世界での様々な取組み～様々な3Dアーキテクチャ研究～世界での様々な取組み～ Accelerator on Multi-Core (Georgia Tech.) NUCA (w/ NoC) on Multi-Core (Pennsylvania State Univ.) DRAM on Multi-Core (Georgia Tech.) DRAM on Embedded Multi-Core (The University of Michigan, ARM) • Dong Hyuk Woo, Joshua B. Fryman, Allan D. Knies, Marsha Eng, and Hsien-Hsin S. Lee. “POD: A 3D-Integrated Broad-Purpose Acceleration Layer.” In IEEE MICRO, Vol. 28, No. 4, pp.28-40, July/August, 2008. • G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09. • Gabriel H. Loh, “3D-Stacked Memory Architectures for Multi-Core processors,” Int. Symposium on Computer Architecture, 2008. • TaehoKgil, Shaun D'Souza, Ali Saidi, Nathan Binkert, Ronald Dreslinski, Trevor Mudge, Steven Reinhardt, KrisztianFlautner,”PicoServer: using 3D stacking technology to enable a compact energy efficient chip multiprocessor ,” ASPLOS’06

3Dアーキテクチャ研究のトレンド（私見）～「量」から「質」へ～3Dアーキテクチャ研究のトレンド（私見）～「量」から「質」へ～ Traditional Devices (E.g. SRAM, DRAM, Logic, …) Emerging Devices (E.g. NV-Mem., Photonics, …) Divide & Stacking (E.g. 3D Cache, 3D ALU, …) System 3D Integration Adaptive 3D Computing (E.g. Run-time Thermal Management, …)

パネル討論（16：20～18：20）3次元積層LSIはメインストリームになり得るか?パネル討論（16：20～18：20）3次元積層LSIはメインストリームになり得るか? 議論して欲しい内容があればメイルでご連絡下さい! inoue@ait.kyushu-u.ac.jp

Backup Slides

素朴な疑問その2～主記憶を積層してL2$は必要か?～素朴な疑問その2～主記憶を積層してL2$は必要か?～ • L2（ラストレベル）キャッシュ導入の狙いは主記憶アクセス回数の削減 • 主記憶のオンチップ化により効果減（!?） • 現在のプロセッサでは「L2面積≈全コア面積」 • L2面積を用いてコア数を増加可能と仮定すると・・ Stacked Main Memory Stacked Main Memory TLP : ↘ Freq.:→ Mem. Acc.: ↘ TLP : ↗ Freq.:→ Mem. Acc.: ↗ Core Core Core Core Core Core SRAM L2$

性能モデル式による解析 • L2未搭載（Nコア搭載）マルチコアをベースとした性能比較 • TLP活用効果 vs. メモリ性能インパクト演算性能の低下による実行クロックサイクル数の増加（≧1.0）メモリ性能の向上による実行クロックサイクル数の減少（≦1.0） L2未搭載Nコア実行サイクル数 L2キャッシュ搭載「N-m」コアの実行時間（サイクル数） Stacked Main Memory Core Core SRAM L2$

簡易性能モデル式による解析 並列化できる演算の割合 L2搭載により削減されるコア数 L2未搭載時のNコア実行クロックサイクル数 L2キャッシュ搭載「N-m」コアの実行時間（サイクル数）全コア実行時の全実行時間にしめる主記憶アクセスによるストールの割合（≦1.0） L2未搭載時の総プロセッサコア数 L2キャッシュ導入によるメモリ性能改善率（≦1.0）

N=8（最大コア数が8）の場合 ベース：L2未搭載8コア（1.0）コア数削減によるL2搭載 K8=0.5（全実行時間の50%がメモリストール） K8=0.1（全実行時間の10%がメモリストール）性能低下 F=0.7 2.0 1.5 1.0 0.5 0.0 2.0 1.5 1.0 0.5 0.0 相対実行時間相対実行時間 0.0 0.0 0.0 0.0 1 1 1 1 0.2 0.2 0.2 0.2 2 2 2 2 3 3 3 3 0.4 0.4 0.4 0.4 4 4 4 4 0.6 0.6 0.6 0.6 5 5 5 5 2.0 1.5 1.0 0.5 0.0 6 6 6 6 0.8 0.8 0.8 0.8 2.0 1.5 1.0 0.5 0.0 7 7 7 7 メモリ性能改善率（r）メモリ性能改善率（r）メモリ性能改善率（r）メモリ性能改善率（r） 1.0 1.0 1.0 1.0 8 8 8 8 搭載コア数（N-m）搭載コア数（N-m）搭載コア数（N-m）搭載コア数（N-m）相対実行時間相対実行時間 F=0.95

3 次元積層プロセッサ アーキテクチャの研究動向