High-Performance Low-Power Cache Memory Architectures

High-Performance Low-Power Cache Memory Architectures (高性能/低消費電力キャッシュメモリ・アーキテクチャ) 九州大学大学院　システム情報科学研究科　情報工学専攻博士後期課程3年井上　弘士

論文の構成 第1章：背景と目的第2章：メモリシステム性能と消費電力第3章：ウェイ予測セット・アソシアティブ・キャッシュ第4章：ヒストリ・ベース・タグ比較キャッシュ第5章：可変ラインサイズ・キャッシュ第6章：まとめと今後の課題

演算処理 データの記憶＋ CPU DRAM はじめにコンピュータ・システムの高性能化メモリシステム性能 CPU性能

データの記憶 DRAM プロセッサーメモリ間性能差の隠蔽オンチップ・キャッシュの搭載データの記憶演算処理＋ CPU Cache Memory メモリ参照の時間的/空間的局所性を活用

CPU Cache Main Memory キャッシュ・メモリとは？ CPU Main Memory

スーパスカラ・プロセッサ 村上　監訳マイクロ・コンピュータ　田丸・安浦　著並列処理マシン　富田・末吉　著メモリ参照の局所性時間的局所性：メモリ上のある項目が参照されると、間もなくそれが再び参照される確率が高い、という性質空間的局所性：メモリ上のある項目が参照されると、その近くの項目も間もなく参照される確率が高い、という性質ヘネシー＆パターソン　コンピュータ・アーキテクチャ CPUについて調べたい！

キャッシュ・メモリの利点 CPU Cache Main Memory 大容量低速アクセス高消費エネルギ小容量高速アクセス低消費エネルギメモリ参照の局所性により、多くのメモリアクセスがキャッシュ・メモリで完結！

Memory Address Memory 00000 00001 00010 00011 00100 00101 00110 00111 01000 01001 01010 01011 01100 01101 01110 01111 10000 10001 10010 10011 10100 10101 10110 10111 Tag Index ダイレクト・マップ・キャッシュ CPUから発行されたメモリ参照アドレス Index Tag Offset Cache Index Tag Line 000 001 010 011 100 101 110 111 MUX =? 一致ならヒット！

マイクロ・コンピュータ　田丸・安浦　著並列処理に関する本の場所並列処理マシン　富田・末吉　著スーパスカラ・プロセッサ村上　監訳ダイレクト・マップ・キャッシュ動作原理に関する本の場所スーパスカラについて調べたい！ Tag：本の名前 Index：分野回路設計に関する本の場所 CPU OSに関する本の場所 Main Memory Cache

Index Tag Offset Memory Address Memory 000 00 000 01 000 10 000 11 001 00 001 01 001 10 001 11 010 00 010 01 010 10 010 11 010 01 010 01 010 10 010 11 Tag Index 2ウェイ・セット・アソシアティブキャッシュ CPUから発行されたメモリ参照アドレス Cache Tag Index 00 00 01 01 10 10 11 11 MUX MUX =? =? MUX 一致ならヒット！

動作原理、または、並列処理に関する本の場所動作原理、または、並列処理に関する本の場所マイクロ・コンピュータ　田丸・安浦　著回路設計、または、OSに関する本の場所並列処理マシン　富田・末吉　著 Cache スーパスカラ・プロセッサ村上　監訳 2ウェイ・セット・アソシアティブキャッシュスーパスカラについて調べたい！ CPU Tag：本の名前 Index：分野 Main Memory

本研究の動機 (1/2) 性能差は十分隠蔽できているのか？ Alpha 21164 Fraction of time spent in Processor I-Cache Misses SPECint92 (22%) SPECfp92 (32%) D-Cache Misses L2 Cache Misses L3 Cache Misses Database (77%) Sparse (73%) From D. Patterson et al., (IEEE Micro)

本研究の動機 (1/2) 性能差は十分隠蔽できているのか？ NO! Alpha 21164 Fraction of time spent in Processor I-Cache Misses SPECint92 (22%) SPECfp92 (32%) D-Cache Misses L2 Cache Misses L3 Cache Misses Database (77%) Sparse (73%) From D. Patterson et al., (IEEE Micro)

本研究の動機　(2/2) 高性能化だけで十分なのか？ NO! • 携帯システムにおけるバッテリ駆動時間の延長 • 高性能システムにおけるチップ発熱の抑制チップ全体の消費電力においてキャッシュが占める割合 DEC 21164 CPU* StrongARM SA-110 CPU* Bipolar ECL CPU** 50% 25% 43% * Kamble et. al., “Analytical energy Dissipation Models for Low Power Caches”, IＳLPED’97 ** Joouppi et. al., “A 300-MHz 115-W 32-b Bipolar ECL Microprocessor” ,IEEE Journal of Solid-State Circuits’93

本研究の目的 →プロセッサー主記憶間の性能差は拡大を続けている →キャッシュがシステム性能に与える影響は大きい →キャッシュ・ヒット率の向上を目的として、キャッシュ・サイズは年々増加傾向にある →キャッシュがシステム消費エネルギに与える影響は大きい高性能と低消費エネルギを両立できるキャッシュ・アーキテクチャを考案

ラップトップPC 携帯電話デスクトップPC ワークステーション →メモリ参照の振る舞いを静的に予測しにくい →オブジェクト・コードの互換性を保つことは重要対象とするアプリケーション汎用システム組み込みシステム車ラップトップPC 電子レンジ携帯電話デスクトップPC ポットワークステーション

How? 手段：不必要な処理を削除本研究における戦略 (1/3) 目標：高性能かつ低消費エネルギなメモリシステムを　　　　　構築するためのキャッシュ・アーキテクチャを実現

How? 手段：ハードウェアによる動的最適化本研究における戦略 (2/3) 要求：オブジェクト・コードの互換性を保ち、かつ、　　　　　　様々なプログラム特性に対応

How? Predict and Eliminate! 本研究における戦略 (3/3) 動的最適化により無駄な処理を削除 1. メモリ参照パタン(ヒストリ)を採取 2. キャッシュ内部処理結果を予測 3. 必要のない処理を削除

ウェイ予測セット・アソシアティブ・キャッシュ (第3章) ・不必要なウェイアクセスを削除ヒストリ・ベース・タグ比較キャッシュ (第4章) ・不必要なタグ比較処理を削除動的可変ラインサイズ・キャッシュ (第5章) ・不必要なデータ・リプレイスを削除提案キャッシュ・アーキテクチャ

メモリシステム性能と消費エネルギ 平均メモリアクセス時間 (AMAT) = TCache + CMR * 2 * TMainMemory 平均メモリアクセス消費エネルギ (AMAE) = ECache + CMR * 2 * EMainMemory

Cache MainMemory CMR Time Time Energy Energy 提案キャッシュの効果 WP HTC DVLS WP: ウェイ予測セット・アソシアティブ・キャッシュ HTC: ヒストリ・ベース・タグ比較キャッシュ DVLS: 動的可変ラインサイズ・キャッシュ

Cache MainMemory CMR Time Time Energy Energy 第3章ウェイ予測セット・アソシアティブキャッシュ・アーキテクチャ 10% 70% 従来型4ウェイSAキャッシュと比較

タグ・サブアレイ ライン・サブアレイウェイ 0 1 2 3 タグ従来型キャッシュの動作Ｓｔｅｐ１．アドレス・デコードＳｔｅｐ２．全ウェイにおけるタグとラインを同時読み出しＳｔｅｐ３．タグ比較一致（ヒット）不一致（ミス）Ｓｔｅｐ４．参照データをサービス後、アクセスを終了Ｓｔｅｐ４．アクセスを終了後、ラインのリプレイス

並列処理マシン　富田・末吉　著スーパスカラ・プロセッサ村上　監訳本の確認（タグ比較）本を開く（ライン読出し）本の確認（タグ比較）本を開く（ライン読出し）これだ！各キャッシュの動作ー従来型－スーパスカラについて調べたい！動作原理、または、並列処理に関する本の場所 Way-1 Way-0 CPU Cache

段階型キャッシュの動作 ライン読み出しを遅らせることによる省エネルギー化Ｓｔｅｐ１．参照アドレスのデコードＳｔｅｐ２．全ウェイにおけるタグ読み出しフェーズ1 Ｓｔｅｐ３．タグ比較不一致（ミス）Ｓｔｅｐ４．アクセス終了後、ラインのリプレイス一致（ヒット）フェーズ２Ｓｔｅｐ４．ヒットしたラインだけを読み出しＳｔｅｐ５．参照データをサービス後、アクセスを終了性能を犠牲にする事で低消費エネルギー化を達成

並列処理マシン　富田・末吉　著スーパスカラ・プロセッサ村上　監訳本の確認（タグ比較）本の確認（タグ比較）これだ！本を開く（ライン読出し）各キャッシュの動作ー段階型－スーパスカラについて調べたい！動作原理、または、並列処理に関する本の場所 Way-1 Way-0 CPU Cache

WPキャッシュー基本概念ー 段階型キャッシュ → ヒット時の性能を犠牲に！高性能/低消費エネルギー化を実現するためには… • タグとラインの同時読み出しによる高速化 • 無駄なウェイ・アクセスの回避による省エネルギー化従来型〇段階型× 従来型× 段階型〇の相反する要求を同時に満足する必要あり！ウェイ予測型キャッシュキャッシュ・アクセス前に、参照データが存在するウェイを予測

WPキャッシュ　－基本動作ー タグ比較とは独立にウェイを選択Ｓｔｅｐ０．ウェイ予測Ｓｔｅｐ１．参照アドレスのデコードＳｔｅｐ２．予測されたウェイに対応するタグとラインの同時読み出しＳｔｅｐ３．タグ比較フェーズ1 不一致一致（予測ヒット）Ｓｔｅｐ４．残りウェイのタグとラインの同時読み出しＳｔｅｐ４．終了Ｓｔｅｐ５．タグ比較一致（予測ミス）不一致（キャッシュ・ミス）Ｓｔｅｐ６．終了Ｓｔｅｐ６．終了後、リプレイスフェーズ2

WPキャッシュ　－ウェイ予測ー ウェイ予測型キャッシュの有効性は予測ヒット率に依存多くのプログラムには高いメモリ参照局所性ウェイ予測に MRU(Most Recently Used)アルゴリズムを採用参照予測ウェイ（見込みウェイ）セット S セット S ウェイ２ウェイ２ T T+n 時間各セットにおいて、前回のアクセスが • 予測ヒットもしくは予測ミス → 参照データが存在したウェイ • キャッシュ・ミス → リプレイス対象となったウェイを次回の予測ウェイとする

並列処理マシン　富田・末吉　著スーパスカラ・プロセッサ村上　監訳本の確認（タグ比較）本を開く（ライン読出し）前回、Way-0においていたので、これだ！各キャッシュの動作ーウェイ予測型－スーパスカラについて調べたい！動作原理、または、並列処理に関する本の場所 Way-1 Way-0 CPU Cache

並列処理マシン　富田・末吉　著スーパスカラ・プロセッサ村上　監訳各キャッシュの動作ーウェイ予測型－スーパスカラについて調べたい！動作原理、または、並列処理に関する本の場所 Way-1 Way-0 CPU Cache 本の確認（タグ比較）本を開く（ライン読出し）前回、Way-1においていたので、これだ！あ、違った！

並列処理マシン　富田・末吉　著スーパスカラ・プロセッサ村上　監訳各キャッシュの動作ーウェイ予測型－スーパスカラについて調べたい！動作原理、または、並列処理に関する本の場所 Way-1 Way-0 CPU Cache 本の確認（タグ比較）本を開く（ライン読出し）じゃ、こちらを探そう！

Access Control WPキャッシュ　－内部構成ー Reference-Address Tag Index Offset 2bits Status Tag Line ウェイ予測フラグ way0 way1 way2 way3 ウェイ予測回路 MUX Drive

理論的評価 (1/2) 従来型段階型平均 Ecache 平均 Ecache 4 Etag + 4 Edata 4 Etag + 1 Edata *ヒット率平均所要クロック平均所要クロック 1 1 + 1*ヒット率ウェイ予測型平均 Ecache (1 Etag + 1 Edata)*予測ヒット率 + (4 Etag + 4 Edata)*(1－予測ヒット率) 平均所要クロック 1+ 1*(1－予測ヒット率)

(# of Edata) 理論的評価 (2/2) 従来型段階型ウェイ予測型 Performance Energy (Etag = 0.078Edata) 従来型と比較して最善ケース（予測ヒット率＝100%）：性能低下を伴うこと無く75%の省エネルギー化最悪ケース（予測ヒット率＝0%）：２倍の性能低下を伴い、かつ、省エネルギー効果なし

実験的評価ーウェイ予測ヒット率ー I-Cache D-Cache Benchmarks PHR (%) PMR (%) CMR (%) PHR (%) PMR (%) CMR (%) 099.go 94.55 4.04 1.41 81.31 17.45 1.24 124.m88ksim 95.76 4.05 0.19 95.47 3.63 0.91 126.gcc 92.32 5.09 2.59 87.4 9.59 3.01 129.compress 99.98 0.02 0 91.64 3.63 4.73 130.li 97.28 2.71 0 92.82 3.91 3.27 132.ijpeg 99.74 0.25 0.01 92.6 6.38 1.02 134.perl 94.93 4.65 0.42 92.64 5.78 1.58 147.vortex 91.65 7.11 1.25 89.38 9.16 1.46 101.tomcatv 91.61 7.3 1.09 87.96 9.96 2.08 102.swim 97.96 2.04 0 50.27 31.71 18.03 103.su2cor 96.48 3.23 0.28 85.22 8.14 6.64 104.hydro2d 98.28 1.43 0.29 89.41 3.55 7.04 95.87 3.49 0.62 86.34 9.41 4.25 Average

099.go 126.gcc 130.li 134.perl 101.tomcatv 103.su2cor 124.m88ksim 129.compress 132.ijpeg 102.swim 102.swim 104.hydro2d 実験的評価ー性能と消費エネルギ(1/2)ー Instruction Cache 段階型ウェイ予測型 Normalized Tcache Normalized Ecache

099.go 126.gcc 130.li 134.perl 101.tomcatv 103.su2cor 124.m88ksim 129.compress 132.ijpeg 102.swim 102.swim 104.hydro2d 実験的評価ー性能と消費エネルギ(2/2)ー Data Cache 段階型ウェイ予測型 Normalized Tcache Normalized Ecache

AMAT = TCache + CMR * 2 * TMainMemory 4% 5% AMAE = ECache + CMR * 2 * EMainMemory 51% 72% CMR = 0.02 TMainMemory = 10*TCache EMainMemory = 10*ECache 従来型4ウェイSAデータキャッシュと比較 (124.m88ksim) おわりに (1/2) ウェイ予測セット・アソシアティブ・キャッシュの提案 • メモリ参照パタンをウェイ予測テーブルに記録 • 参照データを有するウェイを予測 • 無駄なウェイアクセスを回避し省エネルギ化を達成

おわりに (2/2) • ウェイ予測テーブル・アクセスに伴う性能オーバヘッドを評価 • ウェイ予測テーブル・アクセスに伴う消費エネルギ・オーバヘッドを評価 • キャッシュ・サイズ、ライン・サイズ、連想度が与える影響を調査 • ウェイ予測テーブル・サイズが与える影響を調査

Cache MainMemory CMR Time Time Energy Energy 第4章ヒストリ・ベース・タグ比較キャッシュアーキテクチャ 30% サブバンキング手法を用いた従来型DMキャッシュと比較

MUX 従来型キャッシュ ECache = Etag + Edata Reference-address データメモリタグメモリ Tag Offset Index Tag Line Direct-Mapped Cache Word Data Hit?

ヒストリ・ベース・タグ比較-　用語の定義　-ヒストリ・ベース・タグ比較-　用語の定義　- 動的基本ブロック • 1個以上の連続した静的基本ブロックで構成 • サイズはブロック中の条件付分岐命令に依存 • 先頭はある分岐命令の分岐先アドレス • 最終は次に出現するtaken分岐命令のアドレス実行フロー (静的)基本ブロック分岐先アドレス条件不成立の分岐命令条件成立の分岐命令動的基本ブロック

ヒストリ・ベース・タグ比較-　コンセプト (1/2)- 命令キャッシュ・アクセスでは極めて高いヒット率 →ほとんどのタグ比較結果は一致にも関わらず．．．従来のキャッシュではアクセスごとにタグ比較を実行 →タグ比較に要するエネルギーを毎サイクル消費タグ比較を行う事無しに参照命令がキャッシュ中に存在するか否かを判定可能？ →タグ比較処理を省略して低消費電力化を実現！

ヒストリ・ベース・タグ比較-　コンセプト　(2/2)-ヒストリ・ベース・タグ比較-　コンセプト　(2/2)- 事実1：命令キャッシュのヒット率は極めて高い →キャッシュ内容の更新は稀にしか発生しない事実2：プログラムはループ構造に基づく →動的基本ブロックは繰り返し実行されるある動的基本ブロックの実行において、 • 過去に実行された事があり、かつ、 • その時から現在までに1度もミスが発生していないならば、タグ比較処理を省略可能！

マイクロ・コンピュータ　田丸・安浦　著マイクロ・コンピュータ　田丸・安浦　著動作原理に関する本の場所もう１度、動作原理について調べたい！本を開く（ライン読出し）本の確認（タグ比較） CPU Cache 従来型とヒストリ・ベース型の比較ー従来型ー動作原理に関する本の場所動作原理について調べたい！本を開く（ライン読出し）本の確認（タグ比較） CPU Cache

マイクロ・コンピュータ　田丸・安浦　著マイクロ・コンピュータ　田丸・安浦　著もう１度、動作原理について調べたい！さっき調べたから、まだあるはずだ！動作原理に関する本の場所本を開く（ライン読出し） X CPU Cache 従来型とヒストリ・ベース型の比較ーヒストリ・ベース型ー動作原理に関する本の場所動作原理について調べたい！本を開く（ライン読出し）本の確認（タグ比較） CPU Cache

1. 時刻 T にて動的基本ブロックAを実行 • タグ比較を実行 • 実行足跡を残す ? A $ ３. 時刻T+x にて動的基本ブロックAを再度実行 • 足跡が残っていればタグ比較を省略 A A $ ヒストリ・ベース・タグ比較-　実行履歴　- ２. キャッシュ・ミスが発生したら全ての足跡を消去

ヒストリ・ベース・タグ比較-　実行足跡の記録　-ヒストリ・ベース・タグ比較-　実行足跡の記録　- BTB(Branch Target Buffer)を利用して実行足跡を記録 EFT EFN Top Target Address Branch Inst. Addr. BTB Not-taken $ Tail Target Address Branch Inst. Addr. Prediction Result Tag-Comparison is Omitted TCO

High-Performance Low-Power Cache Memory Architectures

High-Performance Low-Power Cache Memory Architectures

Presentation Transcript

Cache Memory

CACHE MEMORY

Memory Cache – performance considerations

High-Performance Low-Power Electronics for SMAMID

A High-performance, Low-Power Cache Design, and Enabling Speech Recognition on Smartphones

Cache (Memory) Performance Optimization

Cache Memory and Performance

Performance of Cache Memory

Cache Memory

Cache Memory

Cache Memory

Low Power Memory

Cache Memory

High-Performance Low-Power Electronics for SMAMID

Cache Memory

Chapter 7b: Cache Memory Performance

Cache memory

High Performance, Dense, Low Power Linux Clusters

Inherently Lower-Power High-Performance Superscalar Architectures

Cache (Memory) Performance Optimization

Cache Memory

Lecture 08: Memory Hierarchy Cache Performance