演算 / メモリ性能バランスを考慮した CMP 向けヘルパースレッド実行方式の提案と評価

演算/メモリ性能バランスを考慮したCMP向けヘルパースレッド実行方式の提案と評価演算/メモリ性能バランスを考慮したCMP向けヘルパースレッド実行方式の提案と評価九州大学○今里賢一　福本尚人井上弘士　村上和彰

発表手順 • 研究背景 • チップマルチプロセッサ • CMP上の並列処理における性能向上阻害要因 • 演算/メモリ性能バランスを考慮したヘルパースレッド実行方式 • 提案方式の評価 • 性能モデリングによる評価 • シミュレータによる評価 • まとめと今後の課題

チップマルチプロセッサ（CMP） • １つのチップ上に複数のプロセッサコアを搭載 • 同時に複数のコアで実行することにより性能向上マルチプログラミング並列処理プログラム２プログラム３プログラム１プログラム４並列プログラム複数のスレッドに分割コア１コア１コア２コア２コア３コア３コア４コア４ L1D$ L1D$ L1I$ L1I$ L1D$ L1D$ L1I$ L1I$ L1D$ L1D$ L1I$ L1I$ L1D$ L1D$ L1I$ L1I$ L2共有キャッシュ L2共有キャッシュ主記憶主記憶

CMP上の並列処理における性能向上阻害要因 • メモリウォール問題 • プロセッサ－主記憶間の速度差拡大 • CMPではさらに深刻化 • オフチップメモリバンド幅の制約 Barnes Cholesky Perfect L2 cache (100% ヒット) 1MB L2 cache

本研究のねらい • 従来方式：すべてのコアで並列プログラムを実行 • 疑問点：本当に全コア実行が得策なのか？ • 6コアから +2コアでわずか「6.9%」の性能向上 • 解決策：演算/メモリ性能のバランスを考えたコアの運用 • コアの一部をメモリ性能向上に利用 Cholesky Perfect L2 cache (100% ヒット) 提案方式の狙い 6.9% 1MB L2 cache

本研究のねらい • 従来方式：すべてのコアで並列プログラムを実行 • 疑問点：本当に全コア実行が得策なのか？ • 6コアから +2コアでわずか「6.9%」の性能向上 • 解決策：演算/メモリ性能のバランスを考えたコアの運用 • コアの一部をメモリ性能向上に利用 • 6コアから +2コアで… • 提案：57%の性能向上 Cholesky Perfect L2 cache (100% ヒット) 6.9% 57% 1MB L2 cache

演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～従来方式並列プログラムコア5 コア1 コア2 コア3 コア4 コア 6 コア7 I$ I$ I$ I$ I$ I$ I$ D$ D$ D$ D$ D$ D$ D$ L2共有キャッシュ主記憶

演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～ • ヘルパースレッド • 演算コア用にプリフェッチ • 利点と欠点 • メモリ性能の向上 • 演算性能の低下提案方式並列プログラムヘルパースレッドコア5 コア1 コア2 コア3 コア4 コア 6 コア7 I$ I$ I$ I$ I$ I$ I$ D$ D$ D$ D$ D$ D$ D$ L2共有キャッシュ主記憶

演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～提案方式並列プログラムヘルパースレッドヘルパースレッドコア5 コア1 コア2 コア3 コア4 コア 6 コア7 I$ I$ I$ I$ I$ I$ I$ D$ D$ D$ D$ D$ D$ D$ L2共有キャッシュ主記憶 • ヘルパースレッド • 演算コア用にプリフェッチ • 利点と欠点 • メモリ性能の向上 • 演算性能の低下

演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～提案方式並列プログラムヘルパースレッドヘルパースレッドヘルパースレッドコア5 コア1 コア2 コア3 コア4 コア 6 コア7 I$ I$ I$ I$ I$ I$ I$ D$ D$ D$ D$ D$ D$ D$ L2共有キャッシュ主記憶 • ヘルパースレッド • 演算コア用にプリフェッチ • 利点と欠点 • メモリ性能の向上 • 演算性能の低下

演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～提案方式並列プログラムヘルパースレッドヘルパースレッドコア5 コア1 コア2 コア3 コア4 コア 6 コア7 Prefetch A miss I$ I$ I$ I$ I$ I$ I$ D$ D$ D$ D$ D$ D$ D$ miss L2共有キャッシュ主記憶 A • ヘルパースレッド • 演算コア用にプリフェッチ • 利点と欠点 • メモリ性能の向上 • 演算性能の低下

演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～提案方式並列プログラムヘルパースレッドヘルパースレッドコア5 コア1 コア2 コア3 コア4 コア 6 コア7 I$ I$ I$ I$ I$ A I$ I$ D$ D$ D$ D$ D$ D$ D$ L2共有キャッシュ A 主記憶 A • ヘルパースレッド • 演算コア用にプリフェッチ • 利点と欠点 • メモリ性能の向上 • 演算性能の低下

演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～演算/メモリ性能のバランシング～ヘルパースレッドによるプリフェッチ～提案方式並列プログラムヘルパースレッドヘルパースレッドコア5 コア1 コア2 コア3 コア4 コア 6 コア7 Load A I$ I$ I$ I$ I$ A I$ I$ D$ D$ D$ D$ D$ D$ D$ L2共有キャッシュ hit A 主記憶 A • ヘルパースレッド • 演算コア用にプリフェッチ • 利点と欠点 • メモリ性能の向上 • 演算性能の低下

アーキテクチャ・サポート • ヘルパースレッドはキャッシュミス情報を用いてメモリ参照アドレスを予測 • Miss Status Buffer の導入 • 他コアのキャッシュミス情報をスヌープし格納並列プログラムを実行ヘルパースレッドを実行 … … コア1 コア2 コアN L1D$ L1I$ L1D$ L1I$ L1D$ L1I$ MSB MSB MSB 共有バス L2 共有キャッシュ

アーキテクチャ・サポート • ヘルパースレッドはキャッシュミス情報を用いてメモリ参照アドレスを予測 • Miss Status Buffer の導入 • 他コアのキャッシュミス情報をスヌープし格納並列プログラムを実行ヘルパースレッドを実行 … … コア1 コア2 コアN miss L1D$ L1I$ L1D$ L1I$ L1D$ L1I$ MSB MSB MSB 共有バス L2 共有キャッシュ

ヘルパースレッドの動作 ヘルパースレッドが実行するコード • Miss Status Buffer からキャッシュミス情報を取得 • Miss Status Buffer が空であれば待機 • メモリ参照アドレスの予測 • ハードウェアプリフェッチャの模倣 • プリフェッチ命令の実行 Stride，Marcov，Delta correlation，… while (true) { 1. miss_info = msb.addr; 2. pref = predict(miss_info); 3. prefetch(pref); }

発表手順 • 研究背景 • チップマルチプロセッサ • CMP上の並列処理における性能向上阻害要因 • 演算/メモリ性能バランスを考慮したヘルパースレッド実行方式 • 提案方式の評価 • 性能モデリングによる評価 • シミュレータによる評価 • まとめと今後の課題

性能モデリング • Ｎコア CMP上での並列処理 • N – m コア：通常実行，m コア：ヘルパースレッドを実行全コア実行時の実行クロックサイクル数提案方式の実行クロックサイクル数演算性能の低下による実行クロックサイクル数の増加（１以上）メモリ性能の向上による実行クロックサイクル数の減少（１以下）

性能モデリング 並列化できる演算の割合全コア実行時の実行クロックサイクル数ヘルパースレッドを実行するコア数提案方式の実行クロックサイクル数メモリ性能の向上による実行クロックサイクル数の減少（１以下）プロセッサコア数

性能モデリング 並列化できる演算の割合全コア実行時の実行クロックサイクル数ヘルパースレッドを実行するコア数提案方式の実行クロックサイクル数全コア実行時の全実行時間にしめる主記憶アクセスによるストールの割合プロセッサコア数全コア実行時からのL2キャッシュミス率の削減率

性能解析（Cholesky） 相対実行時間提案方式従来方式性能低下性能向上 L2キャッシュミス率の削減率ヘルパースレッドを実行するコア数ベンチマークプログラム Cholesky (= 0.73, =0.45)の性能モデル式による実行クロックサイクル数の予測

性能解析（Cholesky） 相対実行時間ヘルパースレッドを実行するコア数提案方式従来方式 +8.4% 性能低下 -16.1% -41.4% 相対実行時間性能向上 17.1% L2キャッシュミス率の削減率ヘルパースレッドを実行するコア数 L2キャッシュミス率の削減率ベンチマークプログラム Cholesky (= 0.73, =0.45)の性能モデル式による実行クロックサイクル数の予測

性能解析（Cholesky） • 17.1%以上のミス削減率を達成で高性能化を実現 • 最大で41.4%の実行時間の削減 • ミス削減率が低い場合性能低下相対実行時間ヘルパースレッドを実行するコア数提案方式従来方式 +8.4% 性能低下 -16.1% -41.4% 相対実行時間性能向上 17.1% L2キャッシュミス率の削減率ヘルパースレッドを実行するコア数 L2キャッシュミス率の削減率ベンチマークプログラム Cholesky (= 0.73, =0.45)の性能モデル式による実行クロックサイクル数の予測

提案方式の評価 • 評価内容 • 従来方式：すべてのコアで並列プログラムを実行 • 提案方式：いくつかのコアでヘルパースレッドを実行 • プログラム実行中に実行するスレッドは変更しない • 最適なコア配分は既知 • 評価環境 • シミュレータ： CMPシミュレータ　M5 • ベンチマークプログラム： Splash2 から 6 個のプログラムを選択比較 32KB 1 clock cycle … … コア8 コア1 コア2 20 エントリ 1 clock cycle L1D$ L1I$ L1D$ L1I$ L1D$ L1I$ MSB MSB MSB 共有バス L2 共有キャッシュ 1MB 12 clock cycle 300 clock cycle 主記憶

実装したプリフェッチアルゴリズム • Local Stride プリフェッチ • 命令別にキャッシュミスアドレスのストライド値を保持 • 使用する情報：キャッシュミスアドレス，PC，コア番号 • Global Stride プリフェッチ • 過去 n 個のキャッシュミスアドレスと現在のキャッシュミスアドレスとの差分のうち最も絶対値が小さいものをストライド値として予測 • 使用する情報：キャッシュミスアドレス，コア番号 • Delta Correlation プリフェッチ • 時間的に連続するキャッシュミスアドレスの差分がマルコフ情報源になっていると仮定しプリフェッチ • 使用する情報：キャッシュミスアドレス，コア番号

評価モデル • 従来方式 • BASE：すべてのコアで並列プログラムを実行 • 提案方式 • 必ず１コア以上はヘルパースレッドを実行 • PB-LS： Local Strideプリフェッチ • PB-GS： Global Stride プリフェッチ • PB-DC： Delta Correlation プリフェッチ

ヘルパースレッドによるL2キャッシュミス率の削減ヘルパースレッドによるL2キャッシュミス率の削減 64.3%削減ほぼすべての場合において L2 キャッシュミス率を削減

提案方式による性能向上 最大で47%の性能向上

まとめと今後の課題 • まとめ • 演算/メモリ性能のバランスを考慮したヘルパースレッドの実行方式を提案 • 性能モデリングによる評価 • シミュレータによる評価 • 最大で 47% の性能向上 • 今後の課題 • 最適なコアの配分を決定する機構の考案 • 提案方式の詳細な評価 • ベンチマークプログラムの追加 • メモリ関連のパラメータの変更 • ハードウェアプリフェッチャとの組み合わせ

ご清聴ありがとうございました

最適なコアの配分を決定する機構の考案 • 静的：プログラム実行前に決定 • コンパイラによる解析，事前実行による予測 • 動的：プログラム実行時に決定 • 実行前にパフォーマンスカウンタを入力とした予測モデルを構築 • 性能モデル式，機械学習，クラスタリング • 実行時にパフォーマンスカウンタの値を取得し予測

最適なコアの割当て ※ Ocean，Radix ではスレッド数の制約（2 の累乗にしかスレッド数を設定できない）　　のため 4:4 となっている：従来方式よりも高い性能向上が得られたもの

L2キャッシュサイズを変化させた場合の提案方式の評価L2キャッシュサイズを変化させた場合の提案方式の評価

提案方式による性能向上（並列実行部分）

Prefetch Coverage

MSB accept rate

プリフェッチの内訳（PB-LS）

性能モデル式の誤差（Cholesky, PB-LS）

プリフェッチアルゴリズム

実装したプリフェッチアルゴリズム • Local Stride プリフェッチ • 命令別にメモリ参照アドレスのストライド値を保持 • 使用する情報：キャッシュミスアドレス，PC，コア番号 • Global Stride プリフェッチ • 過去 n 個メモリ参照アドレスと現在のメモリ参照アドレスとの差分のうち最も絶対値が小さいものをストライド値として予測 • 使用する情報：キャッシュミスアドレス，コア番号 • Delta Correlation プリフェッチ • 時間的に連続するキャッシュミスアドレスの差分がマルコフ情報源になっていると仮定しプリフェッチ • 使用する情報：キャッシュミスアドレス，コア番号

実装したプリフェッチアルゴリズム（1/2） • ストライドプリフェッチ • キャッシュミスアドレスのストライド値が一定であると予測しプリフェッチ • Local Stride プリフェッチ • 命令別にメモリ参照アドレスのストライド値を保持 • 使用する情報 • キャッシュミスアドレス，プログラムカウンタ，コア番号 • Global Stride プリフェッチ • 過去 n 個メモリ参照アドレスと現在のメモリ参照アドレスとの差分のうち最も絶対値が小さいものをストライド値として予測 • 使用する情報 • キャッシュミスアドレス，コア番号

実装したプリフェッチアルゴリズム（2/2） • Delta Correlation プリフェッチ • 時間的に連続するキャッシュミスアドレスの差分がマルコフ情報源になっていると仮定しプリフェッチ • Global History Buffer を用いる手法 • 使用する情報 • キャッシュミスアドレス • コア番号 1, 1 1, 62 時間 62, 1 ミスアドレス delta order = 2

Local Stride Prefetching • 命令別にメモリ参照アドレスのストライド値を保持 • ひとつ前のストライド値と現在のストライド値が等しい場合プリフェッチを実行 • 現在のメモリ参照アドレスにストライド値を足したメモリアクセスアドレス出典： A Survey of Data Prefetching Techniques

Local Stride Prefetching（実験に使用した設定） • 使用する情報 • コア番号 • L2キャッシュミスを起こした命令のプログラムカウンタ • L2キャッシュミスを起こしたメモリ参照アドレス • 助ける対象のコア別に違うテーブルを使用 • テーブルサイズの合計はL1キャッシュサイズと同じ • 総エントリ数： 2048 • 1コアを助けるとき 2048 エントリ/テーブル • 7コアを助けるとき 256 エントリ/テーブル

Global StridePrefetching Miss address 更新エントリの割り当て（LRU置換ポリシ）＋ Prefetch Addr

Global Stride Prefetching（実験に使用した設定） • 使用する情報 • コア番号 • L2キャッシュミスを起こしたメモリ参照アドレス • 助ける対象のコア別に違う Global Miss Address History とテーブルを保持 • エントリ数 • Global Miss Address History ： 8 エントリ • Next Addr，Stride を保持するテーブル： 8 エントリ

性能モデル式の導出

スレッド数　　のときの実行クロックサイクル数 • 一番実行時間が長いスレッドの実行クロックサイクル数：スレッド数　のときの実行クロックサイクル数：スレッド数　のときの演算実行に要するクロックサイクル数：スレッド数　のときのメモリアクセスに要するクロックサイクル数 ※ ただし、演算とメモリアクセスのオーバーラップ実行は考えない

スレッド数　　のときの実行クロックサイクル数：並列化できる演算の割合メモリアクセス回数コア・・・ミス率：アクセス時間： L1$ L2$ ミス率：アクセス時間：：並列化できるメモリアクセスの割合主記憶バスアクセス時間はスレッド数に対し一定であると仮定し， L2キャッシュアクセス時間，主記憶アクセス時間に含める。アクセス時間：

演算 / メモリ性能バランスを考慮した CMP 向け ヘルパースレッド実行方式の提案と評価