1 / 43

コア数と動作周波数の動的変更による メニーコア・プロセッサ性能向上手法の提案

コア数と動作周波数の動的変更による メニーコア・プロセッサ性能向上手法の提案. ○ 今村 智史  佐々木 広 福本 尚人 井上 弘士 村上 和彰 九州大学 大学院システム情報科学府. 目次. メニーコア・プロセッサの課題 提案手法:DCFS 性能評価 まとめと今後の課題. 目次. メニーコア・プロセッサの課題 提案手法:DCFS 性能評価 まとめと今後の課題. メニーコア・プロセッサの登場. 現在、マルチコア・プロセッサが主流 微細化技術の発達に伴いチップ上のコア数が増加 メニーコア・プロセッサの時代到来 1チップに数十・数百のコアを搭載

lenci
Download Presentation

コア数と動作周波数の動的変更による メニーコア・プロセッサ性能向上手法の提案

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コア数と動作周波数の動的変更によるメニーコア・プロセッサ性能向上手法の提案コア数と動作周波数の動的変更によるメニーコア・プロセッサ性能向上手法の提案 • ○今村 智史 佐々木 広 福本 尚人 • 井上 弘士 村上 和彰 • 九州大学 大学院システム情報科学府

  2. 目次 • メニーコア・プロセッサの課題 • 提案手法:DCFS • 性能評価 • まとめと今後の課題

  3. 目次 • メニーコア・プロセッサの課題 • 提案手法:DCFS • 性能評価 • まとめと今後の課題

  4. メニーコア・プロセッサの登場 • 現在、マルチコア・プロセッサが主流 • 微細化技術の発達に伴いチップ上のコア数が増加 • メニーコア・プロセッサの時代到来 • 1チップに数十・数百のコアを搭載 • 並列処理により単一プログラムの実行を高速化可能

  5. メニーコアの課題 • 低消費電力化に対する要求の拡大 • 例:大規模なデータセンタ • 負荷に応じた消費電力の変化によりピーク消費電力削減 消費電力制約下において 効率的な並列処理が必要

  6. 性能を決定する2つの要因 • 動作周波数と使用コア数 • プログラム間/内で異なる並列プログラムの性能特性 • 動作周波数に対するセンシティビティ • コア数に対するスケーラビリティ プログラムの種類やその振る舞いに 応じて適切な構成を選択する必要あり

  7. 実験環境 • ベンチマーク・プログラム • PARSEC 2.1 • 入力サイズ • native

  8. 消費電力制約 • 全64コアが最低周波数で稼働する際の消費電力 • 消費電力が制約を超えないようコア数に応じて動作周波数と供給電圧を設定

  9. blackscholes プログラム間で異なる性能特性 x264 dedup

  10. プログラム内で異なる性能特性 18 24 32 48 64 18 24 32 48 64 18 24 32 48 64 18 24 32 48 64 18 24 32 48 64 18 24 32 48 64

  11. 研究目的 • 消費電力制約下でのメニーコアにおける並列プログラム実行時の性能最大化 • 着眼点:プログラム間/内で異なる性能特性 • 動作周波数に対するセンシティビティ • コア数に対するスケーラビリティ • 性能を最大化できるコア数と動作周波数間のトレードオフポイントを動的に選択

  12. 目次 • メニーコア・プロセッサの課題 • 提案手法:DCFS • 性能評価 • まとめと今後の課題

  13. blackscholes dedup 提案手法 DCFS の概要(Dynamic Core count and Frequency Scaling) • 実行プログラムの特性に応じてコア数と動作周波数を動的に制御 • 中/低並列なプログラム • 稼働させるコア数を制限 • 休止させたコア分の消費電力バジェットを動作周波数上昇に再割当て • 高並列なプログラム • 可能な限り多くのコアを用いて並列処理

  14. コア数の変更方法 • “スレッドパッキング手法*”を採用 • 全コア数と等しい64スレッドを生成 • それらを指定した数のコアに割当て • プログラムを修正する必要なし 8スレッドを8コアに割り当てる例 8スレッドを2コアに割り当てる例

  15. DCFSの実装 • 2種類のフェイズから構成 • トレーニングフェイズ • 構成(コア数と動作周波数の組み合わせ)を変更しつつプログラムを実行 • 各構成で一定時間IPS(Instructions Per Second)を計測 • 計測したIPSの値から性能を最大化する構成を推測 • 実行フェイズ • 推測した構成によりプログラムを実行 • 一定時間毎のIPS計測によりプログラムの特性変化を確認

  16. 最適な構成の探索方法 • 2種類の探索アルゴリズムを実装 全探索法 ヒルクライム法法 推測 制約を違反 する構成 制約を違反 する構成

  17. 1.4GHz 1.7GHz 2.0GHz IPS 24 32 64 48 コア数 最適な構成の探索方法 • 2種類の探索アルゴリズムを実装 全探索法 ヒルクライム法法 推測 推測 制約を違反 する構成 制約を違反 する構成 単峰性関数を仮定

  18. 目次 • メニーコア・プロセッサの課題 • 提案手法:DCFS • 性能評価 • まとめと今後の課題

  19. 評価結果 • 比較対象:計7種類の実行 • 構成を静的に決定した実行 • 18, 24, 32, 48コア@それぞれの最大動作周波数 • 64コア@1.4GHz • 提案手法 • 全探索法:DCFS-EXH, ヒルクライム法:DCFS-HILL

  20. 評価結果(1/4) 静的な構成 の決定 提案手法 64

  21. 評価結果(1/4) 高並列

  22. 評価結果(2/4) 3.7倍 最適な構成を静的に決定した場合と同等の性能向上

  23. 評価結果(3/4) 最適な構成を静的に決定した場合と性能に差があり

  24. 評価結果(4/4) 実行時間によって異なる性能特性に対応 計12個のプログラムの平均 22%

  25. 目次 • メニーコア・プロセッサの課題 • 提案手法:DCFS • 性能評価 • まとめと今後の課題

  26. まとめ • メニーコアの課題 • 消費電力制約下における性能の最大化 • 提案手法:DCFS • 実行プログラムの性能特性に応じてコア数と動作周波数を動的に変化 • 実行中の特性変化を検知 • 計12個のベンチマークによる性能評価 • 全コア実行に対し最大で3.7倍、平均で22%の性能向上

  27. 今後の課題 • 静的に構成を決定する実行と提案手法による実行間の性能差の原因を調査 • 異なる消費電力制約下における性能評価 • 消費電力の計測による消費エネルギーの評価

  28. BACKUP SLIDES

  29. 消費電力制約 • 全64コアが最低周波数で稼働する際の消費電力 • コア数が の際の消費電力が制約を超えないよう動作周波数 と供給電圧 を設定  :スイッチング確率   :チップ上の全コア数  :1コアあたりの負荷容量  :最低周波数      :最低供給電圧

  30. プログラムの分類

  31. 構成によらず一定な実行命令数

  32. freqmineの性能特性 コア数と性能の関係が単峰性のグラフになっていない

  33. 評価結果(fluidanimate) 中程度の並列性にも関わらず全コア実行により最大性能達成

  34. メモリバウンドなプログラムの性能特性 動作周波数上昇による性能向上が小さい

  35. 2種類のスレッドパッキング手法 Dense allocation Sparse allocation • L3キャッシュに格納されたデータへの アクセスレイテンシが短い • 利用できるL3キャッシュの容量が小さい • 利用できるL3キャッシュの容量が大きい • L3キャッシュに格納されたデータへの • アクセスレイテンシが長い

  36. 目次 • メニーコア・プロセッサの課題 • 提案手法:DCFS • 性能評価 • まとめと今後の課題

  37. 評価結果 Dense allocation: Sparse allocation: • 比較対象:計13種類の実行 • 構成を静的に決定した実行(Dense/Sparse allocation) • 18, 24, 32, 48コア@それぞれの最大動作周波数 • 従来実行:1.4GHzの64コアによる実行 • 提案手法 • DCFS-EXH-DENSE, DCFS-HILL-DENSE, DCFS-EXH-SPARSE, DCFS-HILL-SPARSE

  38. 評価結果(blackscholes,swaptions,vips) Dense allocation: Sparse allocation: 提案手法 64 Dense Sparse

  39. 評価結果(blackscholes,swaptions,vips) Dense allocation: Sparse allocation: 高並列 高並列 高並列

  40. 評価結果(bodytrack,dedup,x264) Dense allocation: Sparse allocation: 3.7倍 性能特性が実行中に変化しない

  41. 評価結果(bodytrack,dedup,x264) Dense allocation: Sparse allocation: L3キャッシュ上のデータへのアクセスレイテンシが短いほうが良い

  42. 評価結果(streamcluster,canneal) Dense allocation: Sparse allocation: メモリバウンド* Dense allocation に比べより大きな容量のL3キャッシュを利用可能 →L3キャッシュミス削減 *Bienia, C et al.: The PARSEC benchmark suite: characterization and archi- tectural implications, PACT , 2008.

  43. 評価結果(ferret,freqmine,facesim) Dense allocation: Sparse allocation: 計12個のプログラムの平均 実行時間によって異なる性能特性に対応 22%

More Related