計算機構成　第 9 回 POCO の性能評価と論理合成テキスト 7 章

計算機構成　第9回POCOの性能評価と論理合成テキスト7章計算機構成　第9回POCOの性能評価と論理合成テキスト7章情報工学科天野英晴

ＣＰＵの性能評価 • プログラムを走らせてその実行時間を比較 • デスクトップ、ラップトップ：ＳＰＥＣベンチマーク • サーバー：TPC • スーパーコンピュータ：Linpack, LLL • 組み込み：EEMBC, MiBench • 走らせるプログラム〇実プログラムによるベンチマーク集 △カーネル：プログラムの核となる部分 ×トイプログラム：Quicksort, 8queen, エラトステネスの篩 ×合成ベンチマーク：Whetstone, Dhrystone

評価のまとめ方、報告の仕方 • 複数のプログラムからなるベンチマークの実行時間をどのように扱うか？ • 基準マシンを決めて相対値を取る • 複数のプログラムに対しては相乗平均を取る〇プログラムの実行時間、基準マシンに依らない一貫性のある結果が得られる ×非線形が入る • 結果の報告 • 再現性があるように • ハードウェア：　動作周波数、キャッシュ容量、主記憶容量、ディスク容量など • ソフトウェア：OSの種類、バージョン、コンパイラの種類、オプションなど

MIPS, MFLOPS, MOPS • MIPS(Million Instructions Per Second) • 一秒間に何百万個命令が実行できるか？ • 一命令がどの程度の機能を持っているかが入っていない • 異なる命令セット間の比較には無意味な基準 • しかし分かりやすいし、IntelやARM間の比較にならばそれなりに有効 • MFLOPS (Million FLoating Operations Per Second) • 一秒間に何百万回浮動小数演算ができるか？ • 本来、MIPSより公平な基準だが、平方根や指数などの命令を持つかどうかで問題が生じる→正規化FLOPS • MOPS(Million Operations Per Second)はDSP（信号処理用プロセッサ）など整数演算の実行回数で評価する（積和演算回数だったりする）。

FLOPS 10の6乗 10の9乗 10の12乗 10の15乗 10の18乗 100万 M（メガ） 10億 G（ギガ） 1兆 T（テラ） 1000兆 P（ペタ） 100京 E（エクサ）スーパーコンピュータ数10TFLOPS-10PFLOPS iPhone4S 140MFLOPS アクセラレータ数TFLOPS ハイスペックなPC 50-80GFLOPS 注意！　スーパーコンピュータの性能向上率は1.9倍/年 10PFLOPS=1秒に1京回浮動小数点演算を行う →　「京」の名前の由来

ＣＰＵの性能、コスト、電力 • プログラム実行時間＝　実行する命令数×CPI×クロック周期 • CPI (Clock cycles Per Instruction) • 1命令を実行するのに何クロック掛かるか？ • 今のPOCOはCPI=1 • クロック周期：論理合成結果から求める • クロック周波数= 1/(クロック周期) • コスト：半導体上の面積 • 実装上一定の値以下にする必要がある • コストは面積の4乗に比例とも言われる • 電力：動作電力(Dynamic)とリーク電力 • 動作電力は放熱、電源設計に重要 • リーク電力はバッテリーの保持時間にとって重要 →　論理合成、圧縮結果から求める

クロック周波数の向上 Pentium4 3.2GHz Nehalem 3.3GHz 高速プロセッサのクロック周波数周波数京2GHz 1GHｚ年間40％プロセッサの動作周波数は2003年で限界に達した消費電力、発熱が限界に Alpha21064 150MHz 100MHｚ 2008 1992 2000 年

論理合成と圧縮 • ＶｅｒｉｌｏｇＨＤＬで記述しただけでは実際に動くシステムはできない • 論理合成、圧縮が必要 • 対象デバイスのゲート接続の形に変換 • チップ上でＣＰＵを実現する • Synopsys社Design Compiler　→今回使う • ＦＰＧＡ上でＣＰＵで実現する • ＦＰＧＡベンダのツール　→情報工学実験第2

フロントエンド設計 System-CなどCレベル設計高位合成 Verilog-HDL, VHDLなどハードウェア記述言語でRTL設計論理シミュレーションバグ論理合成・圧縮 Synopsys社 Design Compiler 論理合成後のネットリストバグ論理合成後シミュレーションバックエンド

バックエンド設計 論理合成後ネットリストフロアプラン電源ネット生成レイアウトツール Synopsys社IC Compiler Cadence社SoC Encounter 配置クロックツリー生成配線最適化レイアウトデータ（GDS) エラーエラー DRC, LVS, ERC Formulation検証実配線シミュレーション

Design Compilerによる論理合成 • ライセンスの関係で天野研究室のマシン(sirius.am.ics.keio.ac.jp)を使う • アカウント情報は注意して管理 • ＶＤＥＣのライセンスなので教育研究専用 • 対象デバイスは、オクラホマ大のTSMC 0.18um CMOSプロセスを利用 • ライブラリのセル数が少ない • プロセスが時代遅れ • しかし、商用プロセスのライブラリを利用するためにはＮＤＡ契約が必要、非常に高価 • バッチ処理で用いる • tclファイル(ここではpoco.tcl)にやることを書いておく • design_visionでゲート配線が見れるがこれは参考程度に使う • 実行 dc_shell-t –f poco.tcl | tee poco.rpt レポートファイルがpoco.rptに生成される

poco.tclの中身 set search_path [concat "/home/cad/lib/osu_stdcells/lib/tsmc018/lib/" $search_path] set LIB_MAX_FILE {osu018_stdcells.db } set link_library $LIB_MAX_FILE set target_library $LIB_MAX_FILE read_verilog alu.v read_verilog rfile.v read_verilog poco1.v current_design "poco" create_clock -period 8.0 clk ライブラリの設定ファイルの読み込みクロック周期の設定：８nsec →125MHz

入出力遅延の設定 set_input_delay 2.5 -clock clk [find port "idatain*"] set_input_delay 7.0 -clock clk [find port "ddatain*"] set_output_delay 7.5 -clock clk [find port "iaddr*"] set_output_delay 3.0 -clock clk [find port "ddataout*"] set_output_delay 3.0 -clock clk [find port "daddr*"] set_output_delay 3.0 -clock clk [find port "we"]

入力遅延の設定 ‘0’ 2:0 00 Y THB S 01 １0 pcsel ext ext11 00 0１ ADD 10 A B alu_bsel ＋ comsel zero 7:0 10:0 00 01 10 ‘1’ zero ＋ ext ext0 7:0 rf_a rf_b １ pcjr 0 aadr 10:8 badr 0 PC cadr 1 ‘7’ rf_c rwe rf_csel casel 00 01 10 7:5 2.5ns idatain 7ns ddatain iaddr … … ddataout daddr 命令メモリデータメモリ we

出力遅延の設定 ‘0’ 2:0 00 Y THB S 01 １0 pcsel ext ext11 00 0１ ADD 10 A B alu_bsel ＋ comsel zero 7:0 10:0 00 01 10 ‘1’ zero ＋ ext ext0 7:0 rf_a rf_b １ pcjr 0 aadr 10:8 badr 0 PC cadr 1 ‘7’ rf_c rwe rf_csel casel 00 01 10 0.5nsくらいは必要 8-0.5=7.5ns 7:5 idatain 7ns ddatain 5nsくらいは必要 8-5=3ns iaddr … … ddataout daddr 命令メモリデータメモリ we

残りの設定 ファンアウトは12 set_max_fanout 12 [current_design] set_max_area 0 compile -map_effort medium -area_effort medium report_timing -max_paths 10 report_area report_power write -hier -format verilog -output poco.vnet quit 面積は小さいほど良いそこそこがんばって長い方から10本表示面積、電力を表示ネットリスト生成

クリティカルパスの表示 Point Incr Path -------------------------------------------------------------------------- clock clk (rise edge) 0.00 0.00 clock network delay (ideal) 0.00 0.00 input external delay 2.50 2.50 r idatain[12] (in) 0.00 2.50 r … rfile_1/r7_reg[15]/D (DFFPOSX1) 0.00 7.79 r data arrival time 7.79 clock clk (rise edge) 8.00 8.00 clock network delay (ideal) 0.00 8.00 rfile_1/r7_reg[15]/CLK (DFFPOSX1) 0.00 8.00 r library setup time -0.18 7.82 data required time 7.82 -------------------------------------------------------------------------- data required time 7.82 data arrival time -7.79 -------------------------------------------------------------------------- slack (MET) 0.04 クロックの立上りがスタート遅延時間の合計は7.79 クロックの立上りがエンドセットアップタイム0.18 スラック（余裕）が0.04 動作周波数＝１/（目標周期ースラック）　スラックがマイナスのときは加算する

クリティカルパス ‘0’ 2:0 00 Y THB S 01 １0 pcsel ext ext11 00 0１ ADD 10 A B alu_bsel ＋ comsel zero 7:0 10:0 00 01 10 ‘1’ zero ＋ ext ext0 7:0 rf_a rf_b １ pcjr 0 aadr 10:8 badr 0 PC cadr 1 ‘7’ rf_c rwe rf_csel casel 00 01 10 7:5 idatain 7ns ddatain iaddr … … ddataout daddr 命令メモリデータメモリ we

面積と電力評価 組み合わせ回路 Combinational area: 35211.000000 Noncombinational area: 15104.000000 Net Interconnect area: undefined (No wire load specified) Total cell area: 50315.000000 Total area: undefined （単位は多分um2：　0.2mm角くらい） Cell Internal Power = 2.7845 mW (76%) Net Switching Power = 868.9760 uW (24%) --------- Total Dynamic Power = 3.6535 mW (100%) Cell Leakage Power = 88.5728 nW Ｆ．Ｆ．ここはレイアウトしないとわからないネットを駆動する電力内部を含む全動作電力もれ電力は0.18umではあまり多くない１２５ＭＨｚ動作時、シミュレーションをしていないため、スイッチング率は50％で評価しており結果は目安に過ぎない

演習１．周期を7.8nsにしてＰＯＣＯを論理合成し、動作周波数、面積、電力を評価せよ。２．前回のＬＤＤとＳＴＤを実装したＰＯＣＯを論理合成し、動作周波数、面積、電力を評価せよ。周期は8nsでやってみよ

計算機構成　第 9 回 POCO の性能評価と論理合成テキスト 7 章