その他の並列アーキテクチャ

その他の並列アーキテクチャ コンピュータアーキテクチャ特論 hunga＠am．ics．keio．ac．jp テキスト　pp.10-12（該当個所なし）

Ｆｉｎｅ　ｇｒａｉｎ　ＳＩＭＤＣｏａｒｓｅ　ｇｒａｉｎ　マルチプロセッサコントロールフロー制御バス結合型ＵＭＡスイッチ結合型ＵＭＡＳｉｍｐｌｅ　ＮＵＭＡＣＣ－ＮＵＭＡＣＯＭＡＭＩＭＤＮＵＭＡＮＯＲＡマルチコンピュータデータフロー制御混合制御要求駆動シストリックアレイその他

全プロセッサが同一命令で動作 • 柔軟性が低い命令 SIMD 命令メモリ演算プロセッサデータメモリ

ＳＩＭＤ型の分類 • 粗粒度型：各ノードで浮動小数点演算処理が可能 • ILLIAC-IV，BSP,GF-11 • 最近の高性能CPUのマルチメディア命令 • 細粒度型：各ノードは１bitまたは数bitの演算しかできない • ICLDAP,CM-2，MP-2 • コネクションマシンは応用分野を人工知能に拡大（CmLispの功績）

CM-2のプロセッサ Flags A B F OP C Context s c 256bit memory 1bit serial ALU

P P P P P P P P P P P P P P P P CM2のプロセッサチップ 4096チップで 64KPE 命令１チップ構成 Router 4x4 Processor Array 12links 4096 Hypercube connection 256bit x 16 PE RAM

SIMD型の将来 • 粗粒度SIMD • 大規模なものの復活はないだろう • マイクロプロセッサの高速化技術として小規模なものが生き残る • 細粒度SIMD • 画像処理等で圧倒的に有利 • CM2　→　CM5のようにマルチプロセッサ化した方が性能が高い

シストリックアーキテクチャ Data列ｘ演算アレイ Data列ｙ特定の演算能力を持つアレイ列に一定の間隔でリズミカルにデータを送りこみ、並列演算

a11 a12 0 0 a21 a22 a23 0 0 a32 a33 a34 0 0 a43 a44 帯行列の行列積　y=Ax y0 y1 y2 y3 x0 x1 x2 x3 = a ｙｉｙｏＸ＋ｙｏ＝ａｘ＋ｙｉ x

a11 a12 0 0 a21 a22 a23 0 0 a32 a33 a34 0 0 a43 a44 帯行列の行列積　y=Ax a23 a32 a22 a12 a21 a11 Ｘ＋ x1

a11 a12 0 0 a21 a22 a23 0 0 a32 a33 a34 0 0 a43 a44 帯行列の行列積　y=Ax a33 a23 a32 a22 a12 a21 y1=a11x1 Ｘ＋Ｘ＋ x2 x1

a11 a12 0 0 a21 a22 a23 0 0 a32 a33 a34 0 0 a43 a44 帯行列の行列積　y=Ax a34 a43 a33 a23 a32 a22 y1=a11 x1+ a12 x2 y2=a21 x1 X ＋ x3 x2 x1

a11 a12 0 0 a21 a22 a23 0 0 a32 a33 a34 0 0 a43 a44 帯行列の行列積　y=Ax a44 a34 a43 a33 a23 a32 y2=a21 x1+ a22 x2 Ｘ＋Ｘ＋ x2 x3

a11 a12 0 0 a21 a22 a23 0 0 a32 a33 a34 0 0 a43 a44 帯行列の行列積　y=Ax a44 a34 a43 y2=a21 x1+ a22 x2+ a23 x3 a33 y3= a32 x2 Ｘ＋ x3 x2

シストリックアーキテクチャの特長 • 入出力ピン数が少ない • 単純な同期制御 • 近接接続のみで構成可能 • 1980年代Kungらの提案により注目されたがLSI実装面積の不足により普及しなかった他の「VLSIアルゴリズム」と共に復活の可能性

データフローアーキテクチャ • データをトークンとして考え、到着と共に計算処理が駆動される。 • 記憶要素を明示的に指定しない。 • アルゴリズムの持つ並列性を最大限に引き出すことができる。

データフローグラフ ｄｅｃｘａｂ＋＋ｘ（ａ＋ｂ）ｘ（ｃ＋（ｄｘｅ））

命令実行サイクル 命令読み出しデータ待ち合せデータ読み出し命令読み出し命令実行命令実行データ格納あて先指定データフローマシン通常のプロセッサ

データフローマシンの問題点 • 純粋なデータフローマシン（Dennisのマシン）は無駄が多い。 • 色付きトークン等の導入でデータフローグラフの再利用。 • 構造の複雑化 • 演算器レベルの処理時間とそれに要する時間の比率の問題 • 局所性の無視

日本はデータフローマシン研究の世界的な中心（だった）日本はデータフローマシン研究の世界的な中心（だった） • 電総研　Sigma-I　：科学技術用 • 電総研　EM-4/EM-X:演算の粒度を高める工夫 • NTTDFM：関数型言語を指向。LenientConsの提案 • NECImPP：画像処理用のチップ。商用化を目指した

要求駆動マシン（リダクションマシン、デマンドドリブンマシン）要求駆動マシン（リダクションマシン、デマンドドリブンマシン） Z：（／，ｘ，ｙ）ｙ：　（－，ａ，ｂ）ｘ：　（＋，ａ，ｂ）ｂ：　（５）ａ：　（３）

要求駆動マシン • 値が必要になった時点で計算を駆動 • cf.　データフローマシン • データフローマシンに比べて並列性は小さいが、無駄は少ない（のではないか） • 実装例はほとんどない（どうやって実装するんだ？？）

ReconfigurableSystem（CustomComputingMachine） • SRAM型プログラマブルデバイスから構成されるシステム上で問題の解法アルゴリズムを直接ハードウェア化して実行する • 専用マシンのスピード • 汎用マシンの柔軟性 • プログラム格納型計算機とはまったく異なる原理でしかも堂々たる体系を作ることができる

SRAM(ConfigurationMemory） 5入力テーブル SRAM型FPGA (FieldProgrammableGateArray) 2F．F． I/O LogicBlock Switch

SRAM(ConfigurationMemory） SRAM型CPLD (ComplexProgrammableLogicDevice) I/O LogicBlock Switch

最近の状況 • Xilinx社Virtex、ALTERA社APEX等新世代が登場 • ｹﾞｰﾄ数は500Kｹﾞｰﾄに及ぶ（メモリ等を換算する場合が多いが、、、） • 最大動作周波数は設計次第だが30MHz程度ならば容易に実現可能 • 内部データ格納用SRAM • PartialReconfiguration、マルチコンテキスト等の新機能を持ったデバイスの登場

ReconfigurableSystemの分類 • スタンドアローン型 • 独立性の高い専用システム • Splash　１・２，　RM-I,II,III,IV，　RASH（三菱）、ATTRACTOR（NTT） • コ・プロセッサ型 • 汎用プロセッサの一部の処理を高速化 • PRISMI,II、DISC-II、PipeRench、CHIMAERA，Chameleonなど

ReconfigurableSystemの発達 StandAlone Co-processor NewDevice 1990年第1回FPL SPLASH MPLD PRISM-I 1992年第1回JapaneseFPGA/PLDConf. SPLASH-2 PRISM-II RM-I WASMII 1993年第1回FCCM RM-II CacheLogic RM-III DISC RM-IV 1995年 YARDS Mult．ContextFPGA RM-V DISC-II HOSMII ATTRACTOR FIPSOC Cont．Switch．FPGA RASH PipeRench DRL PCA 2000年 CHIMERA Chamereon

米国計算機科学センター 文字列検索、画像処理、ＤＮＡの塩基配列間の距離を求める問題でCray-ＩＩの330倍の性能を発揮直線シストリックアレイ構造 VHDL,　並列Cによるプログラミング AnnapolisMicroSystems社より商用化（WILDFIRE) Splash-2(Arnoldら 92)

Ｓｐｌａｓｈ-ＩＩ　 • 米国計算機科学センタ • 文字列検索、画像処理、ＤＮＡの塩基配列間の距離を求める問題でCray-IIの330倍の性能を発揮 • 直線アレイ構造 • VHDL,並列Cによるプログラミング

ＦＰＧＡ ＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡＦＰＧＡ mem． mem． mem． mem． mem． mem． mem． mem． mem． mem． mem． mem． mem． mem． mem． mem． RM-IV(神戸大学) FPIC Ｉｎｔｅｒｆａｃｅ

disk RASH(三菱電機) CompactPCI bus EXE- ボード CPUボードディスプレイ RASH unit Ethernet LAN CD 1Unit: 最大6枚のEXEボードとCPUボード（Pentium) 複数のUnitを接続可能 &p This slide is supported by Dr.Nakajima of Mitsubishi.

Clocks／Cont. signals Local-bus EXEボードの構成リンク接続とバス接続 2系統のクロック PCIバスＩ／ＦＳＲＡＭ搭載 DRAM付加ボード搭載可 PCI-bus PCI-bus I/F SRAM （2MB） PCI Local-bus EXE-board controller FPGA FPGA FPGA FPGA FPGA FPGA FPGA FPGA FPGAAlteraFLEX10K100A(62K-158KGate) &p

FPGA FPGA RISC RISC ATTRACTOR（NTT）高速シリアルリンク（1Gbps） ATM I/O RAM （LUT) ATM SW Buffer RISC RISC RISC RISC Ethernet CompactPCI MPU ATM通信処理に特化したシステム多種類のボードを接続 Mem. ボードレベルで再構成可能

RHiNETｰ１／NI（RWCP＋KeioU.) NI board Interconnecting PC nodeswith flexible NI

RHiNET-1/NI：　FlexibleInterface Optical Interconnect Region Buffer AddressTranslate Table FIFO PacketBuffer PrimitiveHandler （FLEX10K) Twin Memory ＰＣＩ　Interface Variousmessagehandlingprimitives canbechanged

RHiNET-1/NI

Optical Interconnection Module • 133MHz operation 1.5Gbps bandwidth

コ・プロセッサ型 • CoreCPUと密接続 • プログラムの一部を高速化 • 最近、CoreCPUと同一チップ上に実装が可能になり、様々なシステムが提案されている • NAPA,Garp,Chameleon,Chimaera,PipeRench

PRISMII（Brown大学） Am2955 CPU ＤａｔａＡｄｄｒｅｓｓＣｏｎｔｒｏｌ BootROM Sｗｉｔｃｈ DRAM BurstMode MemoryController DRAM ＦＰＧＡ　ＭｏｄｕｌｅＦＰＧＡ　ＭｏｄｕｌｅＦＰＧＡ　Ｍｏｄｕｌｅプログラムのよく使う部分を高速化コプロセッサ型の元祖

UCBのプロジェクト MIPSコアとReconfigurable Arrayが強結合しメモリ階層を共有コンパイラの静的解析によりループ処理を抽出しハードウェア化画像処理などでUltrasparcの43倍の性能 Garp (Hauserら 97) Memory queue MIPS Cache Q Q Q Crossbar 32bit buses x 5 ReconfigurableArray

Brigham Young大学 動的な部分書き換え機能を用いた汎用プロセッサ任意のカスタム命令を基本命令セットに追加可能各モジュールをユーザが設計 C言語上から関数として利用 FPGAをカスタム命令モジュールのキャッシュのように使用 DISC (Wirthlinら 95) FPGA 3 Processor Core System Memory FPGA 1 Bus I/F Configuration Controller FPGA 2 Custom Instruction Space Host P/C

Northwestern大学 スーパスカラプロセッサのデータパスに可変構造アレイを挿入シャドウレジスタファイルから9レジスタを一度に読込み Out of Order制御 10～20%の高速化 CHIMAERA (Yeら 2000) シャドウレジスタファイルレジスタファイル可変構造アレイ uPコアコントローラ

Chameleon（Cｈameleon社）　 • FieldProgrammableSystemLevelIntegratedCircuits(FPSLICs) • 疎粒度のReconfigurableProcessingFabric、RISCCore、PCIController、MemoryController、DMAController、SRAMを1チップ上に混載 • 信号処理、通信プロトコル処理用、高速DSPの5-10倍の性能

Chameleon CS2112 32-bit PCI Bus 64-bit Memory Bus PCI Cont. RISC Core Memory Controller 128-bit RoadRunner Bus Configuration Subsystem DMA Subsystem Reconfigurable Processing Fabric 160-pin Programmable I/O

CTL中の最大８命令をDPU中で実行可能 CTLは、同じサイクルで次の命令を決定可能新しいbit　ｓｔｒｅａｍをloadすることで構成を変えられる LM DPU CTL Tile0 Slice0 Reconfigurable Processing Fabricの構造 LM DPU CTL Tile0 Slice3 108のDPU(DataPathUnit)が４つのSlice（各３Tile）を構成 1Tile:　９DPU＝32bit ALU X 7 16bit + 16bit乗算器　X　２

DPUの構成 OP：C、Verilog演算子サポート DPU単位のSIMD,パイプライン Instruction Register ＆ Mask Routing MUX OP Register Barrel Shifter Register Register ＆ Mask Routing MUX

Reconfigurable Systemの問題点 • SRAM型FPGAの演算器は専用CPU,DSPよりも10倍遅く、10倍集積度が劣る • メモリとの接続が脆弱 • アルゴリズムを変換するための標準的方法が存在しない • 問題サイズがシステムサイズを越えるとお手上げ

問題の解決　１ • SRAM型FPGAの演算器は専用CPU,DSPよりも10倍遅く、10倍集積度が劣る • 最新のプロセス利用により差が縮まる • 粗粒度FPGA • CPUとの混載 • メモリとの接続が脆弱 • 大規模SRAMとの混載 • DRAM混載

FPAccA(広島市立大) RoutingMatrix Arrayoffloating ALU(Add/Mult） model2(0．35um) 12ｘ　25MFLOPS ＡＬＵ

その他の並列アーキテクチャ

その他の並列アーキテクチャ

Presentation Transcript