Arkitektura Paraleloak

Arkitektura Paraleloak 2. Konputagailu Paraleloak (oinarrizko kontzeptuak) - Sarrera - SIMD konputagailuak - MIMD konputagailuak - Arazo nagusiak - Kalkulu-abiadura Arkitektura Paraleloak IF - EHU

Sarrera • Paralelismoa:“eragiketa” bat baino gehiago “batera, aldi berean” egitea. • datuen tamaina: 4 - 8 - 16 - 32 - 64... bit • aginduen exekuzioa (ILP):segmentazioa, supereskalarrak, VLIW... •datuetan vs programetan

Sarrera • Paralelismoa SIMD: Single-Instruction-Multiple-Data - bektore-prozesadoreak - prozesatze-matrizeak (array processors) - GPU MIMD:Multiple-Instruction-Multiple-DataProzesu/hari asko, erantzuna ahalik eta azkarren emateko (high performance). - multiprozesua, hutsegiteekiko tolerantzia, P kopia (lan-emaria edo throughput-a)

komunikazio-sarea P+M+S/I prozesatze-matrizea SIMD prozesatze-matrizea • Prozesadore sinple asko, memoria gutxi, sarrera/ irteera eragiketetarako aukera. Komunikazio-sare berezia.

komunikazio-sarea front-end Kontrol-proz. P+M+S/I prozesatze-matrizea SIMD prozesatze-matrizea • Kontrol-prozesadoreak sinkronoki exekutatuko duten agindua bidaltzen die prozesadore guztiei (BC). Prozesadore bakoitzak, agindua exekutatzen du edo ez du ezer egiten.

SIMD prozesatze-matrizea Adibidea(X, Y eta Z bektoreak prozesadoreen artean banatuta daude) for (i=0; i<1000; i++) if (Y[i] != 0) Z[i] = X[i] / Y[i]; else Z[i] = X[i]; • Arkitektura mota hau egokia da aplikazio jakin batzuetarako; esaterako, irudiak (seinaleak) prozesatzeko. 1. pausoa: egiaztatu denakY[i]!= 0 (true / false) 2. pausoa:baldin(true)eginZ[i] = X[i] / Y[i] (besteok, ezer ez) 3. pausoa:baldin(false)eginZ[i] = X[i] (besteok, ezer ez)

GPU GP-GPU • erabiltzea kalkulurako, azeleragailu gisa, irudiak (matrizeak) prozesatzeko hardware berezia. • prozesu-unitate (sinple) asko eta egituratuta. • kalkulu independente asko, datu-egitura oso handien gainean. • CUDA arkitektura: memoria hierarkia berezia. ADImemoria-transferentziak (MN-GPU) kalkulu baino denbora gehiago har dezakete.

MIMD konputagailuak • MIMD:Multiple-Instruction-Multiple-Data • P prozesu/hari batera exekutatzen dira. Oinarrizko bi eredu: - memoria partekatua - memoria banatua

P1 P0 Pp–1 prozesadoreak + CM komunikazio-sarea S/I Mm–1 M0 memoria nagusia MIMD konputagailuak • Memoria partekatua(sharedmemory)

P1 P0 Pp–1 Mm–1 M0 S/I MIMD konputagailuak • Memoria partekatua(sharedmemory) - Helbide-espazio bakarra. - Prozesuen arteko komunikazioaaldagai partekatuen bidez. - Komunikazio-sarea: busa (edo urrats anitzeko sare bat). - Izenak: multiprozesadorea, SMP, UMA. - Eskuarki, prozesadore “gutxi”.

Pp-1 P0 Konputagailua: Pr + CM + MN + S/I S/I S/I Mp-1 M0 K K komunikazio-sarea MIMD konputagailuak • Memoria banatua(distributedmemory)

Pp-1 P0 S/I S/I Mp-1 M0 K K MIMD konputagailuak • Memoria banatua(distributedmemory) - Helbide-espazio bat prozesadore bakoitzeko. - Prozesuen arteko komunikazioamezu-ematearen bidez. - Komunikazio-sare orokorrak: hiperkuboa, maila, torua... - Izenak: multikonputagailua, MPP. - Eskuarki, prozesadore “asko”.

S/I S/I K K MIMD konputagailuak • Beste aukera bat: memoria partekatua baina fisikoki banatua. - Helbide-espazioa bakarra da, baina erabilera ez da homogeneoa: memoria-hierarkia bat osatu da. - Prozesuen arteko komunikazioaaldagai partekatuen bidez egiten da (logikoki), eta mezu-ematearen bidez gauzatzen da. - Izenak: DSM, NUMA (MPP). Pp-1 P0 Mp-1 M0

MIMD konputagailuak • Izenak: - SMP: memoria partekatuko multiprozesadorea, eskuarki prozesadore kopuru txikia, bus batez komunikatuta. - MPP: prozesadore kopuru handiko sistema paraleloa, memoria partekatukoa zein banatukoa. Oro har, makinarik azkarrenak, berariazko komunikazioko zein kalkuluko hardwarea eta softwarea dituzten sistemak. Baina garestiak. Egitura hierarkikoak antola daitezke (adib., nodoak SMP sistemak dira).

PC PC PC ethernet PC PC MIMD konputagailuak • Izenak: - Cluster:helburu orokorreko hardware zein soft-warearekin egindako sistema paraleloa. Kostua/abiadura erlazioa oso ona da. Sinpleena: PC / ethernet (Beowulf). Commodity / Custom Gero eta gehiago, sistema paralelo orokorra.

MIMD konputagailuak • Izenak: - Konstelazioa (constellation): cluster bat, non nodo kopurua nodo bakoitzeko prozesadore kopurua baino txikiagoa baita.

P agindu-jarioak SMP 1 N C busa SISD 1 memoria partekatua MN datu-jarioak N MIMD SIMD P MPP/NUMA Clusters C M Prozesatze-matrizeak Bektore-konputagailuak sare orokorra memoria banatua Laburpena

Helbide-espazioa partekatuapribatua Memoria zentralizatua (busa) banatua (sarea) Laburpena SMP - DSM, NUMA MPP

Arazoak  Sistema paraleloetan gainditu behar diren arazo batzuk: - Nola kudeatzen da sistema osoa? - Nola banatzen da algoritmo bat P prozesutan? Kode guztia paraleloan exekuta al daiteke? - Lan-banaketa orekatua da, edo, adibidez, exekuzio-karga “% 80 - % 20” banatu da? (load balancing)

Arazoak  Sistema paraleloetan gainditu behar diren arazo batzuk: - Non daude datuak? Nola mantentzen da datuen koherentzia? - Prozesu guztiak independenteak dira? Sinkronizatu egin behar dira? - Prozesadoretik prozesadorera bidali beharko dira datuak? Nola?

Tp Tkom Texe prozesadorekopurua Arazoak Ordaindu behar direngainkargak 1. Komunikazioa Tp = Texe + Tkom

Arazoak Ordaindu behar direngainkargak 2. Lan-banaketaren desoreka Adibidez: 6 prozesu independente, antzeko exekuzio-denborak → Ts = 6T ▪3 prozesadoreren artean (2 + 2 + 2) Tp = 2T = Ts/3 ▪4 prozesadoreren artean (2 + 2 + 1 + 1) Tp = 2T = Ts/3 !

Arazoak Ordaindu behar diren gainkargak 3. Cachearen erabilera Cache-blokeetako datuak (ber)erabili behar dira (ingurutasuna). Adibidez, baldin A1 eta A2 ondoz ondoko memoria-posiziotan badaude, prozesadore berean prozesatzea mereziko du, cacheko asmatze-tasa handitzeko.

Arazoak Aplikazio motak - ale xeheko paralelismoa ataza asko, txikiak komunikazioa: maiz, datu gutxi - ale larriko paralelismoa ataza gutxi, handiak komunikazioa: noizbehinka, datu asko

Eraginkortasuna Helburua: 1 programa bera azkarrago exekutatzea. 2 programa handiagoak denbora berdinean exekutatzea. Azelerazio-faktorea / Eraginkortasuna af = Ts / Tp(onena: P-rekiko linealki haztea) erag = af / P (onena: P-rekiko independentea) Kasurik onena: Tp = Ts / P → af = P eta erag= 1

Amdahl 1Oro har, zati bat paraleloan eta beste bat seriean: Tsp = f Tp + (1-f) Ts Beraz, hau da benetako azelerazio-faktorea (Amdahl-en legea): af = Ts / Tsp = Ts / [f Ts/P + (1-f) Ts] af = P / [f + (1-f) P] → 1 / (1-f) !

Amdahl 1Amdahl-en legea af = P / (f + (1-f) P) → 1 / (1-f)

Ts (1-f) Ts f Ts tamaina handiagoa (xP) Ts’ = ((1-f) + f P) Ts (1-f) Ts f Ts P P prozesadore Tp’ = Ts paraleloan (1-f) Ts f Ts Gustafson 2Maiz, paralelismoa ez da azkarrago exekutatzeko erabiltzen, baizik eta tamaina handiagoko atazak exekutatu ahal izateko. seriean af = Ts’ / Tp’ af = (1-f) + f P

Gustafson 2Gustafson-en legea af = (1-f) + f P

2Gustafson-en legea af = (1-f) + f P Arkitektura Paraleloak IF - EHU K. Par. | Gustafson any questions?

Arkitektura Paraleloak