korszakv lt s a processzorok fejl d s ben
Download
Skip this Video
Download Presentation
Korszakváltás a processzorok fejlődésében

Loading in 2 Seconds...

play fullscreen
1 / 105

Korszakváltás a processzorok fejlődésében - PowerPoint PPT Presentation


  • 117 Views
  • Uploaded on

Korszakváltás a processzorok fejlődésében. Sima Dezső 20 14 őszi félév (verzió 3.5). Áttekintés. 1 Processzorok teljesítménye. 2 A processzorok hatékonysága. 3 A processzorok hatékonyságának stagnálása által kiváltott fejlődési főirányok. 4 Az órafrekvencia erőteljes növelése.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Korszakváltás a processzorok fejlődésében' - callum-mcknight


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
korszakv lt s a processzorok fejl d s ben

Korszakváltása processzorok fejlődésében

Sima Dezső

2014őszi félév

(verzió 3.5)

slide2

Áttekintés

1 Processzorok teljesítménye

2 A processzorok hatékonysága

3 A processzorok hatékonyságának stagnálása által kiváltott fejlődési főirányok

4 Az órafrekvencia erőteljes növelése

5 A második hatékonysági korlát

6 A disszipációs korlát

7 Párhuzamos buszok frekvenciakorlátja

8 EPIC architektúrák/processzorok

9 Paradigmaváltás

slide3

1.1. Bevezetés (1)

Számításiteljesítménymegadása

Abszolútteljesítmény

Relatívteljesítmény

Eredményesen végrehajtott utasítások száma/sec

Egy adott alkalmazási területen

jellemzi a teljesítményt

Egy benchmark programcsomagvalamelyreferenciarendszerenés a vizsgáltrendszerenmértfutásiidőinekösszevetéseazalábbiértelmezéssel (mértaniközép):

Eredményesenvégrehajtottműveletekszáma/sec (SIMD)

fc: Órafrekvencia

IPC: Utasítások száma/ciklus

OPI: Műveletek száma/utasítás

Pl: SPECint92, SPECint_base2000

Pl:MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS

(Paalkalmazásfüggő, max. teljesítményjellemzésére)

slide4

1.1. Bevezetés (2)

Példa SPECint eredményekre:

1.1. ábra: Programcsomag egyes programjainak futásidő arányai

Forrás: http://www.spec.org

slide5

1.1. Bevezetés (3)

Processzorok abszolút teljesítménye az utasításokra vonatkoztatva:

az eredményesen végrehajtott utasítások száma/sec

ahol:

fc : órafrekvencia

IPCeff : az óraciklusonként eredményesen végrehajtott utasítások száma

slide6

1.1. Bevezetés (4)

Processzorok hatékonysága (H):

az óraciklusonként eredményesen végrehajtott utasítások száma

azaz

H = IPCeff

így

P = fc * H

slide7

1.1. Bevezetés (5)

Grafikai teljesítmény

megadása

pl. játékok futtatásakor

http://www.hardwarecanucks.com/forum/hardware-canucks-reviews/53054-intel-i7-3770k-ivy-bridge-cpu-review-17.html

slide8

1.2. A processzor teljesítmények növekedése (1)

1.2. ábra: Az x86 alapú egymagos Intel processzorok FX-teljesítményének növekedése

slide9

1.2. A processzor teljesítmények növekedése (2)

3.

1.4. ábra: A fixpontos teljesítmények növekedése (általában - 2)

Forrás: F. Labonte, www-vlsi.stanford.edu/group/chart/specInf2000.pdf

slide11

2.2. A processzorok hatékonyságának növekedése (1)

2.1. ábra: Intel processzorok hatékonysága

slide12

2.2. A processzorok hatékonyságának növekedése (2)

2.2. ábra: Processzorok teljesítményének/hatékonyságának növekedése (általában)

Forrás:J. Birnbaum, „Architecture at HP: Two decades of Innovation”, Microprocessor Forum, October 14, 1997.

slide13

2.3. A hatékonyság növelés hozzájárulása a teljesítmények növeléséhez (2. generációig)

?

A második generációig az órafrekvencia és a hatékonyság növelése egyenlő arányban járultak hozzá a teljesítmény növeléséhez.

slide14

2.4. A hatékonyság növekedése és annak korlátja

2.4. ábra: Processzorok hatékonyságának növekedése a 2. gen. szuperskalárokig

slide15

2.5. A hatékonyság növelésénekfőbb forrásai (1)

Általános célú feldolgozást tekintve

Szóhossz növelése

Feldolgozási szélesség növelése

slide16

2.5. A hatékonyság növelésénekfőbb forrásai (2)

Szóhossz növelése

8 bit (8008)  16 bit (286)

32 bit (386DX)

 64 bit adatszélesség (Pentium)

 64 bit (Pentium 4 EMT)

slide17

2.5. A hatékonyság növelésénekfőbb forrásai (3)

Feldolgozási szélesség növelése

Időbeli párhuzamosság bevezetése, növelése

1. és 2. generációs futószalag processzorok (386DX, 486DX)

1

Kibocsátási párhuzamosság bevezetése, növelése

1. és 2. generációs szuperskalárok (Pentium, Pentium Pro)

2. Gen.

1. Gen.

4

2

slide18

4

2

1

2.5. A hatékonyság növelésénekfőbb forrásai (4)

A feldolgozási szélesség növelése (összefoglalás)

pipeline

superscalar

1. Gen.

2. Gen.

slide19

2.5. A hatékonyság növelésénekfőbb forrásai (5)

2. gen.

szuperskalár

  • gen.

szuperskalár

Stagnálás

Futószalag

~10x/10 év

2.5. ábra: Processzorok hatékonyságának növekedése a 2. gen szuperskalárokig

slide20

2.5. A hatékonyság növelésének első korlátja (1)

2. generációsszuperskalárok(széles szuperskalárok)

Feldolgozási szélesség

4 RISC utasítás/ciklus

~3 CISC utasítás/ciklus

Forrás: Wall: Limits of ILP, WRL TN-15, Dec. 1990

2.3. ábra: A feldolgozás szélessége és az általános célú alkalmazásokban rejlő párhuzamosság mértéke a 2. generációs (széles) szuperskalárokban

slide21

2.5. A hatékonyság növelésének korlátja (2)

Általános célú alkalmazásokban:

2. generációs szuperskalárok szélessége már megközelíti rendelkezésre álló ILP mértékét

Általános célú alkalmazásokban a 2. generációs (széles) szuperskalárokkal kezdődően a hatékonyság növelésének lehetőségea feldolgozási szélesség nővelésével kimerült

slide22

3. A processzor hatékonyság stagnálása által kiváltott fejlődési főirányok áttekintése

EPIC architektúrák kifejlesztése

Az órafrekvencia erőteljes növelése

(4. – 7. pontok)

(8. pont)

A fejlődés fővonala

slide23

4. Az órafrekvencia erőteljes növelése

4.1. Az órafrekvencia növelésének forrásai (1)

Az órafrekvencia növelése

A futószalag fokozatok logikai hosszának csökkentése

A gyártási technológia vonalvastagságának csökkentése

slide24

4.1. Az órafrekvencia növelésének forrásai (2)

4.1. ábra: Az Intel gyártási technológiák fejlődése

Forrás: D. Bhandarkar: „The Dawn of a New Era”, 11. EMEA, May, 2006.

slide25

Órajel

Órajel

n x FO4

4.1. Az órafrekvencia növelésének forrásai (3/1)

Egy futószalag fokozat logikai hossza (n x FO4)

FO4: Fan-out of Four

A “leghosszabb”futószalag fokozat logikai hosszahatározza meg a max. órafrekvenciát

(a jelnek át kell érnie!).

Órajel

slide26

4.1. Az órafrekvencia növelésének forrásai (3/2)

A futószalag logikai hosszának csőkkentése a futószalag fokozatok számának növelésével:

F

W

D

E

D1

D2

E1

E2

W1

W2

F2

F1

slide27

4.1. Az órafrekvencia növelésének forrásai (4)

4.3. ábra: Futószalag fokozatok logikai hossza processzorokban (FO4)

Forrás: F. Labonte www-vlsi.stanford.edu/group/chart/CycleFO4.pdf

slide28

P4 Prescott

(~30)

Pentium 4

(~20)

Athlon-64

(12)

Athlon

K6

(6)

(6)

4.1. Az órafrekvencia növelésének forrásai (5)

No of pipeline stages

40

30

*

Core Duo

20

*

Conroe

Pentium Pro

(14)

(~12)

*

Pentium

*

*

10

(5)

*

*

*

Year

1995

2005

2000

1990

4.2 ábra: A futószalag fokozatok száma Intel és AMDprocesszorokban

slide29

4.2. Az órafrekvenciák növekedési üteme (1)

4.4. ábra: Az x86 alapú Intel processzorok órafrekvenciájának növekedése

slide30

4.2. Az órafrekvenciák növekedési üteme (2)

4.5. ábra: Az órafrekvenciák növekedési üteme (általában)

slide31

4.3. Az órafrekvencia erőteljes növelésének konzekvenciái

4.3.1. Áttekintés

RISC processzorok kiszorulása

(4.3.2)

Fejlődési korlátok megjelenése

(4.3.3)

slide32

4.3.2. RISC processzorok kiszorulása (1)

4.6. ábra: RISC processzorok kiszorulása

slide33

A legtöbb RISC processzorcsalád fejlesztésének leállítása, mint pl. MIPS R családja, HP Alpha és PA családjai, illetve a PowerPC Consortium PowerPC családja

4.3.2. RISC processzorok kiszorulása (2)

1995-2000: A CISC processzorok átvették a vezetést a teljesítmény versenyben, mivel magasabb órafrekvenciáról indulva (RISC) nem volt tartható az azonos iramú frekvencia növelés, mint alacsonyabb frekvencia értékről (CISC)

1997: Intel és HP bejelentették az IA-64/Merced architektúrát/processzorcsaládot, mint a 32-bites x86 architektúrát leváltó új generációt

slide34

4.3.3. Fejlődési korlátok megjelenése (1)

Hatékonysági korlát

(5. pont)

Disszipációs korlát

(6. pont)

Párhuzamos buszok frekvenciakorlátja

(7. pont)

slide35

4.3.3. Fejlődési korlátok megjelenése (2)

Órafrekvenciák

stagnálása

Hatékonysági korlát

(5. pont)

Disszipáció csökkentés

előtérbe kerülése

Disszipációs korlát

(6. pont)

Soros buszok

megjelenése

Párhuzamos buszok frekvenciakorlátja

(7. pont)

slide36

5. A második hatékonysági korlát

5.1. Áttekintés

Alapvető ok:

A processzor és a memória közötti sebességolló

(növekvő órafrekvenciákon tágul)

slide37

5.1. Áttekintés (2)

A sebességolló konkrét megnyilvánulásai:

DRAM késleltetési ideje

Memória átviteli rátája

Cache tárak elérési ideje

A processzor busz átviteli rátája

5 1 ttelomt s 3
5.1 Áttelomtás (3)

DRAMs for general use

DRAMs with parallel bus connection

DRAMs with serial bus connection

Commodity DRAMs

Synchronous DRAMs

Asynchronous DRAMs

FP

(~1974)

XDR

(2006)1

DRDRAM

(1999)

DRAM

(1970)

SDRAM

(1996)

DDR

(2000)

DDR2

(2004)

DDR3

(2007)

FBDIMM

(2006)

FPM

(1983)

EDO

(1995)

Year

of intro.

Challenging DRAM types

Main stream DRAM types

1 Used in the Cell BE and the PlayStation 3, but not yet in desktops or servers

Ábra: Legfontosabb DRAM típusok

The scene of main memories

slide39

5.2. A processzor és a memória közötti sebességolló (2)

Read

latency1

(ns)

200

200

*

180

160

150

*

140

120

100

100

*

80

80

*

*

70

80

60

*

60

*

*

50

60

*

*

40

50

*

40

30

*

*

25

40

*

*

35

*

*

30

*

20

24

22

92

Year

81

82

83

87

88

89

1990

91

93

94

95

97

98

99

02

84

96

01

03

04

05

07

85

86

06

2000

Desktop

P4

PII

AT

386 DX

486 DX

P

PIII

Pentium D

PC

processor

Core2

Chipset

430FX

440ZX

965

430VX

915

420TX

8152

8202

850

845

8453

P35

430LX

DRAM

type

FPM

FPM

DRAM

FPM

EDO

FPM

DDR3

DDR2

DDR

DRAM

DRAM

DRAM

DRAM

FPM

SDRAM

DDR

DDR2

DDR2

EDO

FPM

SDRAM

EDO

SDRAM

RDRAM

SDRAM

RDRAM

Typ. DRAM

size (bits)

128 M

64 K

256 M

16 K

64 K

64 K

256 K

256 K

64 M

64 M

256 K

512 M

256 M

4 M

16 M

512 M

4 M

256 M

512 M

1 M

1 M

16 M

128 M

128 M

1 M

16 M

512 M

128 K

128 K

1 G

64 M

1 G

256 K

1 G

4 M

64 M

256 M

256 M

1 G

2 G

512 M

1 Read latency of DRAM, FPM, EDO and BEDO parts = tRAC (Row access time (time from row address until data valid))

Read latency of SDRAM parts = CL + tRCD (Cslumn delay + Row to Cloumn delay)

2 The 815 chipset support SDRAM while the 820 RDRAM

3 A new revision of the 845 supports DDR instead of SDRAM

5.1b ábra: DRAM chipek késleltetési ideje

slide40

5.2. A processzor és a memória közötti sebességolló (3)

Memory latency

ns

300

210

*

200

RDRAM

200

*

160

*

155

*

140

135

*

120

*

110

*

*

85

100

*

70

*

50

Year

2000

02

92

01

03

04

05

07

08

81

82

83

87

88

89

1990

91

93

94

95

97

98

99

06

84

96

85

86

Desktop

Pentium D

386 DX

486 DX

P

PPro

Core2

PC

AT

PII

PIII

P4

processor

(8088)

(286)

430FX

440ZX

965

430VX

915

420TX

8152

8202

850

845

8453

P35

430LX

Chipset

FPM

FPM

DRAM

type

DRAM

FPM

EDO

FPM

DDR3

DDR2

DDR

DRAM

DRAM

FPM

SDRAM

DDR

DDR2

DDR2

EDO

FPM

SDRAM

EDO

SDRAM

DRAM

DRAM

RDRAM

SDRAM

RDRAM

Typ. DRAM

parts (bits)

128 M

256 M

16 K

64 K

256 K

64 M

64 M

256 K

256 K

512 M

64 K

64 K

256 M

4 M

16 M

512 M

4 M

256 M

512 M

1 M

16 M

128 M

128 M

1 M

1 M

16 M

512 M

1 G

64 M

128 K

128 K

1 G

1 G

64 M

256 M

256 M

256 K

4 M

1 G

2 G

512 M

5.1c ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ns)

slide41

5.2. A processzor és a memória közötti sebességolló (4)

Memory latency

in proc. cycles

1000

500

280

240

220

300

*

*

180

*

200

RDRAM

*

85

100

*

50

40

*

30

20

10

*

10

5

3

*

3

2

1

1

*

*

1

Year

2000

01

02

03

04

05

81

82

83

87

88

89

1990

91

92

93

94

95

97

98

99

07

08

84

96

06

85

86

Pentium D

Core2

386 DX

486 DX

P

PPro

Desktop

PC

AT

PII

PIII

P4

processor

(8088)

(286)

430FX

440ZX

965

430VX

915

420TX

8152

8202

850

845

8453

P35

430LX

Chipset

FPM

FPM

DRAM

FPM

EDO

FPM

DDR3

DDR2

DDR

DRAM

DRAM

FPM

SDRAM

DDR

DDR2

DDR2

EDO

FPM

SDRAM

EDO

SDRAM

DRAM

type

DRAM

DRAM

RDRAM

SDRAM

RDRAM

Typ. DRAM

parts (bits)

128 M

256 M

16 K

64 K

256 K

64 M

64 M

256 K

256 K

512 M

64 K

64 K

256 M

4 M

16 M

512 M

4 M

256 M

512 M

1 M

16 M

128 M

128 M

1 M

1 M

16 M

512 M

1 G

64 M

128 K

128 K

1 G

1 G

64 M

256 M

256 M

256 K

4 M

1 G

2 G

512 M

5.1d ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ciklusokban)

slide42

5.2. A processzor és a memória közötti sebességolló (5)

5.2. ábra: Memóriák relatív átviteli rátája (D: kétcsatornás)

slide43

5.2. A processzor és a memória közötti sebességolló (6)

5.4. ábra: A processzor busz (FSB) relatív átviteli rátája

slide44

5.2. A processzor és a memória közötti sebességolló (7)

5.3. ábra: Intel Pentium 4 L2 cache tárak elérési ideje

slide45

5.3. A 3. generációs szuperskalárok hatékonysága (1)

FSB órafrekvencia

Memoria átviteli rátája

Háttértár típusa

5.5. ábra: Intel Pentium III és Pentium 4 processzorainak hatékonysága fixpontos feldolgozás esetén

slide46

5.3. A 3. generációs szuperskalárok hatékonysága (2)

5.6. ábra: AMD Athlon, Athlon XP és Athlon 64 processzorainak hatékonysága fixpontos feldolgozás esetén

slide47

5.3. A 3. generációs szuperskalárok hatékonysága (3)

5.7. ábra: A fejlett szuperskalárok hatékonyságát megszabó legfontosabb tényezők

slide48

5.3. A 3. generációs szuperskalárok hatékonysága (4)

5.8. ábra: Intel és AMD processzorok hatékonyságának összehasonlítása

slide49

5.3. A 3. generációs szuperskalárok hatékonysága (5)

5.9. ábra: Intel és AMD processzorok tervezési filozófiájának összehasonlítása

slide50

5.3. A 3. generációs szuperskalárok hatékonysága (6)

A processzorok hatékonysági korlátjának konzekvenciája:

Növekvő órafrekvenciákon egyre csökkenő teljesítménytöbblet

Magasabb órafrekvencia

Magasabb disszipáció

Az órafrekvenciák stagnálása

slide51

6. A disszipációs korlát (1)

Disszipáció (D) :

Dinamikus

Statikus

Ds=V*Ileak

Dd=A*C*V2*fc

ahol:

A: aktív kapuk részaránya

C: a kapuk összesített kapacitása

V: tápfeszültség

fc: órafrekvencia

Ileak: szivárgási áram

slide52

6. A disszipációs korlát (2)

In addition: higher fc requires higher Vdd (Vdd ≈ const x fc) []

Figure: Core voltage (Vdd) vs. clock frequency (fc) for Intel’s Westmere processors []

http://www.anandtech.com/show/3742/intels-core-i5655k-core-i7875k-overclocked-and-analysed-/2

slide53

6. A disszipációs korlát (2)

6.2. ábra: Intel processzorok fajlagos disszipációja

slide54

6. A disszipációs korlát (2b)

A disszipáció növekedés problémájának felismerése (ISSCC 2001, Gelsinger P. Intel)

slide55

6. A disszipációs korlát (2c)

A tápfeszűltség skálázása a gyártási technológiával

Forrás: Gelsinger P. IDF, June 7 2006

slide56

6. A disszipációs korlát (3)

6.3. ábra: Intel és AMD processzorok

slide57

6. A disszipációs korlát (4)

6.4. ábra: Intel P4 processzorcsaládja (Netburst architektúra)

slide58

6. A disszipációs korlát (5)

6.5. ábra: A fajlagos disszipáció értékének növekedése (általában)

Forrás: R Hetherington, „The UltraSPARC T1 Processor” White Paper, Sun Inc., 2005

slide59

6. A disszipációs korlát (6)

6.1 ábra: A dinamikus és a statikus disszipáció növekedési trendje

Forrás: N. S. Kim et al., „Leakage Current: Moore’s Law Meets Static Power”, Computer, Dec. 2003, pp. 68-75.

slide60

6. A disszipációs korlát (7)

6.6. ábra: A Penryn processzor tranzisztorainak felépítése (1)

Kapcsolási sebesség: 120 %

Forrás: http://download.intel.com/pressroom/kits/45nm/Press45nm107_FINAL.pdf

slide61

6. A disszipációs korlát (7b)

6.7 ábra: A szívárgási áramok csökkenése

Forrás: http://download.intel.com/pressroom/kits/45nm/Press45nm107_FINAL.pdf

slide62

6. A disszipációs korlát (7c)

The traditional planar transistor [82]

Forrás: Bohr M., Mistry K.: Intel’s Revolutionary 22 nm transistor technology, May 2011,

http://download.intel.com/newsroom/kits/22nm/pdfs/22nm-Details_Presentation.pdf

slide63

6. A disszipációs korlát (7d)

The 22 nm Tri-Gate transistor-1

Forrás: Bohr M., Mistry K.: Intel’s Revolutionary 22 nm transistor technology, May 2011,

http://download.intel.com/newsroom/kits/22nm/pdfs/22nm-Details_Presentation.pdf

slide64

6. A disszipációs korlát (7e)

The 22 nm Tri-Gate transistor-2

Forrás: Bohr M., Mistry K.: Intel’s Revolutionary 22 nm transistor technology, May 2011,

http://download.intel.com/newsroom/kits/22nm/pdfs/22nm-Details_Presentation.pdf

slide65

6. A disszipációs korlát (8)

A disszipációs korlát konzekvenciái:

Az órafrekvencia növelésén alapuló fejlesztési irány háttérbe szorulása

A processzorok tervezésében a disszipáció csökkentő technikák előtérbe kerülése

A processzorok tervezésének új paradigmája: Teljesítmény/Watt

slide66

6. A disszipációs korlát (9)

Intel processzor tervezési filozófiájának változása

6.8 ábra: Intel 2006-ban nyilvánosságra hozott utiterve, mely megadta

a gyártási technológiák fejlesztési ütemét és a tervezett új processzor architektúrák

kibocsátásának idejét [74]

Forrás: http://www.xbitlabs.com/news/cpu/display/20060428162855.html

slide67

7. Párhuzamos buszok frekvenciakorlátja (1)

Az adatbeolvasás mechanizmusa a buszok vevőoldalán

A bekapuzás D flip flop-ok használatán alapul.

D flip-flop

A busz vevőrésze a felfutó órajellel vezérelten bekapuzza az adat jelet.

slide68

7. Párhuzamos buszok frekvenciakorlátja (1b)

Az adat helyes bekapuzásának időbeli és feszültségszint feltételei vannak

Az időbeli feltételeket az órajel felfutó élére vonatkoztatott adat érvényes ablak

(Data Valid Window, DVW) írja le,

a feszültségszint feltételeket egy minimálisan elvárt H szint (VHmin) és

egy maximálisan megengedett L szint (VLmax) definiálja.

V

VH

VHmin

Forbidden V area

for the data signal

Data

VLmax

VL

t

DVW

DVW: Min. idő, amig a jelnek érvényesnek kell lennie

Órajel(adat bekapuzáshoz)

slide69

Data

CK

tS

tH

Min. DVW

7. Párhuzamos buszok frekvenciakorlátja (2)

Az adat érvényes ablak (DVW) értelmezése

A DVW két feltételt támaszt,

  • egyrészt az adat-jelnek már érvényesnek kell lennie legalább tS idővel az órajel jel

felfutó élének megérkezése előtt, és

  • másrészt pedig érvényesnek kell maradnia legalább tH ideig az órajel felfutó élét követően

annak érdekében, hogy a vevőáramkör az adat-bitet helyesen kapuzza be.

ts: setup time

tH: hold time

7.1 Ábra: Az adat érvényes ablak (DVW) értelmezése ideális jel esetén

slide70

min

DVW

max

7. Párhuzamos buszok frekvenciakorlátja (3)

A szem diagram (Eye diagram)

  • Adatjelek egymásra irásával előállított kép.
  • Az elvárt adat-beolvasási követelmények teljesülésének az ellenőrzésére szolgál.

DVW

7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és

az elvárt jelszintek (VIHmin, VILmax) megadásával

slide71

7. Párhuzamos buszok frekvenciakorlátja (4)

Az adatbeolvasás tolerancia sávjait csökkentő (zavaró) elektromos jelenségek

Elektromos jelenségek, elsődlegesen

  • a skew
  • jel-visszaverődések (reflections), melyek vonal lezárási illesztettlenségek miatt lépnek fel, és
  • a jitter

csökkentik az adat-beolvasás tolerancia sávjait, és ezáltal

behatárolják a buszok adatátviteli sebességét.

slide72

7. Párhuzamos buszok frekvenciakorlátja (5)

Skew (általában)

A jelek felfutó (vagy lefutó) élei közötti időkülönbség, mely kétféleképpen értelmezhető.

  • A skew értelmezése egy adott jel (pl. órajel) vezetékének különböző pontjain egy lapkán vagy egy NYÁK-on.

7.3 Ábra: Egy adott jelvezeték két pontján fellépő futási idő különbség

valamely lapkán vagy NYÁK-on

slide73

7. Párhuzamos buszok frekvenciakorlátja (5b)

E tekintetben különösen fontos pl. egy lapkán lévö áramköri elemek órajelekkel való ellátása

Példa: IBM Power 8 processzor lapka órajelekkel való ellátása

650 mm2

Forrás: http://www.itjungle.com/tfh/tfh090913-story01.html

slide74

7. Párhuzamos buszok frekvenciakorlátja (5c)

Példa órajel elosztó hálózatokra

Fa-alapú órajel ellátás

H-fa alapú

órajel ellátás

Bináris fa alapú

órajel ellátás

Binárisfa

H-fa

slide75

7. Párhuzamos buszok frekvenciakorlátja (6)

b) A skew értelmezése mint egy párhuzamos busz különböző bit-vezetékein futó jelek élei közőtt megjelenő eltolódás, melyet a futási idők eltérése okoz.

7.4. ábra: Párhuzamos buszok bit-vezetékein futó jelek élei között megjelenő futási idő különbségek (skew)

slide76

7. Párhuzamos buszok frekvenciakorlátja (7)

A párhuzamos buszok egyes bitvezetékei között megjelenő skew előidéző okai (elsődlegesen)

1) Párhuzamos buszok egyes bit-vezetékeinek eltérő hosszai NYÁK lapokon.

Adott jelterjedési sebesség (time of flight) mellett, melynek értéke kb. 170 ps/inch) [8],

ill. kb. 60 ps/cm, a hosszeltérések él-eltolódásokhoz vezetnek.

A hossz-különbségeket a tervezők NYÁK lapokon (pl. alaplapokon) bizonyos mértékben

kiegyenlítik.

slide77

7. Párhuzamos buszok frekvenciakorlátja (8)

7.5. ábra: A futási idő különbségek (skew) kiegyenlítése az MSI 915 G Combo alaplapon

slide78

CK-1

CK-2

Skew

7. Párhuzamos buszok frekvenciakorlátja (9)

2) NYÁK vezetékek eltérő kapacitív terhelése miatt fellépő skew(kb. 50 ps per pF).

Ábra: Jelvezetékek kapacitív terhelése miatt fellépő skew [8]

slide79

7. Párhuzamos buszok frekvenciakorlátja (10)

Visszaverődések (reflections)

A GHz tartományban a NYÁK-okon (pl. az alaplapokon) kialakított rézvezetékek

tápvezetékként működnek (transmission lines).

Z0

Annak érdekében, hogy a tápvezetékeken ne álljanak elő visszaverődések a tápvezetékeket a

hullám impedanciájukkal (characteristic impedance) (Z0) kell lezárni, mely kb. 50-70 Ω

alaplapon illetve DIMM kártyán kialakított rézvezetékek esetén.

Ha a tápvonalat nem a hullám impedanciájával zárjuk le vagy a tápvonalon inhomogenitások

vannak, visszaverődések keletkeznek, melyek csőkkentik az adat-beolvasásnál rendelkezésre

álló tolerancia sávokat.

slide80

7. Párhuzamos buszok frekvenciakorlátja (11)

Példa visszaverődésekre

7.6 Ábra: Egy szem diagramon látható visszaverődések, melyek a tápvonal lezárás illesztetlensége miatt keletkeztek

slide81

7. Párhuzamos buszok frekvenciakorlátja (12)

Példa inhomogenitásokra a mem. vezérlőt és a DRAM chipeket összekötő adatút esetén

Az adatút egyes

pontjain

inhomogenitások

jelentkeznek.

DIMM kártyák

Memória vezérlő (MCH)

Alaplapon kiképzett vezetékek

7.7 Ábra: A memória vezérlőt és a DIMM kártyákon elhelyezett DRAM chipeket összekötő

vezetékeken fellépő inhomogenitások ([6] alapján)

slide82

7. Párhuzamos buszok frekvenciakorlátja (12b)

Vezetéklezárások DDR3 DIMM-ekesetén

ODT: On-Die Termination

DDR3 DIMM

DDR3 DIMM

VTT

VTT

Memory Contr.

RT

RT

Dyn. ODT

Dyn. ODT

SSTL_15

Comm., Contr.

VTT

VTT

Addr.

R1

R1

DQ, DQS/#

R2

R2

DM

Vss

Vss

ZQ

ZQ

Rs

Rs

RZQ

RZQ

Vss

Vss

7.7/b ábra: Vezetéklezárások DDR3 DIMM-ek esetén

(Rs = 10-15 Ω, RT = 36-39 Ω, RZQ = 240 Ω±1%)

slide83

7. Párhuzamos buszok frekvenciakorlátja (13)

Jitter (fázis bizonytalanság)

  • Jelentése: fázisbizonytalanság, mely a jelek felfutó és lefutó éleit elmossa.

7.8 Ábra: Jelek felfutó illetve lefutó élein jelentkező jitter

  • A jitter sztohasztikus jellegű.

A jitter főbb forrásai

  • Áthallás (crosstalk), melyet a szomszédos vezetékek közötti csatolás okoz a NYÁK-on,
  • ISI (Inter-Symbol Interference):egymást követő eltérő jelszintek (pl. H-L) esetén

ha az előző jel még nem kellő mértékben csengett le, a következő jel egy maradvány

jelszintről indul.

Akkor áll elő, ha busz magasabb frekvencián működik minthogy a jelek le tudnának csengeni,

  • EMI (Electromagnetic Interference) melyet külső vagy belső forrásokból származó

elektromágneses sugárzás okoz.

A jitter leszűkíti az adatok beolvasásánál rendelkezésre álló tolerancia sávokat mind a DVW,

mind a jelszintek tekintetében.

slide84

min

DVW

max

DVW

7. Párhuzamos buszok frekvenciakorlátja (14)

A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.)

következményei-1

  • A vevő oldalon csökkentik a jelek beolvasásának tolerancia sávjait.

7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és

az elvárt jelszintek (VIHmin, VILmax) megadásával

  • Ez bekorlátozza a párhuzamos buszok átviteli sebességét.
slide85

7. Párhuzamos buszok frekvenciakorlátja (15)

A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.)

következményei-2

  • A tárgyalt elektromos zavaró jelenségek egyúttal bekorlátozzák az egy memória csatornára

csatlakoztatható DIMM-ek számát is.

Pl. hagyományos rendszerarchitektúrákban, melyekben a memória csatornák az MCH-ra

(északi híd) csatlakoznak, DDR2 vagy DDR3 memóriák esetén

  • általábancsakkét DIMM csatlakoztatható,
  • sőtmagasabbátvitelirátákesetén(pl. DDR3-1866 vagy -2133 MT/s esetén)
  • akárcsakegyetlenegy.
slide86

7. Párhuzamos buszok frekvenciakorlátja (16)

Párhuzamos buszok frekvenciakorlátja által kiváltott trend:

Soros buszok használata

Vezetékpár

(lane)

7.9. ábra: Jelátvitel soros buszon

slide87

TX Unidirectional link

RX Unidirectional link

16 data

2 protocol

2 CRC

7. Párhuzamos buszok frekvenciakorlátja (16a)

Példa: A soros QuickPath Interconnect bus (QPI bus)

(DDR data transfer)

7.3 ábra: A QuickPath Interconnect busz (QPI-bus) jelei [Forrás: Intel]

slide88

7. Párhuzamos buszok frekvenciakorlátja (17)

Példák “gyors” soros buszokra:

  • PCI-e
  • SATA
  • SAS
  • HT (HyperTransport bus)
  • QPI (Quick Path Interconnect bus)

Soros buszok bevezetése lassú periféria buszok esetén is (költségokokból!):

  • USB
  • USB2
slide89

7. Párhuzamos buszok frekvenciakorlátja (18)

A soros buszok használata nagyban leegyszerűsíti az alaplapok tervezését is

7.10 Ábra: Vezeték összeköttetések alaplapon párhuzamos és soros memória busz esetén

Forrás: Vogt, IDF Spring 2004

slide90

A fejlődési korlátok felerősödésének konzekvenciája-1

Az órafrekvenciák növelésén alapuló fejlődési főirány

hatékonysági, disszipációs és skew korlátokba ütközik

és tovább már nem követhető

slide91

4.3.3. A fejlődési korlátok összefoglalása

Órafrekvenciák

bekorlátozása

Hatékonysági korlát

(5. pont)

Disszipáció csökkentés,

Teljesítmény/Watt

Disszipációs korlát

(6. pont)

Soros

buszok

Párhuzamos buszok frekvenciakorlátja

(7. pont)

slide92

The evolution of P, IPC and fc

P

105

104

*

103

~102 x/10év

102

*

101

1

*

t

1980

1990

2000

2010

IPC

2. gen superscalar

102

~10x/10év

101

*

1

*

t

1980

1990

2000

2010

fc

~102x/10év

102

~10x/10év

101

*

1

*

t

1980

1990

2000

2010

slide93

8. EPIC architektúrák/processzorok (1)

Az órafrekvencia erőteljes növelése

EPIC architektúrák kifejlesztése

(4. – 7. pontok)

(8. pont)

A fejlődés fővonala

slide94

utasítások

Szuperskalárfeldolgozás elve

VLIWfeldolgozás elve

független utasítások(statikus függőségkezelés)

függő utasítások

dinamikusfüggőség kezelés

F

E

F

E

F

E

F

E

F

E

F

E

Processzor

Processzor

VLIW: Very Large Instruction Word

8. EPIC architektúrák/processzorok (2)

8.1. ábra: VLIW processzorok működési elve

slide95

8. EPIC architektúrák/processzorok (3)

VLIW

EPIC

EPIC: Explicitly Parallel Instruction Computer

Továbbfejlesztett VLIW

(fejlett szuperskalár vonások integrálása)

  • elágazásbecslés
  • explicit cache utasítások
slide96

8. EPIC architektúrák/processzorok (4)

5/2001

EPIC

8.2 ábra: Az Intel processzorok fejlesztésének kezdete

Forrás: http://www.realworldtech.com/countdown-to-ia64/

slide97

8. EPIC architektúrák/processzorok (5)

Itanium 2

Itanium

MP

Platforms

Itanium 2

(Merced)

(McKinley/Madison)

(Montecito/Montvale)

7/2006

10/2007

5/2001

6/2003

7/2002

11/2004

Itanium

Itanium 2

Itanium 2

Itanium 2

Itanium 9100

Itanium 9000

MP

Cores

(Merced SC)

(Montecito) DC

(McKinley) SC

(Madison 6M) SC

(Madison 9M) SC

(Montvale) DC

180 nm/25 mtrs

733/800 MHz

96 KB L2

2/4 MB dir. L3

64-bit FSB

266 MT/s

PAC418

180 nm/220 mtrs

900/1000 MHz

256 kB L2

3/1.5 MB L3

128 bit FSB

400 MT/s

PAC611

130 nm/410 mtrs

1.5 GHz

256 kB L2

6/4/3 MB L3

128 bit FSB

533/400 MT/s

PAC611

130 nm/592 mtrs

1.6 GHz

256 kB L2

9 MB L3

128 bit FSB

533 MT/s

PAC611

90 nm/1720 mtrs

1.66/1.6 GHz

1 MB L2I/256 kB L2D

2 x 12 MB L3

128bit

667/533 MT/s

PPGA611

90 nm/1720 mtrs

1.6 GHz

1MB L2I/256 kB L2D

2*12 MB L3

128-bit FSB

533 MT/s

PPGA611

FSB-based

FSB-based

Vastly enhanced microarchitecture

FSB-based

Dual-threaded

Enh. cache arch.

Cache safe techn.

8.3 ábra: Az Intel Itanium család (1)

1: Special memory cards are used SNC: Scalable Node Controller

slide98

8. EPIC architektúrák/processzorok (6)

8.4. ábra: Itanium processzorok hatékonysága

slide99

8. EPIC architektúrák/processzorok (6a)

Itanium 2

Itanium

MP

Platforms

Itanium 2

(Merced)

(McKinley/Madison)

(Montecito/Montvale)

7/2006

10/2007

5/2001

6/2003

7/2002

11/2004

Itanium

Itanium 2

Itanium 2

Itanium 2

Itanium 9100

Itanium 9000

MP

Cores

(Merced SC)

(Montecito) DC

(McKinley) SC

(Madison 6M) SC

(Madison 9M) SC

(Montvale) DC

180 nm/25 mtrs

733/800 MHz

96 KB L2

2/4 MB dir. L3

64-bit FSB

266 MT/s

PAC418

180 nm/220 mtrs

900/1000 MHz

256 kB L2

3/1.5 MB L3

128 bit FSB

400 MT/s

PAC611

130 nm/410 mtrs

1.5 GHz

256 kB L2

6/4/3 MB L3

128 bit FSB

533/400 MT/s

PAC611

130 nm/592 mtrs

1.6 GHz

256 kB L2

9 MB L3

128 bit FSB

533 MT/s

PAC611

90 nm/1720 mtrs

1.66/1.6 GHz

1 MB L2I/256 kB L2D

2 x 12 MB L3

128bit

667/533 MT/s

PPGA611

90 nm/1720 mtrs

1.6 GHz

1MB L2I/256 kB L2D

2*12 MB L3

128-bit FSB

533 MT/s

PPGA611

FSB-based

FSB-based

Vastly enhanced microarchitecture

FSB-based

Dual-threaded

Enh. cache arch.

Cache safe techn.

8.3 ábra: Az Intel Itanium család (1)

1: Special memory cards are used SNC: Scalable Node Controller

slide100

8. EPIC architektúrák/processzorok (6b)

8.4. ábra: Itanium processzorok hatékonysága

slide101

8. EPIC architektúrák/processzorok (7)

8.5. ábra: Az IA-64 architektúra elterjedésével kapcsolatos várakozások

Forrás: L. Gwennap: Intel’s Itanium and IA-64: Technology and Market Forecast, MDR, 2000

slide102

8. EPIC architektúrák/processzorok (8)

8.7. ábra: Az Itanium processzorok értékesítési elvárásainak módosulása

slide103

8. EPIC architektúrák/processzorok (9)

Boxboro-MC

MP Platforms

2014 or 2015

2/2010

11/2012

Itanium 9300

Itanium 9500

Itanium xx

MP Cores

(Tukwila) 4C

(Poulson) 8C

(Kittson) na

65 nm/2050 mtrs

1.73-1.33 GHz

512 kB L2I/256 kB L2D

6 MB L3/core

2 x MC x 2 SMI x

2 x DDR3-800

4 full/2 half QPI

4.8 GT/s

LGA1248

32 nm/3100 mtrs

2.53-1.73 GHz

512 kB L2I/256 kB L2D

32 MB shared L3

2 x MC x 2 SMI x

2 x DDR3-1066

4 full/2 half QPI

6.4/4.8 GT/s

LGA1248

32 nm/na mtrs

na

na

na

na

na

na

na.

LGA1248

New instructions

New microarchitecture

Integrated MC

Serial SMI links

Ring bus interconnect

Turbo Boost

QPI-based SMM

Directory cache

Vastly enh. RAS

Integrated MC

Serial SMI links

Crossbar interconnect

Turbo Boost

QPI-based SMM

Directory cache

Vastly enh. RAS

MC: Memory Controller

SMI: Scalable Memory Interface

8.8 ábra: Az Intel Itanium család (2)

slide104

8. EPIC architektúrák/processzorok (10)

az EPIC architektúrák/processzorokkiszorulása

  • Microsoft 2010 áprilisábanbejelentette, hogy a továbbiakbannemtámogatjaaz Itanium
  • architektúrát.
  • Windows Server 2008 R2/SQL Server 2008 R2 és Visual Studio 2010 leszazutolsószerver
  • szoftverkörnyezet, melytámogatjaaz Itanium-ot.
  • 2011 márciusában Oracle is bejelentette, hogy a jövőbenbeszüntetiszoftverfejlesztéseit
  • az Itanium architektúrára.
slide105

9. Paradigmaváltás (1)

Általános célú alkalmazásokban a 2. generációs szuperskalárok megjelenésével a processzorok hatékonysága stagnálni kezdett, ez két fejlesztési főirányt váltott ki, de mindkét megközelítés korlátokba ütközött

Egymagos szuperskalárok alkonya

ad