Amd s next generation
This presentation is the property of its rightful owner.
Sponsored Links
1 / 23

AMD’s Next Generation PowerPoint PPT Presentation


  • 54 Views
  • Uploaded on
  • Presentation posted in: General

AMD’s Next Generation. Die Hammer Familie. Eine Kurzpräsentation von Frank Grümmert bei Herrn Prof. Dr.-Ing. Risse für das RST-Labor. AMD‘s achte Prozessorgeneration. Rechen Performance

Download Presentation

AMD’s Next Generation

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Amd s next generation

AMD’s Next Generation

Die Hammer Familie

Eine Kurzpräsentation

von Frank Grümmert

bei Herrn Prof. Dr.-Ing. Risse

für das

RST-Labor


Amd s achte prozessorgeneration

AMD‘s achte Prozessorgeneration

  • Rechen Performance

    • Merkbare Leistungssteigerung auf aktuellen Entwicklungsstand durch Nutzung nichtexotischer Silizium Prozesse und allgemeiner Design Techniken

  • Software Performance

    • Leistungssteigerung existierender x86-32 Software – 100% Kompatibilität

  • Multiprocessing & High Performance Computing (HPC)

    • Neue Standards – ermöglicht 4P und 8P Server

  • Kosten-Vorteile

    • Geringe Kosten durch Migration vorhandener Software und der Herstellung des Prozessors auf aktuellem Stand der Technik.


Auf anwendung zugeschnitten

ClawHammer

1-2 Prozessoren

In Desktopsystemen

günstig

ClawHammer-DP, SlegeHammer

Multiprozessor fähig

2-8 Prozessoren

>8 über Switches

In HPC-Systemen

( High Performance Computing )

Auf Anwendung zugeschnitten


Unterschiede der varianten

1-2 HyperTransport Ports ( 16-8 Bit )

Level2 Cache 256K -512 K

1 DDR Chanel

4 Dimms

Sockel ( 754 Pins )

2-3 HyperTransport Ports ( 16 Bit )

Level2 Cache >1M

2 DDR Chanels

8 Dimms

Sockel ( 940 Pins )

Unterschiede der Varianten


Amd s next generation

AMD Athlon™ Processor

64k L1 Instruction

Cache

512k

or

256K Byte

L2

Cache

  • X86-64 Bit 1P Desktop Prozessor

  • ein 72-bit DDR Kanal200, 266, and 333 MHz

    •  4GB DDR DRAM

    • Zukünftige Speicher-Technologien

    • werden unterstützt

  • Ein 16-bit HT Port

  • On chip L1 & L2 cache

    • 64K-Byte L1 Inst.

    • 64K-Byte L1 DATA

    • 256/512KB ECC protected L2

  • 754-pin mPGA Package

x86-64 Processor Core

64k L1 Data Cache

DDR Memory

Controller

64 wide DRAM

72

HyperTransport™

1600MT/s

16

Ersetzt Address, Data und Control Bus


Amd athlon processor

AMD Athlon™ Processor

64k L1 Instruction

Cache

512k

or

256K Byte

L2

Cache

  • X86-64 Bit 2P Desktop Prozessoren

  • ein 72-bit DDR Kanal200, 266, and 333 MHz

    •  4GB DDR DRAM

    • Zukünftige Speicher-Technologien

    • werden unterstützt

  • Oder zwei 8-bit HT Ports

  • On chip L1 & L2 cache

    • 64K-Byte L1 Inst.

    • 64K-Byte L1 DATA

    • 256/512KB ECC protected L2

  • 754-pin mPGA Package

X86-64 Processor Core

64k L1 Data Cache

DDR Memory

Controller

64 wide DRAM

72

HyperTransport™

8

8

1600MT/s


Amd opteron family processors

72

72

AMD Opteron™ Family Processors

64k L1 Instruction

Cache

512K

or

1M Byte

L2

Cache

  • 64 Bit 2P Server Prozessoren

  • zwei 72-bit DDR Kanäle200, 266, and 333 MHz

    •  8GB DDR DRAM

    • Zukünftige Speicher-Technologien

    • werden unterstützt

  • zwei 16-bit HT Ports

  • On chip L1 & L2 cache

    • 64K-Byte L1 Inst.

    • 64K-Byte L1 DATA

    • 512/1024KB ECC protected L2

  • 940-pin mPGA Package

X86-64 Processor Core

64k L1 Data Cache

Dual DDR Memory

Controller

64 wide DRAM

HyperTransport™

16

16

1600MT/s


Amd opteron family processors1

64k L1 Instruction

Cache

1M or

2M Byte

L2

Cache

X86-64Processor Core

64k L1 Data Cache

Dual DDR Memory

Controller

72

72

64 wide DRAM

HyperTransport™

16

16

16

1600MT/s

AMD Opteron™ Family Processors

  • 64 Bit 8P Server Prozessoren

  • zwei 72-bit DDR Kanäle200, 266, and 333 MHz

    •  8GB DDR DRAM

    • Zukünftige Speicher-Technologien

    • werden unterstützt

  • drei 16-bit HT Ports

  • On chip L1 & L2 cache

    • 64K-Byte L1 Inst.

    • 64K-Byte L1 DATA

    • 1M/2MB ECC protected L2

  • 940-pin mPGA Package


Core architektur

Core Architektur

  • 5 Funktionsblöcke

    • Prozessor-Core, L1-Daten- und Befehls-Cache, L2-Cache,  DDR-Memory-Controller und HyperTransport-Interface

  • 9 Ausführungseinheiten für Integer- und Floating-Point-Operationen


Core architektur1

Core Architektur


Core architektur2

Instr’n

TLB

Level 1 Instr’n Cache

Level 2

Cache

2kBranchTargets

16kHistoryCounter

Fetch 2 - transit

Pick

RAS

&

Target Address

Decode 1

Decode 2

Decode 1

Decode 1

Pack

Pack

Pack

L2 ECC

L2 Tags

Decode

Decode

Decode

Decode 2

Decode 2

L2 Tag ECC

System Request

Queue (SRQ)

8-entryScheduler

8-entryScheduler

8-entryScheduler

36-entryScheduler

Cross Bar

(XBAR)

AGU

ALU

AGU

ALU

AGU

ALU

FADD

FMUL

FMISC

Memory Controller&HyperTransport™

“Northbridge”

Data

TLB

Level 1 Data Cache

ECC

Core Architektur


Pipeline

Pipeline

  • 32 Stufen sehr tief ausgeführte Pipeline

    • Stufe 1 bis 7: Fetch-Vorgang und Befehlsdekodierung

    • Stufe 8 bis 12: Befehlsausführung

    • Stufe 13 bis 19: L2-Pipeline

    • Stufe 20 bis 32: DRAM - Zugriffe

  • Hohe Taktfrequenz >2GHz

  • Probleme bei zb. bei Misprediciton (branch prediction)  Zeit

    • SOI ( silicon on isolator )


Operating modes

Operating Modes

  • 64-Bit-Modus in 64-Bit-Betriebssystem

  • 32-Bit-Modus (Compatibility Mode) in 64-Bit-Betriebssystem

  • 32-Bit-Modus (Legacy Mode) in 32-Bit-Betriebssystem


Operating modes1

Operating Modes


Long mode

Long Mode

  • Über Kontroll-Bit LMA (Long Mode Active)

    • 0 wie x86 Prozessor

    • 1 im 64 Bit Modus ( siehe Vorherige Folie )

  • Im 64-Bit-Mode folgende neue Features:

    • 64-Bit-Adressraum

    • Register-Erweiterung der acht GPRs auf 64 Bit durch das Präfix R

    • Zusätzlich acht neue GPRs R8 bis R15

    • Acht neue 128-Bit-SSE-Register XMM8 bis XMM15

    • 64-Bit-Befehlszeiger (RIP)

    • Relative Datenadressierung mit 64-Bit-Offset


X86 64 vs x86 32 register unterschiede

x86-64 vs. x86-32 Register Unterschiede

Register-Ausbau: Die x86-64-Architektur des Hammer

erweitert die 32-Bit-Register der IA32-Prozessoren auf 64 Bit.


Register

Register

  • x86-64

    • 64-bit integer registers

    • 48-bit Virtual Address

    • 40-bit Physical Address

  • REX - Register Extensions

    • 16 64-bit integer registers

    • 16 128-bit SSE registers

  • SSE2 Instruction Set

    • New

      • Double precision scalar and vector operations

      • 16*8, 8*16 way vector MMX operations

    • SSE1 already added with AMD Athlon XP


Speicherinterface

Speicherinterface

  • Durch integrierte Northbridge geringe Latenz

  • Maximaler Speicherausbau steigt in Multiprozessorsystemen

  • In MPS untereinander Austausch der Inhalte durch HyperTransport Schnittstellen

    • Bsp Opteron

      • Speicherbandbreite von 5,3 GByte/s

      • Xfire beträgt zusätzlich 3,53 GByte/s ( HTT zum anderem Speicher )

      • ~ bei 2P = Speicherbandbreite 8,83 GByte/s (lokal + XFire)

  • Zusammenarbeit im NUMA Verband ( non uniform memory access )

    • Kaum Unterschiede zwischen Near- und Far Memory Zugriff dank geringer Latenz


Hypertransport interface

HyperTransport-Interface

  • Vereinheitlichtes Bussystem


Hypertransport interface1

HyperTransport-Interface

  • Hohe Bandbreite bei niedriger Latenzzeit

  • Einheitlicher Bus und gemeinsames Protokoll für alle Verbindungen auf dem Mainboard.

  • Flexible Geschwindigkeiten und variable Busbreite.

  • Unterschiedliche Geschwindigkeit je nach Richtung.

  • Möglichst wenige Leitungen und preiswertes Chip-Interface.

  • Geringer Energieverbrauch und Stromsparmechanismen.

  • Unterstützung von Multiprozessor-Systemen und "System Network Architecture„ - Bussen


Prozessoren mit mehreren hypertransport ports

Prozessoren mit mehreren HyperTransport Ports

  • Datentransfer über den HyperTransport Bus benötigt keine CPU Zeit.

  • Externe Betriebsmittel können zu jeder Adresse innerhalb des 40 Bit Adressraums des Prozessors schreiben ohne jegliche CPU Intervention.

  • Im Fall mehrerer HyperTransport Ports können die Daten auch ohne Intervention der CPU passieren.


Zusammenfassung

Zusammenfassung

  • 20-25% mehr Geschwindigkeit zum AMD Athlon XP (32 bit Mode)

  • Integration der nächsten Generation von intelligenten Cache

  • Integrierter DDR Controller

  • Integration von HyperTransport

  • Abwärtskompatibilität

  • Kostenersparniss


  • Login