1 / 24

Die SX-Series: Eine Erfolgsstory mit Fortsetzung

Die SX-Series: Eine Erfolgsstory mit Fortsetzung. Was bisher geschah:. Ende 1994 wird die SX-4 als erste CMOS Implementierung eines PVP Supercomputers angekündigt Alle Welt glaubte, daß die Zukunft Architekturen mit Standardkomponenten gehören wird. Heute:.

bran
Download Presentation

Die SX-Series: Eine Erfolgsstory mit Fortsetzung

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Die SX-Series: Eine Erfolgsstory mit Fortsetzung

  2. Was bisher geschah: • Ende 1994 wird die SX-4 als erste CMOS Implementierung eines PVP Supercomputers angekündigt • Alle Welt glaubte, daß die Zukunft Architekturen mit Standardkomponenten gehören wird

  3. Heute: • Die SX-4 ist mit ca. 120 Installationen mit mehr als 900 CPUs die erfolgreichste Maschine ihrer Art • PVP ist wieder auf Erfolgskurs • höchste Effizienz in Anwendungen • zukunftsträchtige Technologiebasis • ausgewogenes, weil maßgeschneidertes Konzept

  4. Effizienz & Leistung • Die SX-4 demonstriert in Anwendungen bis zu 80 % und mehr Leistung im Parallelbetrieb • Grundlagen • ausgewogene Architektur • konsequente Implementierung

  5. Memory Performance STREAM Memory Bandwidth --- John D. McCalpin, mccalpin@cs.virginia.edu Revised to Sat Jun 14 09:17:22 PDT 1997 All results are in MB/s --- 1 MB=10^6 B, *not* 2^20 B ------------------------------------------------------------------ Machine ID ncpus COPY SCALE ADD TRIAD ------------------------------------------------------------------ NEC_SX_4 32 434784.0 432886.0 437358.0 436954.0 NEC_SX_4 16 247440.0 247343.0 250262.0 250231.0 NEC_SX_4 8 126084.0 126084.0 126725.0 126724.0 NEC_SX_4 4 63537.0 63536.0 63694.0 63692.0 NEC_SX_4 2 31887.0 31886.0 31925.0 31925.0 NEC_SX_4 1 15983.0 15984.0 15989.0 15898.0 Cray_T932_321024-3E 32 310721.0 302182.0 359841.0 359270.0 Cray_T932_321024-3E 16 160263.0 154880.0 193335.0 194562.0 Cray_T932_321024-3E 1 10653.0 10221.0 13014.0 13682.0 Cray_J932 32 19007.0 18944.1 19993.9 18870.4 Cray_J932 16 16298.2 15851.5 15657.6 14995.9 Cray_J932 1 1433.6 1408.6 1260.8 1270.0 SGI_Origin_2000_2 2 351.0 365.0 392.0 413.0

  6. Streams Benchmark TRIAD

  7. Die Skalierungsperspektive • Mit der SX-4 ist der leistungsfähigste Clusteransatz verwirklicht • 5 Standorte weltweit nutzen erfolgreich MultiNode Systeme mit bis zu 128 Vektor-CPUs • Teraflopscomputing auf Vektorbasis ist reale Option

  8. Und in Zukunft... • „Vector Supercomputing has always offered the ultimate in processor performance“SGI Website, 16. Juni 1998 • aber auch:„A Supercomputer is a high performance memory with a fast CPU attached“sinngemäß S. Cray

  9. Leistungscharakteristik von Vektor und Skalarprozessoren Vector Processing Cache Size Limitation Applications Scalar Processing Applications Data Size Warum eigentlich Vektor? Performance

  10. The System You Have Heard About

  11. Welcomes You to the Future of High Performance Supercomputing

  12. Das Produkt • Die logische Fortführung der SX-4 Series • Setzt Renaissance des PVP Markets fort • Anwender wählen PVP, weil sie JETZT funktionieren • SX Systeme machen PVP Technologie erschwinglich • Bietet eine brauchbare, flexible Architektur • Single Node Shared Memory Modell • Multi Node Distributed Memory Modell

  13. Spezifikationen • Single Node • Bis zu 128 GFLOPSaus 16 x 8 GFLOPS Prozessoren • Bis zu 128 GBytes Shared Main Memory • Multi Node • Bis zu 4 TFLOPS • Bis zu 32 Nodes über SX-5 IXS • Bis zu 512 Processors • Bis zu 4 Tbyte Hauptspeicher

  14. CMOS VLSI Technologie • 0.25 Micron mit 5 Layern • Commodity, High Yield Geometry • Wirtschaftliche Herstellung • 64 Mbit SDRAM Memory Chips • kostengünstige High-end Standardkomponenten • Leistungsfähigkeit durch sehr hohe Bankzahl

  15. Packaging Technologies • Chip Size Package • 25 mm sq • 1600+ Pinouts • 0.5 mm grid • Multi Chip Package • 225 mm sq • 11,000+ Pinouts • 32 Layers

  16. Single Node Processor MAX 16 CPUs 16 units MASK MASK LOGICAL MULT LOAD & STORE VR ADD/SHIFT DIVIDE MAIN STORAGE SCALAR CACHE SR EXECUTION UNIT XMU IOP

  17. Vector Einheit: Architektur • Multiple parallele Vektor Pipelines • 64 SX-4 kompatible Pipelines • Add-Shift x 16 • Multiply x 16 • Logical x 16 • Divide x 16 • Jede Instruktion nutzt 16 Pipelines • Automatische Hardware Parallelität • Piplines arbeiten unabhängig voneinander

  18. Pro Processor • 8 GFLOPS Peak Vector • 500 MFLOPS Peak Scalar • Mehr als 2 X SX-4 Series skalaren Durchsatz • Weniger Konflikte der Skalareinheit • Extra Load Path • Double Issue Rate • 64 GB / sec Speicherbandbreite

  19. Memory Architecture • Voller Non-blocking Crossbar • Single Node • 128 GB Kapazität • 1 TB/s Bandbreite • 1 CPU auf 2 MMU Einheiten • Jede MMU Einheit hat 4 GB,1K Banks, 32 Gbytes/sec • 64 Gbytes/second verfügbar für jede CPU • Die höchste im Markt verfügbare Speicherleistung !

  20. Streams Benchmark TRIAD (SX-5 Werte extrapoliert)

  21. SDRAM technology 32,768 64-bit banks 32 4-GB cards 32 GB/s per card The Single Node IOP IOP 3.15 GB/s x 4 IOPs 16 x 8 GF Vector Processors 1 CPU : 2 MMU (64 GB/s)

  22. Multi Node Spezifikationen • Maximal 512 Prozessoren • 16 Prozessoren per Node Maximum • 32 Node Maximum • Maximal 4 TB Hauptspeicher • IXS Internode Crossbar • 256 GB/s Gesamzbandbreite • 8 GB/s Bandbreite Node zu Node

  23. CPU CPU CPU CPU CPU CPU CPU CPU CPU IOP IOP IOP IOP IOP IOP IOP IOP IOP IOP IOP IOP MM MM MM IOP IOP IOP •••• •••• •••• The Multi Node IXS Internode Crossbar Max.16 CPU .... .... .... ....... éÂãLâØ éÂãLâØ éÂãLâØ MM MM MM •••• •••• Node #2 Node #1 Node #32 8 GB/s x 2

  24. Japanische Konzepte haben Zukunft * *Aber Effizienz ist ein Muß!

More Related