Влияние межпроцессорных связей на эффективность параллельных вычислений

Влияние межпроцессорных связей на эффективность параллельных вычислений Г.Адам1,2, С.Адам1,2, А.Айриян 1, Э.Айрян 1, Э.Душанов1, В.Кореньков1, А.Луценко1, В.Мицын1, Т.Сапожникова 1, А.Сапожников 1, О.Стрельцова1, И.Василе 2, М.Дулеа 2, А.Сима 2, Е.Донец 3, Я.Буша 1,4, И.Покорны 1,4 1 Лаборатория информационных технологий, ОИЯИ 2 Национальный институт физики и ядерной технологии им. Х. Хулубея, Румыния 3 Лаборатория высоких энергий, ОИЯИ 4 Технический университет г. Кошице, Словакия Результаты частично получены в рамках программы Хулубей-Мещеряков

Numerical experiments in NonPerturbative Lattice QCD • New method (simulated annealing) • Parallel computing in the infrared limit

Simulated AnnealingApproach to Infrared QCD New method of gauge fixing (simulated annealing) for computing gluon and ghost Lattice QCD propagators from first principles. Exploration of infrared region asks for largest available parallelsupercomputers. Gluon propagator for quenched QCD Dressing functions for the gluon propagator I. L. Bogolubsky(LIT),E.-M. Ilgenfritz,M. Mueller-Preussker, A. Schiller, A. Sternbeck (Germany) Brazilian Journal of Physics (2007)

Parallel computing algorithms and codes based on MPI technology • One example: Yang-Mills-dilaton evolution equations

An instance of parallel algorithm using Message Passing Interface (MPI) technology: Yang-Mills-dilaton evolution equations Nonlinear systemof evolution equations:Conserving energy finite-difference scheme. Diagonally dominant system oflinear algebraic equationsby parallel algorithms a)Acceleration:T1/Tp ; computing times:T1- ononeprocessor; Tp- onpprocessors Parallel computing acceleration~p/2 b)Efficiency:T1/(pTp) – measured on LITLINUX clusterfor different space and time grids of finite-difference scheme E.E. Donets (VBLHE), E.A. Ayrjan, O.I. Streltsova (LIT), I. Pokorný, J. Buša (Slovakia) MMCP 2006, Slovakia, 26.08-01.09 2006

Решение задачи Yang-Mills-dilaton на новые параллельные кластеры

Характеристики систем 1, k – количество операций за такт, n – количество ядер,v – тактовая частота

Ускорение, Результаты расчетов на суперкомпутере ЦИВК ОИЯИ [240 ядер;Gb Ethernet]

Ускорение, Результаты расчетов на кластере ЦИВК ОИЯИ [80 ядер; InfiniBand]

Ускорение, Результаты расчетов на кластере IFIN HH [16 ядер; Myrinet]

Сравнительный анализ параллельных вычислений на трех кластерах N = 200 000 N = 400 000

Ускорение, Увеличения числа процессоров показывает преимущество MyrinetнадGigabit Ethernet . T1 = 3105 T1= 1670 T14= 261 T14= 387 Сравнение времени расчетов на кластерах ЦИВК ОИЯИ[240 ядер; Gb Ethernet] IFIN HH[16 ядер; Myrinet]

Измерение производительности с помощью High-Performance Linpack benchmark (HPL) • HPL benchmark используется для определения самых мощных • суперкомпутеров в мире (TOP 500)и в СНГ (TOP 50). • ЦИВК суперкомпутер занимал, в сентябре 2007 г., 12-ое место • в TOP 50.

High-Performance Linpack benchmark Цельюсоздания LINPACK отнюдь не было измерение производительности. Впервые же таким образом использовать его предложил Джек Донгарра в 1979 году. High-Performance Linpack benchmark представляет собой решениесистемы линейных уравнений методом LU-разложения с известнымколичеством арифметических операций и вычисление временивыполнения этой задачи.Производительность вычисляется по формуле: где NOP – количествоарифметических операций, а T - время решения СЛАУ.Количествоопераций при этом: где N – порядок решаемой СЛАУ1. 1 Воеводин В.В., Воеводин Вл.В., Паралельные вычисления.- СПб.: БХВ-Петербург, 2002

Результаты тестирования:ЦИВКОИЯИ[240 ядер; Gb Ethernet] Достигнутая нами максимальная производительность на тесте HPL составила 1124 GFlops, что примерно в два раза меньше пиковой производительности 2553.6 GFlops

Суперкомпьютер в ЦЕРН В ЦЕРН(Швейцария)установлен новый суперкомпьютерный кластер, состоящий из 340 узлов, содержащих по два двуядерных процессора Intel Xeon 5160. Кластер по итогам тестирования в с помощью теста HPL benchmark занял 115 место в списке TOP500 самыхвысокопроизводительных суперкомпьютеров в мире1. 1H. Hämmerle, N. Crémel, CERN makes it into supercomputing TOP500, CERN COURIER, v. 47, № 7,September 2007, p. 16.

В 2007 году в IFIN-HH (Румыния) был установлен кластер параллельных вычислений, было предложено протестировать его с помощью HPL benchmark. Процессор Тактовая частота процессора Кэш-память второго уровня (на каждом процессоре) Ядер в процессоре Процессоров на узле Объем памяти на узле Узлов в кластере Общее количество процессоров Общее количество ядер Суммарный объем ОП Операционная система Теоретическая производительность Сеть MPI Intel Xeon Irwindale 3000 MHz 2 MB 1 1 4 GB 8 16 16 32 GB CentOS 5 96 GFlops Myrinet 2000 Version 1.2.7 Достигнутая максимальная производительность для кластера параллельных вычислений IFIN-HH составила 64.24 GFlops, дветретьи от пиковой. Результаты тестирования:IFIN HH[16 ядер; Myrinet]

Результаты тестирования:ЦИВК ОИЯИ[80 ядер; InfiniBand] Данные получены сегодня. Полученнаяпроизводительность – около 70% от максимальной. Заметно насыщение.

Исследование производительности То обстоятельство, что кластеры ЦИВК ОИЯИ и ЦЕРН на тесте HPL смогли достичь лишь порядка 50% от своих пиковых производительностей не умоляет их возможностей. Дело в том, что данные кластеры являются составными частями GRID-инфраструктуры и предназначены для распределённых вычислений (отсутствуют межпроцессорные коммуникации). К ним, соответственно, предъявляются иные требования нежели к низколатентным суперкомпьютерам предназначенным для параллельных вычислений. Одной из мотиваций данного исследование было выявить эффективность параллельных вычислений на кластере ЦИВК ОИЯИ, для этого было принято решение протестировать и провести сравнительный анализ производительности с кластером для параллельных вычисленийIFIN-HH (Румыния), основанным на технологии Myrinet, обладающей низкой латентностью.

Исследование производительности Настоящие данные на Myrinetсети заметно ближе к максимально доступными чем на Gigabit Ethernetсети.

Исследование производительности Потеря времени показывает что, использование меньшего числа процессов более эффективно решает меньшие задачи.

Неопределённости измерения времени Подгонка полинома третьей степени к измеренным данным в случаях, когда (слева) и (справа)1. 1 Gh. Adam et al., Performance assessment of the SIMFAP parallel cluster at IFIN-HH Bucharest, submitted to Romanian Journal of Physics

Спасибо за внимание!!!

Влияние межпроцессорных связей на эффективность параллельных вычислений

Влияние межпроцессорных связей на эффективность параллельных вычислений

Presentation Transcript