1 / 48

C оздание российского сегмента европейской инфраструктуры EU DataGRID

C оздание российского сегмента европейской инфраструктуры EU DataGRID. Ильин В.А. (НИИЯФ МГУ), Кореньков В.В. (ОИЯИ) 4 Всероссийская конференция RCDL 2002 «Электронные библиотеки : перспективные методы и технологии, электронные коллекции» Дубна, 16 октября 2002 года.

feng
Download Presentation

C оздание российского сегмента европейской инфраструктуры EU DataGRID

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Cоздание российского сегмента европейской инфраструктуры EU DataGRID Ильин В.А. (НИИЯФ МГУ), Кореньков В.В. (ОИЯИ) 4 Всероссийская конференция RCDL 2002 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» Дубна, 16 октября 2002 года

  2. Five Emerging Models of Networked Computing From The Grid • Distributed Computing • || synchronous processing • High-Throughput Computing • || asynchronous processing • On-Demand Computing • || dynamic resources • Data-Intensive Computing • || databases • Collaborative Computing • || scientists Ian Foster andCarl Kesselman, editors, “The Grid: Blueprint for a New Computing Infrastructure,” Morgan Kaufmann, 1999, http://www.mkp.com/grids

  3. Application Internet Protocol Architecture “Coordinating multiple resources”: ubiquitous infrastructure services, app-specific distributed services Collective “Sharing single resources”: negotiating access, controlling use Resource “Talking to things”: communication (Internet protocols) & security Connectivity Transport Internet “Controlling things locally”: Access to, & control of, resources Fabric Link • The Anatomy of the Grid: Enabling Scalable Virtual Organizations, • I. Foster, C. Kesselman, S. Tuecke, Intl J. Supercomputer Applns, 2001. www.globus.org/research/papers/anatomy.pdf • The Globus Team:Layered Grid Architecture Application

  4. CERN

  5. LHC in the LEP Tunnel • Counter circulating beams of protons in the same beampipe. • Centre of mass collision energy of 14 TeV. • 1000superconductingbendingmagnets, each 13metres long,field 8.4 Tesla. • Super-fluid Helium cooled to 1.90 K World’s largest superconducting structure

  6. CMS ATLAS LHCb The LHC detectors 3.5 Petabytes/year  109 events/year

  7. Событие в LHC

  8. 40 MHz (40 TB/sec) level 1 - special hardware 75 KHz (75 GB/sec) level 2 - embedded processors 5 KHz (5 GB/sec) level 3 - PCs 100 Hz (100 MB/sec) Data recording & offline analysis • Online system • Multi-level trigger • Filter out background • Reduce data volume • Online reduction 107 • Trigger menus • Select interesting events • Filter out less interesting

  9. LHC Challenges: Scale • Data written to tape ~5 Petabytes/Year and UP (1 PB = 10**9 MBytes) • Processing capacity 100 - TIPS and UP (1 TIPS = 10**6 MIPS) • Typical networks 0.5 - Few Gbps Per Link • Lifetime of experiment 2-3 Decades • Users ~ 5000 physicists • Software developers ~ 300 (Four Experiments)

  10. Требуемые скорости коммуникаций в структуре региональных центров для LHC

  11. Generic model of a Fabric (computing farm) local network servers to external network application servers tape servers disk servers

  12. Computing fabric at CERN (2005) StorageNetwork 12 Thousands of CPU boxes 1.5 0.8 8 6 * 24 * FarmNetwork 0.8 960 * Hundreds oftape drives * Data Ratein Gbps Real-timedetector data LAN-WAN Routers 250 Storage Network 5 0.8 0.5 M SPECint95 > 5K processors 0.5 PByte disk > 5K disks One experiment ! Thousands of disks

  13. UC AADS ATM UIC ANL UIUC StarLight: The Optical STAR TAP SURF net BN STAR TAP Purdue Star Light OC-12 GigE NU Evanston iCAIR IUPUI NU Chicago GigE IU Bloom-ington CERN I-WIRE & Optical MREN CA*net4 Bell Nexxia (Chicago) ? This diagram subject to change

  14. UK SuperJANET4 NL SURFnet GEANT It GARR-B DataTAG project NewYork Abilene STAR-LIGHT ESNET Geneva MREN STAR-TAP

  15. Некоторые Grid Проекты

  16. Некоторые Grid Проекты

  17. EDG overview : structure , work packages • The EDG collaboration is structured in 12 Work Packages • WP1: Work Load Management System • WP2: Data Management • WP3: Grid Monitoring / Grid Information Systems • WP4: Fabric Management • WP5: Storage Element • WP6: Testbed and demonstrators • WP7: Network Monitoring • WP8: High Energy Physics Applications • WP9: Earth Observation • WP10: Biology • WP11: Dissemination • WP12: Management } Applications

  18. EDG middleware architecture Globus hourglass • Current EDG architectural functional blocks: • Basic Services ( authentication, authorization, Replica Catalog, secure file transfer,Info Providers) rely on Globus 2.0 (GSI, GRIS/GIIS,GRAM, MDS) Specific application layer ALICE ATLAS CMS LHCb Other apps VO common application layer LHC Other apps High level GRID middleware GRID middleware Basic Services GLOBUS 2.0 OS & Net services

  19. Apps Mware Globus DataGrid Architecture Local Application Local Database Local Computing Grid Grid Application Layer Data Management Metadata Management Object to File Mapping Job Management Collective Services Information & Monitoring Replica Manager Grid Scheduler Underlying Grid Services Computing Element Services Storage Element Services Replica Catalog Authorization Authentication & Accounting Logging & Book-keeping Database Services Grid Fabric services Fabric Monitoring and Fault Tolerance Node Installation & Management Fabric Storage Management Resource Management Configuration Management

  20. SystemManagers OperatingSystem CertificateAuthorities ApplicationDevelopers FileSystems UserAccounts BatchSystems StorageElements EDG middleware architecture: EDG interfaces Local Application Local Database Scientists Grid Application Layer Object to File Map Data Managem. Metadata Managem. Job Managem. Collective Services Grid Scheduler ReplicaManager Info & Monitor Underlying Grid Services SQL Database Services Authorization Authentication Accounting Computing Element Services Storage Element Services Replica Catalog Logging & Book-keeping Fabric services Monitoring Fault Tolerance Node Installation Managem. Fabric Storage Managem. Resource Managem. Config Managem. MassStorage Systems HPSS, Castor Computing Elements

  21. EDG middleware architecture: The Workload Management System (WP1) • WP1 is responsible for the Workload Management System (WMS). The WMS is currently composed by the following parts: • User Interface (UI) : access point for the user to the GRID ( using JDL) • Resource Broker (RB) : the broker of GRID resources, matchmaking • Job Submission System (JSS) : Condor-G; interfacing batch systems • Information Index (II) : an LDAP server used as a filter to select resources • Logging and Bookkeeping services (LB) : MySQL databases to store Job Info

  22. WP1: Work Load Management Local Application Local Database Grid Application Layer Job Managem. Data Managem. Metadata Managem. Object to File Mapping Components Job Description Language Resource Broker Job Submission Service Information Index User Interface Logging & Bookkeeping Service Collective Services Grid Scheduler ReplicaManager Info & Monitor Underlying Grid Services SQL Database Services Authorization Authentication Accounting Computing Element Services Storage Element Services Replica Catalog Logging & Book-keeping Fabric services Monitoring Fault Tolerance Node Installation Management Fabric Storage Management Resource Managem. Config Management • Implementation: • UI : python (LB client : C++) • RB : C++ • JSS : C++, python • II : LDAP server • LB: MySQL, C++ • Input/Output Sandboxes: GridFTP • WMS main interfaces: • Globus Gatekeeper • WP2 Replica Catalog APIs • WP3 Information Systems • WP7 network monitoring info providers • End User (using JDL files, on the UI)

  23. WP2: Data Management Local Application Local Database Grid Application Layer Metadata Managem. Object to File Mapping Job Managem. Data Managem. Deployed Components GridFTP Replica Manager - edg-replica-manager Replica Catalog - globus-replica-catalog GDMP Spitfire Collective Services Grid Scheduler Replica Manager Info & Monitor Underlying Grid Services SQL Database Services Computing Element Services Replica Catalog Storage Element Services Authorization Authentication Accounting Logging & Book-keeping Fabric services Monitoring Fault Tolerance Node Installation Management Fabric Storage Management Resource Managem. Config Management • Implementation: • RM: C++ classes (under development) • RC : Globus Replica Catalog wrapper • GDMP : C++ • Spitfire : Java, Web Services • WP2 main interfaces: • The GRID Storage Element • WP1 Resource Broker APIs • WP3 GRID Info services • WP7 network monitoring info providers • End User (using GDMP)

  24. Reptor Optor Giggle GDMP RepMeC WP2 next generation Replication Services Replica Manager Client Optimization Transaction Consistency File Transfer Postprocessing Preprocessing Replica Location Subscription Replica Metadata

  25. Site Replication Services Architecture User Interface ReplicaLocation Index Replica Metadata Catalog ReplicaLocation Index ReplicaLocation Index Resource Broker Site Replica Manager LocalReplica Catalog Replica Manager LocalReplica Catalog Core API Optimiser Optimiser Optimisation API Pre-/Post- processing Pre-/Post- processing Processing API StorageElement Computing Element StorageElement Computing Element

  26. The SE architecture Clients ( RB,JSS, RM, GDMP, InfoServices(WP3),User Applic running on CEs, CLIs) Top layer Interface 1 Interface 2 Interface 3 Session Manager MetaData Core Message Queue System Log House Keeping Bottom layer Storage Element MSS Interface MSS Interface MSS1 MSS2

  27. Apps Mware Globus DataGrid Architecture Local Application Local Database Local Computing Grid Grid Application Layer Data Management Metadata Management Object to File Mapping Job Management Collective Services Information & Monitoring Replica Manager Grid Scheduler Underlying Grid Services Computing Element Services Storage Element Services Replica Catalog Authorization Authentication & Accounting Logging & Book-keeping Database Services Grid Fabric services Fabric Monitoring and Fault Tolerance Node Installation & Management Fabric Storage Management Resource Management Configuration Management

  28. Comment: some servers and services are under construction

  29. Освоена технология создания информационных серверов GIIS, собирающих информацию о локальных вычислительных ресурсах и ресурсов по хранению данных (создаваемых GLOBUS службой GRIS на каждом узле распределенной системы) и передающих эту информацию в динамическом режиме в вышестоящий сервер GIIS. Таким образом, освоена и протестирована иерархическая структура построения информационной службы GRIS-GIIS. Организован общийинформационный сервер GIIS (ldap://lhc-fs.sinp.msu.ru:2137),который передает информацию о локальных ресурсах российских институтов на информационный сервер GIIS (ldap://testbed1.cern.ch:2137) европейского проекта EUDataGRID.

  30. dc=ru, o=grid Country-level GIIS lhc-fs.sinp.msu.ru:2137 dc=sinp, dc=ru, o=grid SINP MSU, Moscow dc=jinr, dc=ru, o=grid JINR, Dubna dc=srcc, dc=ru, o=grid SRCC MSU, Moscow dc=ihep, dc=ru, o=grid IHEP, Protvino CERN Top-level WP6 GIIS testbed001.cern.ch:2137 dc=itep, dc=ru, o=grid ITEP, Moscow dc=tcss, dc=ru, o=grid TCSS, Moscow dc=kiam, dc=ru, o=grid KIAM, Moscow dc=?, dc=ru, o=grid St. Petersburg Russian National GIIS • SRCC MSU, KIAM and TCSS participate only in Russian DataGrid project and are not involved in CERN projects.

  31. В НИИЯФ МГУ создан Сертификационный центр (Certificationauthority, СА) для российского сегмента. Сертификаты этого центра принимаются всеми участниками европейского проекта EUDataGRID. Разработана схема подтверждения запросов на сертификаты с помощью расположенных в других организациях Регистрационных центров (Registration authority, RC), заверяющих запросы пользователей электронной подписью с помощью сертификата GRID. Разработаны программы постановки и проверки электронной подписи, а также пакет программ для автоматизации работы Сертификационного центра. Предложенная схема CA+RC и пакет программ приняты в ЦЕРНе и других участниках европейского проекта EUDataGRID.

  32. Инсталлирована и протестирована программа репликации файлов и баз данных GDMP (GRID Data Mirroring Package), которая создана для выполнения удаленных операций с распределенными базами данных. Она использует сертификаты GRID и работает по схеме клиент-сервер, т.е. репликация изменений в базе данных происходит в динамическом режиме. Сервер периодически оповещает клиентов об изменениях в базе, а клиенты пересылают обновленные файлы с помощью команды GSI-ftp. Текущая версия GDMP работает с объектно-ориентированнной базой данных Objectivity DB, а также создается версия с динамической репликацией обычных файлов. Программа GDMP активно используется для репликации в ЦЕРН распределенной базы смоделированных данных, создаваемой в ОИЯИ (Дубна), НИИЯФ МГУ и других институтах по физике высоких энергий для эксперимента LHC-CMS. Программа GDMP рассматривается в качестве GRID стандарта для репликации изменений в распределенных базах данных.

  33. В ОИЯИ выполнен комплекс работ по мониторингу сетевых ресурсов, узлов, сервисов и приложений. Сотрудники ОИЯИ принимают участие в развитии средств мониторинга для вычислительных кластеров с очень большим количеством узлов (10.000 и более), используемых в создаваемой инфраструктуре EUDataGRID. В рамках задачи MonitoringandFaultTolerance (Мониторинг и устойчивость при сбоях) они участвуют в создании системы корреляции событий (CorrelationEngine). Задача этой системы - своевременное обнаружение аномальных состояний на узлах кластера и принятие мер по предупреждению сбоев. С помощью созданного прототипа Системы корреляции событий (CorrelationEngine) ведется сбор статистики аномальных состояний узлов на базе вычислительных кластеров ЦЕРН. Производится анализ полученных данных для выявления причин сбоев узлов. На втором этапе предусмотрено расширение прототипа CorrelationEngine с учетом полученных результатов и испытание системы автоматизированного предупреждения сбоев на практике. Этот прототип установлен на вычислительных кластерах в ЦЕРН и ОИЯИ, где производится сбор статистики аномальных состояний узлов.

  34. В сотрудничестве с Институтом прикладной математики имени M.И. Келдыша программа Metadispetcherустановлена в российском сегменте инфраструктуры EUDataGRID. Программа Metadispetcherпредназначена для планирования запуска заданий в среде распределенных компьютерных ресурсов типа GRID. Было проведено ее тестирование, по результатам которого программа была доработана для обеспечения эффективной передачи данных средствами GLOBUS.

  35. NTPL NTPL FZ FZ PYTHIA PYTHIA GEANT3 GEANT3 ORCA ooHITS ORCA ooHITS Objy/DB data_set_1 data_set_2 signal Objy/DB ORCA user analysis Objy/DB ORCA digis ROOT, NTPL pile up Задача массовой генерациисобытий для CMS на LHC

  36. RefDB at CERN jobs Environment IMPALA UI UI BOSS mySQL DB batch manager N2 GK N1 Nn NFS job executer CMKIN Задача массовой генерациисобытий для CMS на LHC(как это было)

  37. RefDB at CERN jobs Environment DOLLY UI mySQL DB UI BOSS GRID EDG-RB CE batch manager job NFS job executer IMPALA WN1 WN2 WNn CMKIN Задача массовой генерациисобытий для CMS на LHC(предложенное решение)

  38. LB RC UI CNAF or CERN RB JSS Padova II Padova Moscow LNL CNAF Апробация массовой генерации

  39. Useful References: • GLOBAL GRID FORUM: http://www.gridforum.org • European GRID FORUM: http://www.egrid.org • PPDG: http://www.ppdg.org • IVDGL : http://www.ivdgl.org • EU DATA GRID Project: http://www.eu-datagrid.org • DATATAG Project: http://www.datatag.org • GLOBUS Project: http://www.globus.org • GriPhynProject: http://www.griphyn.org • CrossGRID : http://www.cyfronet.krakow.pl/crossgrid • Condor: http://www.cs.wisc.edu/condor • TERAGRID Project: http://www.teragrid.org • RIVK-BAK Project: http://theory.sinp.msu.ru/~ilyin/RIVK-BAK • «Open Systems» Journal: http://www.osp.ru

More Related