200 likes | 279 Views
E N D
Интероперабельность в автоматизированных системах для научных исследований и обработка результатов H1 в Grid к.т.н. Е. Е. Журавлёв – Физический институт им. П. Н. Лебедева РАН,д.т.н., А.Я. Олейников - Институт радиотехники и электроники РАН имени В.А. Котельникова,А.М. Фоменко – Физический институт им. П.Н. Лебедева РАН
3. ер-колайдер ГЕРА (HERA) Строительство: 1984-1991. Исследования по физике 1992-2007.
EEGE(Enabling Grids for E-sciencE). • Сообщество исследователей в области физики высоких энергий (ФВЭ) стало первым в EGEE, где началась эксплуатация приложений, и является крупнейшим пользователем грид-инфраструктуры EGEE. Главными пользователями были четыре эксперимента в CERN: в день они выполняли свыше 20 тыс. заданий и ежегодно производили многие сотни терабайтов данных. В больших экспериментах – BaBar, CDF, H1, ZEUS и D0 – грид-технологии в инфраструктуре EGEE ведут обычную обработку физических данных.
Grid-обрабатывающий комплекс • В качестве примера применения Grid в физике высоких энергий приводится процесс обработки накопленных данных, полученных на установке Эйч Ван (Н1) электрон - протонного коллайдера HERA в DESY (Германия), где изучаются реакции между частицами для более глубокого понимания фундаментальных частиц и сил природы. • В создание установки H1 большой вклад внесли учёные Российской академии наук, в частности, Отделения ядерной физики и астрофизики (ОЯФА) ФИАН. Работы по применению установки H1 начинались в 80-х годах 20 века под руководством лауреата Нобелевской премии Павла Алексеевича Черенкова. В настоящее время сотрудники ОЯФА ФИАН участвуют в обработке экспериментальных данных, полученных с помощью H1. H-hadron-адрон
ФизическиеРегистрация процессы феномена И1 О И2ИО Регистрация И1п К И2ц Условия существ. условий Задание и И1ц И2о поддержание условий Обобщённая схема АСНИ в экспериментальной физике И0 - исследователь, И1 - интерфейс 1-ого рода, ОК – обрабатывающий комплекс, И2 - интерфейс 2 -ого рода, И1п – интерфейс аналог- цифра, цифра-аналог, И1ц, И2ц – интерфейс цифра-цифра, И2о – интерфейс цифра-исследователь, исследователь-цифра.
ПРИКЛАДНЫЕПРОГРАММЫ 1 2 3 4 Интерфейс прикладных программc платформой i 4i 2i 3i a:,b:, c:,d:, e: ПЛАТФОРМА ДЛЯ РЕАЛИЗАЦИИ ПРИКЛАДНЫХ ПРОГРАММ 6i 7i 8i Интерфейс с внешней средой 6 7 8 ВНЕШНЯЯ СРЕДА Структурная схема обрабатывающего комплекса
Определения интероперабельности • Согласно определению ( ISO/IEC TR 14252-96) • интероперабельность -свойство двух или более систем обмениваться информацией и правильно использовать её.
Определениеинтероперабельности в АСНИ • Применительно к АСНИ можно предложить следующее определение : пригодность автоматизированных систем для научных исследований доставлять программы и данные, сохранять заданные характеристики системы и обеспечивать взаимно однозначное и предсказуемое поведение системы на основе данных подсистемы контроля состояния. В частности, в Grid организация взаимодействия независимых ресурсов нуждается в расписании работ, выборе ресурса адекватного задаче, распределении приложений в распределённой среде, доступе к базам данных, файлам или XML-репозиториям и предоставлении унифицированного API для приложений, отвечающих требованиям Grid.
Стандарты Grid • Для реализации интероперабельности в Grid в рамках международной организации Global Grid Forum создана международная организация Open Grid Service Architecture (OGSA). OGSA определяет набор служб ядра: • Созданных для совместной работы… • …но с возможностью подстройки реализации
Метод консенсуса(открытость) в основе работоспособности Grid • В 2006 году после опробования различных проектов создания Grid был создан форум для «открытия» Grid (Open Grid Forum). Цель создания форума состояла в изыскании возможности с помощью широкого круга заинтересованных лиц и фирм принять удовлетворяющее всех решение по реализации интероперабельности в Grid. Такое решение было найдено в реализации Grid по технологии открытых систем. Как известно, в основе технологии открытых систем лежит стандартизация протоколов, служб, интерфейсов и форматов, а также активное участие пользователей в создании переносимости приложений и осуществления взаимодействия при наличии программного обеспечения в открытых кодах (open source). Усилия форума привели к созданию OGSA. • Усилиями OGSA с участием 400 организаций были разработаны необходимые стандарты и профили, позволившие в октябре 2006 года продемонстрировать взаимодействие в мировом Gride. • Интероперабельность в Grid обеспечивается разработанной документацией на среду открытой системы: разработаны профили Basic profile, EMS profile и Data profile.
Концепция архитектуры служб открытой Grid GGF17 Opening Keynote GGF OGSA™-WG Hiro Kishimoto, co-chair
Основной профиль высокопроизводительных вычислений(ПВВ) предписывает условия достижения интероперабельности в расписаниях заданий, управляя ВВ ресурсами расположенными в разных по администрации доменах. Базовый профиль высокопроизводительных вычислителей
Профиль ВВ • High Performance Computing Profile (HPCP): • Basic Execution Service (BES) • Job Submission Description Language (JSDL), • Grid Storage Management (GSM), • Grid Remote Procedure Call (GridRPC), • Simple API for Grid Applications (SAGA), • Grid Information Retrieval (GIR), • Resource Namespace Service (RNS), • Grid File Transfer Protocol2 (FTP), Information Dissemination (INFOD), • Network Mark-up Language (NML) and Network Measurements (NM).
Профиль-основа интероперабельности • Основной профиль ПВВ делает пригодными для общего использования сценарии с которыми выходят многие исследовательские и коммерческие организации.Пример применения сценариев включает: • Web Application: Исследователи получают доступ к приложению с помощью своих Web программ, в то время как сервер приложения применяет основной профиль(ПВВ) для начальной установки исполнения приложения.Исследователю нет необходимости выжидать момента срабатывания администратора ресурса. • Metascheduler: Исследователь передаёт своё задание администратору местного ресурса который, в свою очередь, руководствуясь утверждённой политикой маршрутизации, отправляет задание на подходящий ресурс на исполнение.Этот ресурс может предоставляться посредством основного профиля ПВВ, по указанию какого-то администратора ресурса и находиться в другой организации. • Rich Client: Инженер и учёный при запуске программ –тестов некоторого проекта используют модели испытуемых разделов проекта.При пуске процесса моделирования «толстый клиент» пользуется основным профилем ПВВ для указания некоторого ресурса. • Workflow Engine: Различные приложения сцепляются вместе образуя поток вычислительных заданий. Исследователи составляют граф исполняемых заданий, где задания помещаются в вершину графа. Потоковой машине нет необходимости выжидать указаний администраторов ресурсов.Потоковая машина может обработать каждую вершину в графе, руководствуясь описанием задания и основным профилем ПВВ.
Grid в обработке H1 • Многочисленные системы и компоненты относящиеся к H1 GRID'у, успешно и быстро обмениваются информацией и используют информацию, полученную в результате обмена, в своей работе для достижения поставленной цели - исполнения многочисленных job's количествo которых, работающих одновременно на разных компьютерных элементах (CE) в H1 GRIDе достигает нескольких тысяч в любой момент времени. Каждый job "тратит” или "расходует" до 24 часов CPU современной архитектуры. • GRID в H1 в данный момент главным образом и наиболее эффективно используется для H1 Monte Carlo Mass Production-MCMP. Ранее ЭТО -MCMP делалось на больших суперкомпьютерах - мэйнфреймах (последний такой – давно закрытый - был в DESY из семейства IBM 370), потом MCMP делалось на многопроцессорных unix/linux fermax - кстати до сих пор так называемые "короткие" Monte Cartlo Requests (mcreq) (do 1 миллиона событий) исполняются на H1 DESY farm.
В результате распараллеливания работ по моделированию (благодаря реализации интероперабельности в Grid) удалось достичь производительности ~ в 100 раз превышающей результаты работы на суперкомпьютере. • GRID стал полезным для этой цели из-за возможности распараллеливания процесса моделирования. Т.е. один Monte Carlo request превращается в сотни, а то и в тысячи job's. Результат работы одного job'a моделирования – это выходной набор данных "солидной величины" - до Гигабайта - в так называемом DST формате - записывается на один из доступных Storage Element(SE). • Выходные наборы данных (DSTs) всех успешно завершившихся jobs "вытаскиваются" (download из SEs) из GRIDa, объединяются (merge) и записываются на картриджи ("на ленту") и в диск cache - dccp. Бывает, что объединённый выходной набор данных для mcreq достигает величины половины Терабайта и более. Благодаря GRIDu стало возможно исполнять Monte Carlo Requests (mcreqs) до 25 миллионов событий (недавно отмечали событие - очередной абсолютный рекорд производительности достигнут - исполнен mcreq - 25-ти миллионник).
Консенсус – основа успеха Т.о. показано, что в такой области, которая раньше называлась автоматизация научных исследований, а в настоящее время получила название электронная наука (e-science) и ассоциируется с использованием GRID, применяются принципы открытых систем. В том числе, строятся различные профили.
Вопросы? • Благодарю за внимание!