1 / 37

슈퍼컴퓨팅센터의 클러스터 컴퓨팅 주제

슈퍼컴퓨팅센터의 클러스터 컴퓨팅 주제. 2005.5.13. 슈퍼컴퓨팅센터의 의무 슈퍼컴퓨팅 환경 변화 적응을 위한 선도 연구 / 개발  최신 기술 전파 최신 기술에 기반한 서비스 제공 컴퓨팅 자원 / 서비스의 품질과 경제성 향상 고성능 클러스터 컴퓨팅 / 응용 기술의 확산  과학 / 기술 계산량 / 복잡도 증가 , 편의성 , 효율성 요구 증대  대용량 계산 자원 / 기술 수요발생 E-Science & E-Manufacturing, IT839 등 국가생존을 위한 정부 추진

amos
Download Presentation

슈퍼컴퓨팅센터의 클러스터 컴퓨팅 주제

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 슈퍼컴퓨팅센터의 클러스터 컴퓨팅 주제 2005.5.13

  2. 슈퍼컴퓨팅센터의 의무 • 슈퍼컴퓨팅 환경 변화 적응을 위한 선도 연구/개발최신 기술 전파 • 최신 기술에 기반한 서비스 제공 • 컴퓨팅 자원/서비스의 품질과 경제성 향상 • 고성능 클러스터 컴퓨팅/응용 기술의 확산  과학/기술 계산량/복잡도 증가, 편의성, 효율성 요구 증대  대용량 계산 자원/기술 수요발생 • E-Science & E-Manufacturing, IT839등 국가생존을 위한 정부 추진 프로젝트들은 고성능, 고효율, 경제성높은 클러스터 슈퍼컴퓨팅과 그 응용 서비스를 필요 • 국가 과학기술과 산업분야에서 연구/개발 경쟁력 향상을 위해 클러스터 /응용 기술등의 현업 적용 확대 서비스 모델 발굴/제시 필요

  3. 목표 • 국내 확보 기술로 대규모 컴퓨팅 자원의 확보방안 마련 • 대규모 클러스터의 구축, 운영 및 최적화 기술 연구/개발 • 기술의 수준 : 대표적인 세계기술과 동급 또는 우수 • 2년 내에 20 TeraFlops급의 고성능 클러스터 기술 확보 • 대규모 클러스터 컴퓨팅 핵심 기술 원형 개발 • 차기 클러스터 운영 및 모니터링 기술 확보 • 차기 클러스터 시스템 서비스를 위한 병렬 프로그램 환경 정의 • 응용/가시화/그리드(e-Science) 연계 활용의 시범 환경 구축 • 클러스터 응용/서비스 모델 발굴 / 적용 • 클러스터 컴퓨팅의 현업 응용 /서비스 모델 개발

  4. 내용 • 국내 확보 기술로 대규모 컴퓨팅 자원의 확보방안 마련 • 대규모 클러스터 시스템을 위한 병렬 파일 시스템 기술력 확보 • 대규모 클러스터 관리를 위한 프레임웍, 도구 개발 • 응용/가시화/그리드(e-Science) 연계 활용의 시범 환경 구축 • 가시화 클러스터 구축 기술 확보 • 클러스터 응용/서비스 모델 발굴 / 적용 • RDDM(Research and Development Data Management) 시스템 Prototype 연구 • 슈퍼컴퓨팅센터내의 컴퓨팅 자원의 효율적 분배를 위한 각 시스템 및 응용프로그램의 성능 비교 • RP클러스터 기술 개발 • 네트워크 에뮬레이션 클러스터 구축 • 클러스터 기술 센터 운영

  5. 전략 • Hamel 클러스터 운영을 통해 파악한 문제점 해결을 통해 차기 클러스터 구축에 필요한 기술 확보 • 클러스터 컴퓨팅 효율화를 위한 기술 및 데이터 확보 • 클러스터 기술센터 활동을 통한 기술 확산과 공동 연구 기회 증대 • 다양한 응용분야 확대

  6. 클러스터 시스템 환경을 위한 자체적인 병렬 파일 시스템 기술력 확보 및 개발(1/3) • 2005년 계획 • 분석(Analysis) • 주요 병렬 파일 시스템 기능 비교 분석 • 파일 시스템 성능 측정 도구 기능 비교 분석 • 구성 요소별 파일 시스템 성능 상관 관계 분석 • 설계(Design) • 프로토타입 설계(1단계)

  7. 클러스터 시스템 환경을 위한 자체적인 병렬 파일 시스템 기술력 확보 및 개발(2/3) • 병렬 파일 시스템별 기능 비교 분석 • 기존 병렬 파일 시스템들의 주요 기능, 장단점및 특이 사항 파악 • PVFS, PVFS2, Lustre, GFS등 • 파일 시스템 성능 측정 도구 기능 비교 분석 • 클러스터 시스템 도입시 파일 시스템에 대한 테스트 기준 모호 • 측정 도구의 특징을 비교 분석한후 적합한 측정 도구(집합) 도출 • 구성 요소별 파일시스템 성능 상관 관계 분석 • 병렬 파일 시스템의 성능에 영향을 미치는 요소를 파악 • 파일 시스템에 대하여 여러 구성 요소를 변경하면서 성능 분석

  8. 클러스터 시스템 환경을 위한 자체적인 병렬 파일 시스템 기술력 확보 및 개발(3/3) • 프로토타입 설계(1단계) • 1단계 • Prototype 구성 - 기본 골격 구성 • 핵심적인 User Interface및 Command 구현 • 2~3단계 • 기본 구조 보강 • User Interface및 Command 확장 • 로우레벨 파일 시스템 개발 및 File System Command 개발

  9. 클러스터 관리 환경 구축 목표 • 클러스터 시스템 운영/관리를 위한 도구들과 이를 체계화 할 프레임워크의 개발 • 수십 테라급 통합 클러스터 관리 시스템을 위한 기반 인프라 개발 내용 • 클러스터 관리 시스템을 위한 프레임워크 • 모니터링 도구 • 커널 디버깅 도구

  10. 클러스터 관리 시스템을 위한 프레임워크 개발(1/3) • 클러스터 시스템 운영/관리에 필요한 도구들의 개발과 이용을 쉽게 할 프레임워크의 개발 • 통합 클러스터 관리 시스템 구축을 위한 기반 인프라 • 다양한 클러스터 도구들의 연관성을 높임 • 분산 관리 기술의 축적

  11. 클러스터 관리 시스템을 위한 프레임워크 개발(2/3) • 목표 사양 • Service Oriented Architecture • Messaging Middleware • Support DMTF standard (CIM based) • Real-Time Service Operation • Provide Powerful UI (X-Internet based) • 개발 내용 • Messaging Protocol • Service Modeling • Registry Service • Directory Service • Repository Service • Management Structure Components • X-Client/Server

  12. 클러스터 관리 시스템을 위한 프레임워크 개발(3/3) X-Client X-Client CMF Architecture Service Oriented Architecture X-Server Messaging Middleware Cluster Manager Real-Time Service Operation Repository Indication Service Directory DMTF based Model Service Manager Adapter Messaging Bus Adapter Adapter Adapter Adapter Node Manager Node Manager Node Manager Node Manager Indication Service Registry Indication Service Registry Indication Service Registry Indication Service Registry Service Manager Service Manager Service Manager Service Manager Service Service Service Service

  13. 모니터링 도구 개발(1/3) • 클러스터 시스템에 대한 모니터링 및 장애 복구를 위한 능동적인 모니터링 도구 개발( 각 개별 node 중점) • 2005년도 계획 • 분석 • 주요 모니터링 도구 동작 구현 분석 • 주요 모니터링 도구의 각 노드별 동작 분석(자원 소모, 성능 등) • 장애에 대한 분석 및 분류 • 장애 복구를 위한 방법, 동작, 기능 분석 및 분석 • 설계 • 노드별 기능 및 동작 설계 • 노드단에서 동작을 수행하기 위한 기본 스키마 동작 설계 • 장애 복구에 대한 분석 • 장애 증상 및 장애 복구에 대한 지식 데이터 베이스 스키마 분류 및 작성 • 구현 • 장애 복구를 위한 스키마 작성 • 노드단에서 정보 취합 및 장애 감지/복구를 담당하는 에이전트 구현

  14. 모니터링 도구 개발(2/3) • 인터페이스 • 웹 인터페이스(Viewer, 설정) • 모니터링 • 시스템에 대한 주기적인 모니터링 • 개별 노드에서 데이터 전송 • 관리 노드에서 데이터 취합 • 장애 확인 및 동작 • 장애 발생시 관리노드에 전송 기능 • 장애에 대한 대처 수행 부분 • Database • 장애에 대한 데이터 베이스 • 장애 복구에 대한 데이터 베이스

  15. 웹 인터페이스 관리 시스템 장애 DB 모니터링 장애 관리 시스템 모니터링 장애 감지 장애 모니터 장애 복구 (H/W) 장애 복구 DB 데이터 전송 장애 복구 (S/W) 데이터 취합 장애 알림 개별 노드 모니터링 도구 개발(3/3)

  16. 커널 디버깅 도구 개발(1/3) • 필요성 • 현재 클러스터 계산노드에서 system hang 발생시, 해당 노드 시스템을 reboot 시키는 것으로 장애 처리 • hang/crash의 원인을 규명할 수 있는 절차/방법/도구 부재 • kernel-level checkpointing 툴 개발을 위한 사전 연구 • 목표 • 커널 디버깅 및 커널 로그 툴 관련 연구 및 개발을 통해 시스템의 장애 발생시 원인을 정확히 규명하여 차후 동일 장애를 예방 • 사용자의 application 문제일 경우 올바른 가이드 라인 제시 • kernel 및 라이브러리 문제일 경우 해결안 강구

  17. 커널 디버깅 도구 개발(2/3) • 접근 방법 • HPC 클러스터의 커널 디버깅 프로세스의 절차의 표준안 확립 • Automated Cluster System Debugging Solution 구현 • HPC 클러스터 시스템의 hang/crash 등의 에러 패턴에 대한 이해 Magic SysRq Ksymoops KDB (KGDB,GDB) Kernel Hooks Kprobes LKCD Klogd evlog Lcrash hang or crash dump analysis test, study oops & provide solution

  18. LKCD (crash detect) MagicSysRq Hang detect Linux Kernel 커널 디버깅 도구 개발(3/3) • 목표 결과 • oops and crash replica tool • knowledge of crash/hang pattern of HPC cluster • automated cluster debugging solution • technical documents for debugging tools & method • 착안 • enhancement of Magic-Sys-Rq • Automatic Hang detection • never implemented in linux cluster environment before. • can refer AIX 5.2 implementation whitepaper • Automatic crash detection • make it as a kernel module

  19. 가시화 클러스터 시스템(1/5) • 클러스터를 기반으로 다수의 컴퓨터의 출력화면을 하나로 연결해서 일반 PC로는 구현이 불가능한 수준의 초고해상도의 단일화면을 구현한 시스템 개발

  20. 가시화 클러스터 시스템(2/5) 목적 • 하드웨어 가속 볼륨 렌더링 • GPU 클러스터를 이용한 대용량 볼륨 데이터의 실시간 가시화 • e-Science 환경을 위한 가시화 플랫폼 • 국제 협업 가시화 환경 구축 • OptIPuter 공식 노드로 참가 / iGrid 2005 시연

  21. 가시화 클러스터 시스템(3/5) 문제점&목표 • 클러스터의 모든 노드를 동원해도 512x512x512 크기의 데이터 가시화 불가능 • 목표 데이터의 크기: 1024x1024x1024 • 구현 과정에서 반드시 필요한 작업의 현저한 처리속도 차이 • 고성능 비디오 카드를 채용하여 가시화 성능의 34.6배 향상 가능 시스템 구성 • 가시화 클러스터 • PCI-express를 지원하는 비디오 카드 및 대용량 메모리 장착 • 대용량 데이터를 저장하기 위한 디스크 장치 • 빠른 데이터 전송을 위한 고속 네트워크 설치(Infiniband, 10Gbps) • 프로젝터 큐브 • 해상도 확장 ( ⇒ , 33% 확대)

  22. 가시화 클러스터 시스템(4/5)

  23. 가시화 클러스터 시스템(5/5) 시스템 활용 • e-Science 환경의 가시화 시스템 • 다수의 rendering image stream, 화상회의를 위한 A/V stream을 동시에 받아서 출력할 수 있는 고성능 시스템 개발 • GPU 클러스터 기반 분산 렌더링 기술 개발 • 비압축 데이터의 원격 가시화 기술 개발 • OptIPuter 프로젝트 테스트베드 • 10Gbps GLORIAD를 이용하는 한국의 공식 OptIPuter 노드 역할 • iGrid 2005 시연 • PIRE 프로젝트 테스트베드 • SDSC에서 주도, 협업 가시화 환경 • 고성능 가시화 시스템 구축기술 확보 • 고성능 가시화 시스템을 필요로 하는 대학교 연구실에 기술 보급

  24. RDDM 시스템 Prototype 연구(1/5)- 정의 및 구성요소 - • RDDM의 정의 • Research and Development Data Management 의 약어 • 다음과 같은 사항을 관리하는데 사용되는 기술을 뜻함 • 연구개발과 관련된 모든 정보 : 참고문헌, 중간파일 및 중간결과물, 최종결과 및 문서, 연구개발에 필요한 시스템 등을 기술하는 모든 정보 • 연구개발과 관련된 모든 절차 : 연구 및 개발 수행과정 상의 작업절차와 관련된 관리 정보 • 연구개발 과정에서의 정보의 흐름을 관리하기 위해 관련된 컴퓨팅 자원을 통합, 효율화하는 일련의 작업을 의미 • RDDM의 구성요소 • 정보관리 (Information Management) • 작업흐름관리 (Workflow Management) • 컴퓨팅 자원 통합 (Computing Resource Integration)

  25. RDDM 시스템 Prototype 연구(2/5)- 개념도 - 일정관리(Webcollab) Web 기반 RDDM DB 문서관리 (WebDAV+CVS) 참고문헌 Cluster / Supercomputer 중간결과 공유스토리지 결과문서 소스코드

  26. RDDM 시스템 Prototype 연구(3/5)- 추진 일정 - • 적용분야 및 응용프로그램 선정 • ABAQUS for Structural Analysis • Fluent for CFD Application • Workflow 분석 및 Metadata 포맷 결정 • 구성요소 연구 • 정보관리방안 연구 • Versioning, Data 저장 포맷 등 • 작업흐름관리 • 일정관리 및 RDDM 시스템 사용자 관리 방안 • DB 구성 • Web Interface 구성 연구 • 작업분배방안 연구 • 컴퓨팅 자원으로의 입력 전송 및 계산 결과의 공유 저장

  27. RDDM 시스템 Prototype 연구(4/5)- 추진 일정 - • 적용분야 및 응용프로그램 선정 • ABAQUS for Structural Analysis • Fluent for CFD Application • Workflow 분석 및 Metadata 포맷 결정 • 구성요소 연구 • 정보관리방안 연구 • Versioning, Data 저장 포맷 등 • 작업흐름관리 • 일정관리 및 RDDM 시스템 사용자 관리 방안 • DB 구성 • Web Interface 구성 연구 • 작업분배방안 연구 • 컴퓨팅 자원으로의 입력 전송 및 계산 결과의 공유 저장

  28. RDDM 시스템 Prototype 연구(5/5)- 전략 - • RDDM : 시스템 구축을 위한 사전연구 및 수요조사 • 구현 : 2006 • 특히 산업체에서의 컴퓨팅 수요 및 발전 환경 수요조사 • 해외의 동종 업계의 사례 기술적 분석 • 연말에 이에 대한 보고서 작성 (응용프로그램 연구와 병행) 웹기반 일정관리 (예)

  29. 응용프로그램 성능측정 및 시스템 자원 배분 연구 • 목적 : 슈퍼컴퓨팅센터내의 컴퓨팅 자원의 효율적 분배를 위한 각 시스템 및 응용프로그램의 성능 비교 • 방법 • 슈퍼컴퓨팅센터 응용프로그램 활용도 조사 • 사업실 –시스템 사용율 조사 • 응용실 –응용프로그램 현황 및 버전 조사 • 상용프로그램의 nobel과 hamel에서의 성능 비교 • ISV(Independent Software Vendor)로부터 성능 측정용 예제 확보 • Small Size / Medium Size / Large Size 문제 확보 • Hamel 및 Nobel에서의 성능 비교 및 Scability 측정 • 대표적인 Inhouse 코드의 nobel 및 hamel에서의 성능 비교 • MD, 천문학코드, 구조해석, CFD, MM5 • Small Size / Medium Size / Large Size 문제 및 실행 환경 확보 • 성능 비교 결과와 활용도 및 라이선스 비용을 종합적으로 고려한 사용자 배분 정책 초안 작성

  30. Rapid prototyping 서비스 클러스터 기술 개발(1/3) • 슈퍼컴퓨팅분야의 신기술인 클러스터 컴퓨터 운영기술을 적용, 슈퍼컴퓨팅 실험 결과를 3D형태로 출력 할 수 있는 Rapid Prototyping 서비스를 원격에서 공유 가능케 하는 기술 개발 • 기술적인 목표 MS 윈도우즈 시스템 플랫폼으로 개인용으로 개발된 슈퍼컴퓨팅 분야 고가의 소프트웨어 및 하드웨어, 관련 실험 장비를 인터넷을 통하여 공유 활용할 수 있게 하는 사용자 관리 및 어카운팅, 자원 수요 중재 미들웨어

  31. RP(Rapid Prototyping)? • R.P. (Rapid Prototyping) : 신속조형기술 • 3차원 CAD DATA로부터 박막 적층 기법을 이용하여 물리적인 모형을 신속하게 조형하는 기술

  32. Rapid prototyping 서비스 클러스터 기술 개발(2/3) • 서비스 대상 • 슈퍼컴퓨팅 이용자들 중, 3D 출력이 필요한 연구 그룹(교수, 대학원생) • 부품소재 사업자 등 CAD등을 사용하여 제품을 생산하는 중•소 산업체 • 공업고등학교와 보수학원, 각급 기계설계, 디자인 관련 학과 등의 슈퍼컴퓨팅 전단계 기술교육을 수행하는 교육기관/단체 • 각급 학교의 과학교사 및 과학영재 교육 프로그램 수강자 • 게임 퍼블리셔, 독립 모델러, 취미생활자, 발명가 • 독립 디자이너 및 소규모 상품 디자인 업체 • 건축 설계업체 및 건축 모델 제작사 등 • 대덕 연구단지 과학관과의 연계 프로그램 • 각급 지자체의 지역 산업 혁신 클러스터 프로그램을 통한 프로모션 • 슈퍼컴퓨팅센터의 지역센터 활용 지역관련 산업/교육 지원 사업화

  33. Rapid prototyping 서비스 클러스터 기술 개발(3/3) • 전략

  34. 네트워크 에뮬레이션 클러스터 구축(1/2) • 개요 • 네트워크 R&D 지원을 위한 개방형 테스트베드 • 시뮬레이션이 아닌 REAL 트래픽/네트워크/시스템을 통한 네트워크 R&D • 동향 • NSF 및 DARPA 의 지원 (미국) • 운영중인 사이트 (미국) • U. Utah, Georgia Tech, U. Kentucky, U. wisconsin • Cornell, U. Texas at Austin, USC, UC Berkeley • The Aerospace Corporation • KISTI Supercomputing Center 40 노드 구성 중 University of Kentucky University of Utah University of Wisconsin

  35. 제어서버 구성도 4506(6509) (4*48 Port) 관리서버 40 nodes Node Node 네트워크 에뮬레이션 클러스터 구축(2/2) • 구축 현황 • U. Kentucky 를 벤치 마킹 • 2005년 현재 • 유타대학 방문 및 기술 협력 요청 • 구조물 제작, 40노드 구매, 핵심 스위칭 장비 구매 완료 • 제어 및 관리 서버 미들웨어 설치 중 • 향후 계획 • 2005년 상반기 • 시스템 구축 완료 (배선 및 서버 설치) • 미들웨어 설치 완료 • 방화벽 설치 완료 • 2005년 하반기 • 테스트 및 시범 서비스 • 서비스 대상 • 대학 및 연구소의 네트워크 R&D 연구 및 수업 • 네트워크 R&D 관련 논문 시뮬레이션 • 산업체의 네트워크 관련 기술 개발 University of Kentucky

  36. 클러스터 컴퓨팅 확대를 통한 산업 활성화 • 클러스터 기술 센터 운영을 통한 기술 교류 방안 확보 • 응용분야 확산을 통한 수요층 증대 산업 활성화 • 상용코드/인하우스 코드 성능과 사용자 정책을 위한 자료 확보 • 클러스터 컴퓨터의 효용성과 서비스 방식 개선을 • 전용 서비스 모델 확보 서비스 개발 • 클러스터 컴퓨팅 핵심 기술 개발 • 차기 클러스터 컴퓨터 구축을 위한 기반 기술 • 체계적인 클러스터 컴퓨터 관리 및 운영 소프트웨어, 파일 서비스 기술 개발 및 확보 핵심 기술 기대 효과

  37. 감사합니다.

More Related