450 likes | 545 Views
科學計算服務. Aug. 30, 2003 報告人:謝鐐暲. 任務. 全院高效能計算環境之規劃及諮詢 全院科學計算軟體系統之建置及維護 整合全院計算資源,促進跨領域之科學計算合作事項 高效能科學計算演算法及程式之研發 促進科學計算研究之應用及合作事項. 院內科學計算背景及特性. 少數使用者使用大量計算資源 院內同仁自行開發計算程式之比例不多 大型計算的需求愈來愈多 多元化計算生物學需求日益增加. 面臨使用者計算需求之問題. 現有計算平台之擴充之可行性 系統之複雜度 計算典範之轉移 應用程式需求之增加 計算程式需求之增加 (memory & I/O)
E N D
科學計算服務 Aug. 30, 2003 報告人:謝鐐暲
任務 • 全院高效能計算環境之規劃及諮詢 • 全院科學計算軟體系統之建置及維護 • 整合全院計算資源,促進跨領域之科學計算合作事項 • 高效能科學計算演算法及程式之研發 • 促進科學計算研究之應用及合作事項
院內科學計算背景及特性 • 少數使用者使用大量計算資源 • 院內同仁自行開發計算程式之比例不多 • 大型計算的需求愈來愈多 • 多元化計算生物學需求日益增加
面臨使用者計算需求之問題 • 現有計算平台之擴充之可行性 • 系統之複雜度 • 計算典範之轉移 • 應用程式需求之增加 • 計算程式需求之增加(memory & I/O) • 程式執行時間愈來愈長(up to months) • 管理及分析巨量資料之需求(Peta bytes) • 生物資訊計算需求 • 大量資料庫之整合 • 不同工作程序之整合流程 • 可擴充計算平台及入口網站之整合服務功能 • 國際合作計畫 • 先進網路需求 • 網格計算及應用
使用者應用領域 • 理論及計算物理 -- 物理所、原分所、數學所 • 計算化學 -- 化學所、原分所 • 天文物理 -- 天文所 • 分子結構 – 生化所、分生所、生醫所、原分所、化學所 • 蛋白質體 – 生醫所、生化所、物理所 • 生物資訊 –生醫所、分生所、生化所、動物所、植物所、生農所、統計所、資訊所 • 地震學 – 地球所
計算資源 • 過去十年科學計算能量成長達1,500倍,但是仍然不足 • 有限經費下,除了引進高穩定行之商業系統,自行建置擴充性強之PC Cluster系統 • 目前計算資源 • HP SPP 2000 (16-way SMP:11.52 Gflops): SMP 平行計算、計算化學 • IBM RS6000 SP ( 40 P2SC nodes: 21.6Gflops) Sequential jobs, G98 • IBM RS6000 SP (32 4-way POWER3 nodes: 192Gflops) 大尺度平行計算程式 • SGI Onyx (2 CPUs) 科學視算 • Linux PC Cluster (210不同頻率計算結點)高能計算、 網格計算 • Linux PC Cluster (64 1.2 GHz 計算結點) 生物資訊計算
人員 • 科學計算服務小組: 3人 • 支援小組開始於1991 • 生物資訊支援小組: 11人 • 國家基因體醫學計畫之子計畫 • 計畫開始於2002年5月 • PC Cluster研發及建置: 6人 • 計畫開始於1996年12月
執行:系統管理 • 提供一致性之程式發展及計算環境 • 允許大尺度平行計算及長時間執行程式之計算環境 • 依據應用程式特性, 將使用者導入適合之計算平台 • 依據使用者特殊需求,提供彈性之系統調整
執行 :支援及服務 • 應用軟體之安裝、 客製化及支援服務 • 有關系統應用問題之解決方案 • 計算需求之分析及評估諮詢服務 • 科學計算程式之最佳化及平行化 • 協助計算程式之開發 • 程式開發及系統資源有效使用之教育訓練
生物資訊核心設施 計算群組及應用
計畫目標 • 成立生物資訊技術小組,優先支援建置核心實驗設施計畫之資訊基礎。 • 提供全國『基因體醫學國家型科技計畫』之基本計算服務。 • 積極培育生物資訊專業資訊人才。
課題 (Scope of Tasks) • 國內生物資訊技術專業人才不足 • 核心實驗設施資訊專業需求多元化 • 如何提供全國生物資訊計算基本需求 • 生物資訊之整合及應用
執行策略 • 以計算中心科學計算及資訊專業人員參與及支援生命科學之研究工作,合作開發演算法及應用程式,培育生物資訊專業人才。 • 依據核心實驗設施計畫需求,以資訊專業經驗共同參與系統開發。 • 使用計算中心建置PC Cluster系統的經驗,建立生物資訊計算與應用基礎架構,提供可擴充、 穩定及有效之計算服務。 • 引進國外資訊技術,整合國內計算資源,促進學術及產業合作。
技術支援及服務工作 • 專屬計算系統應用程式之整合開發 • 計算程式最佳化及平行程式之發展 • 資料庫系統之建置開發及維護 • 協助研究人員合作開發程式 • 專業資訊技術之諮詢及教育訓練課程
重要成果1 • 成立生物資訊技術小組,協助全國生命科學研究工作推展。 • 建立專屬生物資訊計算系統 BioCluster (64 CPUs PC Linux Cluster) 提供全國生物資訊發展平台。 • 因應核心設施計畫及個別研究需求建置資料庫系統及整合。例如ENU老鼠資料庫、老鼠管理系統、NGC LIMS系統、NGC SNP整合資料庫系統、MicroArray SMD系統、水稻基因定序及註解系統程式開發等。
重要成果2 • 以BioCluster為基礎,開發生命科學研究入口網站之系統,並提供生物資訊分析程式工具。 • 以BioPortal系統架構為基礎,展開相關生物資訊之合作計畫,目前有中研院生醫所、統計所、陽明大學共同參與開發工作。 • 協助研究人員開發基因比對及註解分析程式。目前完成5個 cDNA (HGI、MGI 、RGI 、ZGI 、DGI),人類及老鼠染色體等資料庫建置。
Scientific Computing 附錄1 -1 • Complexity of Computing Platform • Processor with built-in parallel processing computing elements • Various implementations of parallel systems • Memory subsystem at processor level and global data transfer at system level • Demanding of Large Scale Computing Processing of Large Amount of Data and Visualization • Computing system is a collection of distributed resources • Subroutine call becomes a procedure call to distributed resources • Parallelization of Application Program • Standardization of parallel programming model • Find parallelism in a program is no longer a major issue
Parallel ProgrammingIn Practice 附錄1 -2 • MPI: high scalability OpenMP: medium parallelism • MPI tasks: Synchronized {computing → comm.} sequences • Floating point computation is almost free • Performance Inhibitors • Data fetching/storing • Load in-balance among parallel tasks/threads • Frequency of synchronization • Cost of data communication
Parallel ProgrammingProgramming Considerations for High Performance 附錄1 -3 • Mixed MPI/OpenMP parallelism • Decomposition of global data • Localization of data within a parallel task/thread • Data organization • Data flow in a program • Data reuse adapted to the memory subsystem • Data pre fetching • Dynamic load balance • Asynchronized computing and communication • Reevaluation of computing kernel / numerical method
Computing ResourcesInformation and Database Service Systems 附錄2 -1
Computing ResourcesMass Storage System 附錄2 -2 • Online Disk: IBM 2105-F20 13TB PC Cluster Raidsys 1.6TB PC Cluster Proware 280 GB • Robatic Tape Library: IBM 3584 & 3494 130TB
Computing ResourcesScientific computing System: High Performance 附錄2 -3
Computing ResourcesScientific Computing System: Linux PC Cluster Complex 附錄2 -4
ASCC HPC Forum 附錄2 -5a • High Performance Computing System • Consistent Programming model • Highly parallel system for large scale computing • IBM SP (Gauss, Euler) • PC Linux Cluster • Mass Storage • Backup (Tape Archive Library 30 TB) • Online Storage for HPC System(1 TB) • Advanced Network • Parallel Programming Consultant • Scientific Computing Program optimization & Porting
ASCC HPC Forum 附錄2 -5b • Site License Software • Bio-Chemical Package • Gaussian, Gauss View, MSI • Mathematical Subroutines • IBM ESSL, IBM PESSL, NAG F77/F90, IMSL • Symbolic Computation Packages • Maple, Mathematica • Numerical & Statistical Analysis • SAS, SPSS, Matlab • Database • Oracle Database • Education and Training • UNIX • Parallel Workshop • Linux • Network Security
ASCC HPC Queue Policy (Gauss) 附錄2 -6a Configuration There are total 32 4-way SMP Node (128 CPUs) on the system
ASCC HPC Queue Policy (Gauss) 附錄2 -6b System Queue Every user has 2 simultaneous running jobs!
ASCC HPC Queue Policy (Euler) 附錄2 -7a Configuration There are total 40 Nodes on the system
ASCC HPC Queue Policy (Euler) 附錄2 -7b System Queue Every user has 4 simultaneous running jobs!
ASCC HPC Queue Policy (Pascal) 附錄2 -8a Configuration There are16 CPUs SMP system
ASCC HPC Queue Policy (Pascal) 附錄2 -8b System Queue
Summary of the Scientific Computing Software 附錄2 -9a • BIO-CHEMICAL COMPUTATION • GAUSSIAN 03, GAUSSIAN 98, GAUSSIAN 94, Jaguar • MSI Protein Modules • InsightII / Affinity, Binging Site Analysis, Biopolymer, Discover • InsightII / Felix Assign, Felix Model, Felix ND • InsightII / Homology, Modeler, Ludi, Ludi ACD, • InsightII / Search, Compare, Sketcher, Profile-3D • QUANTA / QUANTA Core, X-Autofit, X-Build, X-Ligand, X-Solvate • QUANTA / X-Powerfit, CHARMm, Protein Health, Protein Design • MSI RCDD Modules • Cerius2 / Descriptor+, Diversity, Genetic algorithms • Cerius2 / Lib Compare, Lib Engine, Lib Profile, Lib Select • Cerius2 / Ligand Fit, Mopac Interface, QSAR+, SBF, Visualizer • Catalys / Compare, Confirm, Hiphop, Hypogen • Catalys / Shape, Visualizer, Maybridge, NCI
Summary of the Scientific Computing Software 附錄2 -9b • MSI Quantum Modules • Cerius2 / Castep, Castep Interface, Polymer Builder, Surface Builder • Cerius2 / Crystal Builder, Interface Builder • Cerius2 / Amorphous Builder, Minimer, Dynamic, OFF • Cerius2 / IR/RAMAN, Blends, FFE, Morphology, SDK • Cerius2 / Zindo, Zindo Interface • COMPIER & PARALLEL TOOLS • IBM XLF 7.1, KAP IBM C, KAP IBM FORTRAN, • NAG F90, VAST90, PGROUP F77/F90/HPF/C/C++ • APR, IBM PE, MPICH • MATHEMATICAL LIBRARY • IBM ESSL, IBM MASS, IMSL • NAG F77 LIBRARY, NAG F90 LIBRARY
Summary of the Scientific Computing Software 附錄2 -9c • NUMERICAL & STATISTICAL ANALYSIS • GAUSS / Descriptive Statistics, Linear Programming, Linear Regression • GAUSS / Loglinear Analysis, Nonlinear Equations, Maximun likelihood • GAUSS / Optimization, Quantal Response, Time Series • MATLAB / Financial, Image Processing, Neural Network, Optimization • MATLAB / Signal Processing, Statistics, Simulink, Wavelink • SAS, SPSS • SCIENTIFIC VISUALISATION • IDL, IRIS Explorer, PV-Wave • MATLAB / Financial, Image Processing, Neural Network, Optimization • MATLAB / Signal Processing, Statistics, Simulink, Wavelink • SYMBOLIC COMPUTATION • AXIOM, MAPLE 8, MATHEMATICA
生物資訊小組91年度主要成果(一) 附錄 3-1 • 成立生物資訊技術小組,結合計算中心科學計算、資料庫開發、生化計算等專業人才。協助推展全國生命科學研究工作。 • 四月完成生物資訊及計算專屬系統64 CPUs BioCluster之建置,並提供全國生物資訊計算服務。目前共有46個使用者帳號。 • 六月底完成資料庫開發工具Oracle系統之建置。協助核心設施及研究人員建置及開發資料庫系統,並提供教育訓練課程及系統管理諮詢服務。 • 以計算中心自行研發資料庫整合開發系統DORE,協助核心設施完成資訊需求建置。例如:合作開發基因體鑑定中心LIMS系統 (十一月完成第一階段)、協助基因突變鼠核心老鼠資料庫系統開發 • Accelrys 生物資訊及計算軟體更新維護( GCG、Protein、RCDD、Quantum等模組) 。 • 配合專屬計算系統推廣服務,五月開始提供教育訓練課程,總計10次,177人次。
生物資訊小組91年度主要成果(二) 附錄 3-2 • 促進中央研究院研究人員與IBM生命科學專家合作,三月開始進行生物資訊整合資料庫先導型計畫,測試DiscoveryLink整合dbEST、dbSNP及Swiss-Prot等資料庫。 • 四月與研究人員合作發展基因註解平行程式(CRASA)於BioCluster系統。 • 依據研究人員需求,九月份完成使用資料庫開發系統Oracle完成移植Stanford Microarray SMD 資料庫之建置。 • 因應水稻基因計畫需求,十一月開始進行開發水稻第五條染色體基因接續及註解程式。 • 建置及維護計劃辦公室網頁、協助基因突變鼠核心設施網頁建置及維護 • 配合專屬計算系統推廣服務,五月開始提供教育訓練課程,總計10次,177人次。
91年度教育訓練(一) 附錄 3-3 a
91年度教育訓練(二) 附錄 3-3 b
研討會 附錄 3-4
生物資訊小組92年度主要服務項目(一) 附錄 3-5a • MicroArray SMD 系統三月正式上線提供服務 • 三月完成更新ENU突變鼠資料庫系統(Oracle 版本) • 三月完成測試應用Grid技術進行CRASA整合工作 • 合作開發NGC dbSNPs 整合型資料庫系統(一月完成測試版) • 合作開發NGC LIMS實驗室管理自動化系統(三月開始第二階段) • 合作開發ENU突變鼠管理系統(三月開始,已開始測試上線系統) • 完成BioPortal系統開發及生物資訊應用程式之整合服務(完成BLAST、CRASA、SMD之整合) • 蛋白質質譜分析程式之開發及應用
生物資訊小組92年度主要服務項目(二) 附錄 3-5b • 應用Metadata技術進行生物資訊資料庫內涵分析 • 五月初與台灣IBM合作進行測試新版整合分散式資料庫的技術(Information Integrator ),以期掌握整合異質資料庫之開發技術 • 因應研究人員需求,開發SNP分析程式、實驗儀器驅動程式等 • 依據研究實驗需求,開發SMD系統之應用及分析程式 • 依據蛋白質體核心設施需求,整合質譜分析實驗流程 • 今年完成6次教育訓練課程,共計261人次
92年度教育訓練 附錄 3-6