430 likes | 805 Views
GPU 加速软件 Ultra-Mat 介绍. 贾伟乐,王龙,曹宗雁,高岩涛,付继芸,迟学斌,高卫国,汪林望 超级计算中心,复旦大学,劳伦斯伯克利国家实验室 中国科学院计算机网络信息中心 2013-11-15. Team members. 大纲. 异构架构 - 高性能软件的新机遇 CUDA 编程模型简介 GPU 异构平面波算法设计和优化 测试平台与结果 结论. 超级计算机的发展 -- 异构不可避免. 超级计算机的发展 -- 异构不可避免. 三大挑战:空前的并行性、异构、软件革命. 50Gflops/watt. 单核计算能力: 10 年增长约 50% !.
E N D
GPU加速软件Ultra-Mat介绍 • 贾伟乐,王龙,曹宗雁,高岩涛,付继芸,迟学斌,高卫国,汪林望 • 超级计算中心,复旦大学,劳伦斯伯克利国家实验室 • 中国科学院计算机网络信息中心 • 2013-11-15
大纲 异构架构-高性能软件的新机遇 CUDA编程模型简介 GPU异构平面波算法设计和优化 测试平台与结果 结论
超级计算机的发展--异构不可避免 三大挑战:空前的并行性、异构、软件革命 50Gflops/watt 单核计算能力:10年增长约50%!
计算材料软件现状 平面波是最常用、最成熟的方法 成熟的软件众多,包括: VASP, CASTEP, CPMD, ABINIT, PWSCF, DACAPO, SOCORRO, DFT++, PARATEC, DOD-PW, CP2K, SPHINX, QBOX, PEtot CPU代码可扩展至千核 单步第一原理分子动力学模拟需要1--2 分钟
相关工作 CPU并行方式已发展10-15年,已臻成熟 把CPU的并行模式用于异构架构并非最优 需要重新设计第一原理并行框架
已发展成熟的CPU并行模式 K点并行 波函数索引并行 倒空间并行
重新设计的GPU混合并行模式 对GPU而言: 传统模式对FFT数据过度划分; 通信时间远超计算时间; 仅有G空间并行难以解决问题----重新设计混合并行模式
结论 • Ultra-Mat单步第一原理分子动力学能在12s内完成,CPU代码无出其右者 • 对CG算法达到最高30x加速比 • 重新设计GPU混合并行模式 • 设计实现了可应用于CG算法的数据压缩算法,减少了3/4的波函数传输时间 • 最终,计算占比40%, MPI占比35%,CPU/GPU内存拷贝10%,矩阵对角化15%
Ultra-Mat目前的功能 • CPU/GPU均能够运行,GPU代码有20x加速比 • 模守恒赝势和超软赝势 • 可以计算第一原理原子弛豫和分子动力学 • 2013年底发布第一版本代码
谢谢! jiaweile@gmail.com