1 / 40

贾伟乐,王龙,曹宗雁,高岩涛,付继芸,迟学斌,高卫国,汪林望 超级计算中心,复旦大学,劳伦斯伯克利国家实验室 中国科学院计算机网络信息中心 2013-11-15

GPU 加速软件 Ultra-Mat 介绍. 贾伟乐,王龙,曹宗雁,高岩涛,付继芸,迟学斌,高卫国,汪林望 超级计算中心,复旦大学,劳伦斯伯克利国家实验室 中国科学院计算机网络信息中心 2013-11-15. Team members. 大纲. 异构架构 - 高性能软件的新机遇 CUDA 编程模型简介 GPU 异构平面波算法设计和优化 测试平台与结果 结论. 超级计算机的发展 -- 异构不可避免. 超级计算机的发展 -- 异构不可避免. 三大挑战:空前的并行性、异构、软件革命. 50Gflops/watt. 单核计算能力: 10 年增长约 50% !.

alder
Download Presentation

贾伟乐,王龙,曹宗雁,高岩涛,付继芸,迟学斌,高卫国,汪林望 超级计算中心,复旦大学,劳伦斯伯克利国家实验室 中国科学院计算机网络信息中心 2013-11-15

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. GPU加速软件Ultra-Mat介绍 • 贾伟乐,王龙,曹宗雁,高岩涛,付继芸,迟学斌,高卫国,汪林望 • 超级计算中心,复旦大学,劳伦斯伯克利国家实验室 • 中国科学院计算机网络信息中心 • 2013-11-15

  2. Team members

  3. 大纲 异构架构-高性能软件的新机遇 CUDA编程模型简介 GPU异构平面波算法设计和优化 测试平台与结果 结论

  4. 超级计算机的发展--异构不可避免

  5. 超级计算机的发展--异构不可避免 三大挑战:空前的并行性、异构、软件革命 50Gflops/watt 单核计算能力:10年增长约50%!

  6. 平面波第一原理的应用现状

  7. 计算材料软件现状 平面波是最常用、最成熟的方法 成熟的软件众多,包括: VASP, CASTEP, CPMD, ABINIT, PWSCF, DACAPO, SOCORRO, DFT++, PARATEC, DOD-PW, CP2K, SPHINX, QBOX, PEtot CPU代码可扩展至千核 单步第一原理分子动力学模拟需要1--2 分钟

  8. 计算材料软件面临的问题

  9. 相关工作 CPU并行方式已发展10-15年,已臻成熟 把CPU的并行模式用于异构架构并非最优 需要重新设计第一原理并行框架

  10. CUDA:GPU异构编程模型

  11. 摩尔定律

  12. GPU-图形处理器

  13. 传统的GPU架构

  14. GPGPU

  15. G80架构

  16. CUDA编程模型

  17. CPU-GPU互动

  18. CUDA实例程序

  19. MPI+CUDA

  20. GPU异构平面波算法设计和优化

  21. 平面波赝势计算复杂

  22. 平面波方法计算流程图

  23. 快速傅立叶变换与矩阵矩阵乘并存

  24. 已发展成熟的CPU并行模式 K点并行 波函数索引并行 倒空间并行

  25. 矩阵相乘放入GPU

  26. 重新设计的GPU混合并行模式 对GPU而言: 传统模式对FFT数据过度划分; 通信时间远超计算时间; 仅有G空间并行难以解决问题----重新设计混合并行模式

  27. CPU/GPU数据拷贝速度严重影响MPI+CUDA程序性能

  28. 消除CPU-GPU内存拷贝后的CG算法流程

  29. 数据压缩算法--压缩后的收敛精度

  30. 库函数

  31. 第一原理分子动力学GPU算法流程

  32. 测试系统和测试结果

  33. 测试系统

  34. CG算法测试结果

  35. step-by-step Optimization

  36. 单步分子动力学计算时间

  37. 1800步分子动力学模拟

  38. 结论 • Ultra-Mat单步第一原理分子动力学能在12s内完成,CPU代码无出其右者 • 对CG算法达到最高30x加速比 • 重新设计GPU混合并行模式 • 设计实现了可应用于CG算法的数据压缩算法,减少了3/4的波函数传输时间 • 最终,计算占比40%, MPI占比35%,CPU/GPU内存拷贝10%,矩阵对角化15%

  39. Ultra-Mat目前的功能 • CPU/GPU均能够运行,GPU代码有20x加速比 • 模守恒赝势和超软赝势 • 可以计算第一原理原子弛豫和分子动力学 • 2013年底发布第一版本代码

  40. 谢谢! jiaweile@gmail.com

More Related