1 / 15

面向天文信号处理的 GPU 加速与实现

面向天文信号处理的 GPU 加速与实现. 三峡大学. 徐洋. 报告内容. 1 、射电信号交叉关联 GPU 加速. 2 、银河系整体消光 —— 贝叶斯定理 GPU 加速. 射电信号交叉关联 GPU 加速. 研究背景. GPU 的性价比越来越高,能耗越来越低,随着官方开发工具的逐步升级,学习及开发难度逐渐降低。. 射电干涉仪阵列规模的不断扩大带来了海量的数据处理需求,该需求的实时处理对传统解决方案的性能和成本等带来巨大的挑战,针对该挑战,我们提出了 GPU 解决方案。. 研究内容. 1 、单 GPU 关联模型的建立及测试. 2 、 GPU 集群关联模型的建立及测试.

fergus
Download Presentation

面向天文信号处理的 GPU 加速与实现

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 面向天文信号处理的GPU加速与实现 三峡大学 徐洋

  2. 报告内容 1、射电信号交叉关联GPU加速 2、银河系整体消光——贝叶斯定理GPU加速

  3. 射电信号交叉关联GPU加速 研究背景 GPU的性价比越来越高,能耗越来越低,随着官方开发工具的逐步升级,学习及开发难度逐渐降低。 射电干涉仪阵列规模的不断扩大带来了海量的数据处理需求,该需求的实时处理对传统解决方案的性能和成本等带来巨大的挑战,针对该挑战,我们提出了GPU解决方案。 研究内容 1、单GPU关联模型的建立及测试 2、GPU集群关联模型的建立及测试

  4. 射电信号交叉关联GPU加速 GPU与CPU架构的区别

  5. 射电信号交叉关联GPU加速 FFT:快速傅里叶变换 CMAC:复数的乘累加 射电信号交叉关联数据处理流程

  6. 射电信号交叉关联GPU加速 单GPU模型的建立 B(B+1)/2 CMAC GPU实现模型

  7. 射电信号交叉关联GPU加速 单GPU模型的测试 CMAC阶段测试数据参数及规模

  8. 射电信号交叉关联GPU加速 单GPU模型的测试 基于GTX580单GPU的CMAC测试结果 “分块”即对累加过程分多次进行,测试结果性能最好的情况为异步方式下分块大小为256时的802GFLOPS,约为GTX580理论峰值的51%,还有一定的提升空间。

  9. 射电信号交叉关联GPU加速 GPU集群模型的建立 Recv1 Recv2 … Recvi M个接收节点 FFT1 FFT2 … FFTi N个FFT节点 CMAC1 CMAC2 … CMACi K个相关节点 交叉相关GPU集群模型

  10. 射电信号交叉关联GPU加速 GPU集群模型的测试 GPU集群基本处理过程测试(串行方式)

  11. 射电信号交叉关联GPU加速 GMRT项目需求 GMRT (Giant Meter wave Radio Telescope)现用集群共有48个节点,包括16个接收节点、16个计算节点和16个存储节点。下表为望远镜基本配置参数: 总数据产生速率: 2.014GB/s FFT阶段计算量: 31.68GFLOPS CMAC阶段计算量:544GFLOPS 即GMRT项目总的计算需求约为600GFLOPS,约占GTX580显卡峰值性能的40%,比上面单机GPU测试的51%的占用率要低,即完成整体项目的计算仅需单个计算节点(一块GTX580显卡)

  12. 射电信号交叉关联GPU加速 GMRT项目需求 Recv1 Recv2 … Recvi 16个接收节点 FFT CMAC 1个计算节点 GMRT交叉相关GPU集群模型

  13. 银河系整体消光—贝叶斯定理GPU加速 贝叶斯公式原型 计算密集型任务 根据94颗BHB校验星,对14265颗BHB 候选星进行消光处理,采用Intel Core i7 2600k CPU的C程序需要近一个月的时间,通过GPU加速实现后,在GTX580显卡上仅需要2天。

  14. 总结 1、经过大量的探索测试,GPU方案可以有效对射电信号的交叉关联过程进行加速。 2、在面向计算密集型的贝叶斯定律时,相对CPU程序,可以得到15倍的加速效果。 3、随着GPU的进一步发展,将来可以满足更多的天文数据处理需求。

  15. 谢谢!

More Related