面向天文信号处理的 GPU 加速与实现

面向天文信号处理的GPU加速与实现 三峡大学徐洋

报告内容 1、射电信号交叉关联GPU加速 2、银河系整体消光——贝叶斯定理GPU加速

射电信号交叉关联GPU加速 研究背景 GPU的性价比越来越高，能耗越来越低，随着官方开发工具的逐步升级，学习及开发难度逐渐降低。射电干涉仪阵列规模的不断扩大带来了海量的数据处理需求，该需求的实时处理对传统解决方案的性能和成本等带来巨大的挑战，针对该挑战，我们提出了GPU解决方案。研究内容 1、单GPU关联模型的建立及测试 2、GPU集群关联模型的建立及测试

射电信号交叉关联GPU加速 GPU与CPU架构的区别

射电信号交叉关联GPU加速 FFT：快速傅里叶变换 CMAC：复数的乘累加射电信号交叉关联数据处理流程

射电信号交叉关联GPU加速 单GPU模型的建立 B(B+1)/2 CMAC GPU实现模型

射电信号交叉关联GPU加速 单GPU模型的测试 CMAC阶段测试数据参数及规模

射电信号交叉关联GPU加速 单GPU模型的测试基于GTX580单GPU的CMAC测试结果 “分块”即对累加过程分多次进行，测试结果性能最好的情况为异步方式下分块大小为256时的802GFLOPS，约为GTX580理论峰值的51%，还有一定的提升空间。

射电信号交叉关联GPU加速 GPU集群模型的建立 Recv1 Recv2 … Recvi M个接收节点 FFT1 FFT2 … FFTi N个FFT节点 CMAC1 CMAC2 … CMACi K个相关节点交叉相关GPU集群模型

射电信号交叉关联GPU加速 GPU集群模型的测试 GPU集群基本处理过程测试（串行方式）

射电信号交叉关联GPU加速 GMRT项目需求 GMRT (Giant Meter wave Radio Telescope)现用集群共有48个节点，包括16个接收节点、16个计算节点和16个存储节点。下表为望远镜基本配置参数：总数据产生速率： 2.014GB/s FFT阶段计算量： 31.68GFLOPS CMAC阶段计算量：544GFLOPS 即GMRT项目总的计算需求约为600GFLOPS，约占GTX580显卡峰值性能的40%，比上面单机GPU测试的51%的占用率要低，即完成整体项目的计算仅需单个计算节点（一块GTX580显卡）

射电信号交叉关联GPU加速 GMRT项目需求 Recv1 Recv2 … Recvi 16个接收节点 FFT CMAC 1个计算节点 GMRT交叉相关GPU集群模型

银河系整体消光—贝叶斯定理GPU加速 贝叶斯公式原型计算密集型任务根据94颗BHB校验星，对14265颗BHB 候选星进行消光处理，采用Intel Core i7 2600k CPU的C程序需要近一个月的时间，通过GPU加速实现后，在GTX580显卡上仅需要2天。

总结 1、经过大量的探索测试，GPU方案可以有效对射电信号的交叉关联过程进行加速。 2、在面向计算密集型的贝叶斯定律时，相对CPU程序，可以得到15倍的加速效果。 3、随着GPU的进一步发展，将来可以满足更多的天文数据处理需求。

谢谢！

面向天文信号处理的 GPU 加速与实现

面向天文信号处理的 GPU 加速与实现

Presentation Transcript