150 likes | 344 Views
面向天文信号处理的 GPU 加速与实现. 三峡大学. 徐洋. 报告内容. 1 、射电信号交叉关联 GPU 加速. 2 、银河系整体消光 —— 贝叶斯定理 GPU 加速. 射电信号交叉关联 GPU 加速. 研究背景. GPU 的性价比越来越高,能耗越来越低,随着官方开发工具的逐步升级,学习及开发难度逐渐降低。. 射电干涉仪阵列规模的不断扩大带来了海量的数据处理需求,该需求的实时处理对传统解决方案的性能和成本等带来巨大的挑战,针对该挑战,我们提出了 GPU 解决方案。. 研究内容. 1 、单 GPU 关联模型的建立及测试. 2 、 GPU 集群关联模型的建立及测试.
E N D
面向天文信号处理的GPU加速与实现 三峡大学 徐洋
报告内容 1、射电信号交叉关联GPU加速 2、银河系整体消光——贝叶斯定理GPU加速
射电信号交叉关联GPU加速 研究背景 GPU的性价比越来越高,能耗越来越低,随着官方开发工具的逐步升级,学习及开发难度逐渐降低。 射电干涉仪阵列规模的不断扩大带来了海量的数据处理需求,该需求的实时处理对传统解决方案的性能和成本等带来巨大的挑战,针对该挑战,我们提出了GPU解决方案。 研究内容 1、单GPU关联模型的建立及测试 2、GPU集群关联模型的建立及测试
射电信号交叉关联GPU加速 GPU与CPU架构的区别
射电信号交叉关联GPU加速 FFT:快速傅里叶变换 CMAC:复数的乘累加 射电信号交叉关联数据处理流程
射电信号交叉关联GPU加速 单GPU模型的建立 B(B+1)/2 CMAC GPU实现模型
射电信号交叉关联GPU加速 单GPU模型的测试 CMAC阶段测试数据参数及规模
射电信号交叉关联GPU加速 单GPU模型的测试 基于GTX580单GPU的CMAC测试结果 “分块”即对累加过程分多次进行,测试结果性能最好的情况为异步方式下分块大小为256时的802GFLOPS,约为GTX580理论峰值的51%,还有一定的提升空间。
射电信号交叉关联GPU加速 GPU集群模型的建立 Recv1 Recv2 … Recvi M个接收节点 FFT1 FFT2 … FFTi N个FFT节点 CMAC1 CMAC2 … CMACi K个相关节点 交叉相关GPU集群模型
射电信号交叉关联GPU加速 GPU集群模型的测试 GPU集群基本处理过程测试(串行方式)
射电信号交叉关联GPU加速 GMRT项目需求 GMRT (Giant Meter wave Radio Telescope)现用集群共有48个节点,包括16个接收节点、16个计算节点和16个存储节点。下表为望远镜基本配置参数: 总数据产生速率: 2.014GB/s FFT阶段计算量: 31.68GFLOPS CMAC阶段计算量:544GFLOPS 即GMRT项目总的计算需求约为600GFLOPS,约占GTX580显卡峰值性能的40%,比上面单机GPU测试的51%的占用率要低,即完成整体项目的计算仅需单个计算节点(一块GTX580显卡)
射电信号交叉关联GPU加速 GMRT项目需求 Recv1 Recv2 … Recvi 16个接收节点 FFT CMAC 1个计算节点 GMRT交叉相关GPU集群模型
银河系整体消光—贝叶斯定理GPU加速 贝叶斯公式原型 计算密集型任务 根据94颗BHB校验星,对14265颗BHB 候选星进行消光处理,采用Intel Core i7 2600k CPU的C程序需要近一个月的时间,通过GPU加速实现后,在GTX580显卡上仅需要2天。
总结 1、经过大量的探索测试,GPU方案可以有效对射电信号的交叉关联过程进行加速。 2、在面向计算密集型的贝叶斯定律时,相对CPU程序,可以得到15倍的加速效果。 3、随着GPU的进一步发展,将来可以满足更多的天文数据处理需求。