1 / 27

指导老师:张悠慧

面向气象预报的 可 定制处理器 内核设计. 清华大学计算机系高性能计算所 苏格林. 2010.6.29. 指导老师:张悠慧. 主要内容. 研究目标 为何要使用定制化处理器内核 当前超级计算面临的发展瓶颈 原因分析 定制化趋势 如何研制定制化处理器内核 目标应用 研究内容与方法 基础工作 时间规划. 目 标. 面向气象预报 , 研究可定制 的 高性能科学计算处理器 内核 设计方法与应用 提供 气象预报 应用驱动的可定制处理器 内核 的设计验证方法模型 和 系统 应用需求分析 、 热点分析 、 自动优化方法 处理器内核结构定制 、 指令扩展

Download Presentation

指导老师:张悠慧

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 面向气象预报的 可定制处理器内核设计 清华大学计算机系高性能计算所 苏格林 2010.6.29 指导老师:张悠慧

  2. 主要内容 • 研究目标 • 为何要使用定制化处理器内核 • 当前超级计算面临的发展瓶颈 • 原因分析 • 定制化趋势 • 如何研制定制化处理器内核 • 目标应用 • 研究内容与方法 • 基础工作 • 时间规划

  3. 目 标 • 面向气象预报,研究可定制的高性能科学计算处理器内核设计方法与应用 • 提供气象预报应用驱动的可定制处理器内核的设计验证方法模型和系统 • 应用需求分析、热点分析、自动优化方法 • 处理器内核结构定制、指令扩展 • 软硬件混合的处理器全系统模拟

  4. 为何要用定制化处理器 • 依照现有技术可以达到10-20PFlops的性能;但对于更高的目标,如100PFlops,我们需要一个技术上的巨大变革。 • Cray公司CEO, Peter Ungaro. 2009/07/30

  5. 2020 — EFlops 高性能计算现状 From The TOP500 Project: Looking Back over 15 Years of Supercomputing Experience. By Hans Werner Meuer, 2008.

  6. 发展瓶颈 • 功耗已成为超级计算进一步发展的瓶颈 处理器功耗与面积的增长要快于性能的提升。 Intel’s Own Assessment 用于超级计算机的动力耗费已经接近其研发成本 ($ 72亿 vs. 92亿)。 From Is HPC Going Green? Looking at how we can change the power equation. By Horst D. Simon, ISC 2008. In addition if we say optimistically that today 1 core at 12 Gflops dissipates 25 watts including cooling, we currently need over 2 MW to operate a petaflops machine, 22.5 MW for a 10 petaflops machine and 2.25 GW for an exascale one, which corresponds to 1.4 EPR nuclear plants at 1.6 GW. From Trends for high-performance scientific computing. By WILLIAM J. CAMP. Intel. 2009.

  7. 原因分析 • 基于通用处理器的高性能计算机系统的现有问题 • 1. 存在资源浪费严重的问题 • 据伯克利劳伦斯国家实验室的研究,300余条X86指令中,大致只有80余条是被科学计算所需要的 • 2.不同类型应用对于处理器微体系结构的需求不同(A NERSC/CRD study that examined the dual-core AMD processor used in the Cray XT3&4 , )

  8. Power5 (Server) • 389mm^2 • 120W@1900MHz • Intel Core2 sc (laptop) • 130mm^2 • 15W@1000MHz • ARM Cortex A8 (automobiles) • 5mm^2 • 0.8W@800MHz • Tensilica DP (cell phones / printers) • 0.8mm^2 • 0.09W@600MHz • Tensilica Xtensa (Cisco router) • 0.32mm^2 for 3! • 0.05W@600MHz • 通用处理器的性耗比低 Xtensa x 3 TensilicaDP ARM Intel Core2 Power 5 每个core的性能是最大core的 1/10,但是可以放100X的 core在同一个芯片里消耗的功耗仍然只有原来的1/20

  9. 定制化超级计算机趋势 • 从使用通用技术转向使用专用技术 • 从技术驱动转向应用驱动为主 • Blue Gene,最初的是针对Protein folding 应用研制的,采用嵌入式处理器内核,以后扩展出多个系列 • Green Flash(劳伦斯国家实验室)针对气候模拟采用定制处理器设计的超级计算机(PFlops) IBM的MD-Grape,专为molecular dynamics 定制的高性能计算系统,采用ASIC设计了加速芯片。 Anton(D.E.Shaw),针对biomolecular simulations应用,通过定制的ASIC加速计算器件与定制处理器实现超级计算机。

  10. 定制化超级计算机趋势 • 采用针对应用定制的方法进行超级计算机处理器结构设计是高性能计算领域长期认为最为有效的大大提升处理效率的方法。不过定制化处理器的研发成本高、周期长,阻碍了其被广为采用。 • 但是这一定制化方法在嵌入式处理器领域已经成熟,因此借鉴嵌入式处理器领域的可定制方法,将其应用于超级计算领域,实现高性耗比系统的超级计算系统,是一种可行的思路。

  11. 如何研制定制化处理器

  12. 何为可定制的处理器设计 • 采用小规模的高度可裁剪可扩展的处理器内核 • 提供相应的应用模拟与性能分析工具 使得用户可以 • 快速分析目标应用在不同配置以及不同指令扩展情况下的运行性能与瓶颈 • 反复迭代优化 • 最终获得定制处理器设计和相关的模拟、编译、操作系统等

  13. 技术路线 • 高性能计算处理器与系统设计方法 • 应用是第一位的 气象模拟 • 采用定制处理器 • 针对应用的特点进行处理器剪裁与扩展 • 采用多核/众核技术 • 针对应用的并行模式 • 采用较简单的核/较多的核 • 核间互连结构等优化 • 硬件支持的并行编程模式 • 设计自动化方法 • 芯片定制工具软件、定制工具链 • 基于FPGA的软硬件混合模拟与验证

  14. 目标应用 • 高性能科学计算应用——网格模拟类 • 数值天气预报业务系统GRAPES • 具有自主知识产权的全球中期数值天气同化、预报系统 • 中国气象局数值天气预报专业模式的基础 • 其它类应用 • 地球物理学应用(大气/海洋等模拟)

  15. 挑战—— • GRAPES全球预报模式可扩展性 • 在高分辨率下GRAPES全球模式高效运行 • 使之能够采用与真实大气更加贴近的计算模型,采用更加先进的数据处理手段,提高天气预报的准度和精度,提高气象预报的水平和质量。 • 计算能力? • 算法优化? • 系统功耗?

  16. 气象模拟主要算法 • Helmholtz方程占了很高比重,为定制内核提供了基础

  17. 研究内容

  18. 处理器定制 • 针对气象预报进行指令的优化和扩展 • 应用相关的内存与互连接口优化 • 互连拓扑结构定制 • 核间快速通信接口扩展技术 • 支持MPI并行编程模式的处理器内核间快速通信接口与片上DMA机制

  19. 基础工作 • TensilicaXtensa可定制处理器 • 案例:Green Flash • 相比通用处理器,每瓦特浮点计算效率提高了400倍 • 运行峰值性能达到200PFlops,功耗低于4M瓦特,远低于传统结构下200M瓦特的预估功耗

  20. TensilicaXtensa特点 • 可配置性 • 通过下拉菜单和复选框等方便的选择所需的部件,包括DSP等 • 可扩展性 • 设计者可以添加自己的指令、寄存器、寄存器文件以及其它Tensilica提供的特性 • 自动生成RTL及Tool Chain

  21. LEON3 • LEON3基于FPGA的处理器内核模拟 • LEON3是一种基于SPARC V8的32位处理器 • 在Xilinx XUP V5上进行了模拟 • 可以进行单核和多核配置(1-16)

  22. 时间安排

  23. Thank you!

  24. 气象预报 • 定制内核

More Related