280 likes | 429 Views
可配置可扩展 T*CORE 处理器 及在天文图像处理中的应用. - 面向 AST3 项目的硬件加速器设计 郭炜 天津大学 VLSI 设计与应用研究所 天文信息技术联合实验室. 1. 2. 内容大纲. 传输触发体系结构与 T*CORE. 面向天文图像处理的 T*CORE 设计. 未来芯片将整合数千个小核心. 未来芯片将整合数千个小核 , 而不是只依赖于某个单一的复杂核。 多任务处理技术可使整体的运算吞吐量高很多。 许多小核及小的存储器的芯片,芯片面积减少,功耗大为降低 。 - Intel fellow ShekharBorkar. 嵌入式解决方案.
E N D
可配置可扩展T*CORE处理器及在天文图像处理中的应用可配置可扩展T*CORE处理器及在天文图像处理中的应用 -面向AST3项目的硬件加速器设计 郭炜 天津大学 VLSI设计与应用研究所 天文信息技术联合实验室
1 2 内容大纲 传输触发体系结构与T*CORE 面向天文图像处理的T*CORE设计
未来芯片将整合数千个小核心 • 未来芯片将整合数千个小核,而不是只依赖于某个单一的复杂核。 • 多任务处理技术可使整体的运算吞吐量高很多。 • 许多小核及小的存储器的芯片,芯片面积减少,功耗大为降低 。 - Intel fellowShekharBorkar
嵌入式解决方案 • 专用芯片(ASIC : Application Specific Integrated Circuit) • 缺少灵活性 • 通用处理器(CPU,DSP) • 效率低、功耗大 • 专用指令集处理器(ASP/ASIP: Application Specific Instruction processor) • 兼顾灵活性、高性能、低功耗等优点 • 传输触发体系结构: Transport Triggered Architecture (TTA) • 由TU Delft 的H. Corporaal 等在1991年提出 • 属于ASP/ASIP
TTA处理器指令格式 • TTA处理器只包含一种操作:数据传输操作MOVE • 超长指令字(VLIW) instruction operation source
TTA处理器的优势/劣势 • 模块化 • 松耦合 • 可配置可扩展 • 高性能 • 低成本 • 低功耗 • 架构组合和设计空间不确定 • 编译器设计复杂 • 代码优化的困难 • 指令膨胀迅速
T*CORE处理器 • T*CORE是基于TTA 架构可配置可扩展的处理器 • 一种处理器模板 • 更多的可配置性与扩展性 • 更灵活的指令架构 • 特制的软硬件协同设计流程及相关工具集 • 硬件模块库
T*CORE处理器设计的关键 • 可配置性可扩展性扩大了T*CORE处理器架构的选择范围,进行设计空间探索尤为重要。 • 需要在更高的抽象层次上对架构进行仿真,通过设计空间探测获得最优架构方案 • 支持自定义的指令及更多可见的编程细节使得手工编程几乎成为不可能。 • 一个高效的可重定目标编译器是T*CORE处理器的性能得以充分发挥的关键 • 高效的软硬件协同设计方法及相关工具集的设计是决定T*CORE能否被广泛应用的关键.
T*CORE A0424v1芯片 • 面向音频解码(mp3)的应用 • 2009年6月,采用GSMC 0.13um CMOS工艺, 成功MPW流片
MP3解码性能分析 • 计算密集型部分采用硬件加速器 – Tcore协处理器
面向MP3解码SoC架构 实现实时MP3解码的工作频率:30MHz;功耗:< 1W
T*CORE A0424v1指令架构 • 指令宽度96-bit,分为4个slot,宽度分别为16-bit,16-bit,32bit,32bit • 只有slot1可以执行跳转操作 • 各个slot所支持的立即数宽度不同
T*CORE A0424v1空操作复用 • 实现指令压缩 • 提高代码密度 空指令复用 + 特殊的load/store单元设计: DCT32节省81%
1 2 内容大纲 传输触发体系结构与T*CORE 面向天文图像处理的T*CORE设计
天文图像空间变换核降晰算法 • 天文图像相减: • 同一天区不同时刻拍摄的天文照片(源图像)同模板图像(参考图像)进行差异比较,分析出不同时刻星迹变化情况。 • 降晰处理: • 由于气象、背景光线等因素导致图像清晰度不同,每个恒星的点扩散函数不同,因此在相减之前必须对模板图像进行降晰处理。 • Alard等人提出的空间变换核降晰算法 : • 在时间空间(而不是在傅立叶空间)完成卷积核的计算 执行降晰运算,即执行卷积运算: • 最后对C和源图像执行相减操作,得到变源。 其中, R:模版图像; K:核函数; C: 降晰后的模版图像
空间变换核降晰算法各模块所占计算比重 • 对使用Alard算法所实现的软件ISIS分析
计算量最大部分为执行降晰运算 • 以图像大小为2K×2K、卷积核为19×19为例,执行降晰运算时需要的计算为2K×2K×19×19=1.51×109次
降晰运算的硬件设计 • 自定义的浮点数格式 • 将双精度64-bit浮点格式的数据变为自定义32-bit浮点格式的数据,硬件面积减少约一倍。 • 对精度的影响
降晰运算的硬件设计 • 数据存储方式和计算流程 • 根据所采用的降晰运算的规律,分析了数据复用的可行性,在设计Tcore处理器的应用软件时,采用特殊的数据存储方式
降晰运算的硬件设计 • Tcore协处理器内部架构
降晰运算的硬件设计 • 硬件系统结构图
有待解决的问题 • 大尺寸图像(10K x 10K) ,卷积核(30 x 30). • 多个T*CORE架构 • 问题:图像划分,核间通讯,存储墙