浅析Tile64的LFM―PD处理解决方案

时间:2022-10-09 07:13:36

浅析Tile64的LFM―PD处理解决方案

摘 要:本文针对Tilera公司与2010年出品的Tilepro系列多核处理器Tile64提出了一种LFMPD算法的解决方案,Tile64内置了64个完成相同的处理核心,该处理器是高性能同构多核处理器的典型代表。

关键词:多核处理器Tile64;LFMPD算法;FPGA

中图分类号:TP393.08 文献标识码:A 文章编号:1674-7712 (2013) 08-0000-01

虽然DSP内部结构经过多种手段完善以提高处理能力,但是其处理能力也不能与内置上百个核心的GPU来相比。目前GPU的处理模式实际上是CPU+GPU协同处理,CPU作为主处理器进行任务调度并执行一些逻辑分支跳转的指令,而GPU作为协处理器专注于计算密集型的并行处理任务。实际上这是一种异构形式的多核处理系统,目前市场上已经出现了类似结构的处理器,与CPU+GPU结构不同的是,这种异构的多核处理器的主从处理器与协处理器是集成在一片芯片上的,这样增加了主处理器与协处理器的通信带宽,使二者可以更快地传输数据。例如Clearspeed公司出品的CSX700,其内部具有2个主处理器MTAPcore,而每个MTAPcore中包含有96个协调处理器PE。

虽然这种异构的多核处理器非常适合于做数字信号处理,但由于其主从的结构的局限,使其在通用领域上的应用受到了一定的限制。随着IC技术的发展与集成电路工艺的提高,芯片领域出现了一种将多个相同的处理核心集成到一片芯片的处理器,类似于双核CPU与四核CPU,不过处理核心的数目要远多于此。这种处理器内部集成的每个处理核心都是相同的,具有完整的指令发射单元与ALU,每个处理器核心均相当一个简易的DSP。这种同构的多核处理器相比于主从结构的异构处理器具有更大的通用性,同时其也具有非常强劲的处理性能。将其应用于雷达信号处理领域,可以将以往多个DSP甚至多个板卡完成的处理工作均在一片多核处理器中完成,大大节省了资源利用并降低了设计难度,提升了功能可靠性,这时未来雷达信号处理领域的一个发展方向。

一、Tile64多核处理器架构

Tile64是Tilera公司于2009年出品的Tile系列处理器,其应用了Tilera的典型多核结构,每个处理器核心成为一个tile,整个处理器中所有的tile通过一个二维的iMesh网络相连。这种iMesh的联接模式保证了tile之间的高传输带宽与低通信延迟。Tile64处理器片上集成了众多的外部接口与可编程的tile,而这些接口都是通过iMesh网络与tile相连接。

在Tile64中,内部集成了64个tile,每个tile都是一个独立而完整的强大的处理核心,每个tile均可以单独运行简单的操作系统,例如Linux。相比于GPU中上百个CUDAcore,每个tile的功能更加完整,具有单独的流水线与指令发射单元,其更类似于一个简单的DSP。每个tile均为一个32位的定点处理器,其内部具有三路VLIW(超长指令字)、独立的cache与DMA系统。每个tile在一个时钟周期均可以执行3条指令。

对于多核处理器的设计,其最大的难点之一是如何保持缓存的一致性,也就是说,当一个处理核心在修改了位于储存器某位置中的数据,而另一个核心要访问映射到该位置的cache,如何使另一个核心永远能访问到正确的数据,这就是缓存一致性的问题。Tile64提供了保持缓存一致性的完成的硬件支持,其将需要使用的存储空间分配给某个tile管理,而该tile成为了该片存储空间的home-tile,home-tile将对所有映射到该存储间的cache进行管理,当其他的tile要访问映射到该存储空间的cache时,home-tile将保证其访问的永远是正确的数据,这种保证缓存一致性的硬件机制大大降低了开发者的开发难度,使用户利用每个tile均可以简单地访问存储器中的数据。

二、基于Tile64的LFM-PD处理解决方案

由于在Tile64的64个tile中,需要有一个主tile来负责SMP Linux的启动与资源分配,并完成初始化功能,同时为后续的处理留有余量,因此系统选用32个tile完成数据处理。同时由于4069与256均为32的整数倍,系统算法的实现难度也会相对降低。考虑到Tile64系统的处理能力,按上述流程利用32个tile完成数据处理就可以充分的保证系统的实时性。

其实施难点在于FFT、复乘等处理的拆分及32个tile的运算任务分配,充分利用Tile64的计算能力是发挥系统处理能力的关键所在。

参考文献:

[1]孙进平等.DSP/FPGA嵌入式实时处理技术及应用[M].北京:北京航空航天大学出版社,2011.

[2]张跃,夏宇闻.基于FPGA的数字音频采集、存储和播放系统[A].全国第十届信号与信息处理、第四届DSP应用技术联合学术会议论文集[C].2006.

上一篇:单片机低功耗技术应用研究 下一篇:强电与弱电的区别探析