NoC功耗与性能的研究

时间:2022-06-06 01:07:00

NoC功耗与性能的研究

摘要:在当前高性能片上网络设计中,功耗和延迟是设计所面临的核心问题之一。在此着重阐述了构成低功耗和低延迟noc的4种结构:低摆幅的信号传输结构、可重构的NoC结构、3D的IC设计结构、基于数据压缩机制的结构。通过对其功过原理的分析,比较了4种结构的优缺点,最后对未来低功耗、低延迟的NoC发展方向做出了预测。

关键词:NoC; 低功耗; 低延迟; 3D

中图分类号:TN91934文献标识码:A文章编号:1004373X(2012)04017304

Power consumption and performance of network on chip

PENG Yonghong1, XIN Jie2, ZHOU Xiaowei3, SHEN Bo3, DING Yifeng3

(1. Guomao Electronic Systems Co., Ltd., Suzhou,215000, China; 2. Deparment of Computer Science, Suzhou University, Suzhou 215000, China;

3. Suzhou Industrial District Science and Technology Development Co., Ltd., Suzhou 215000, China)

Abstract: The power consumption and timedelay are the most important design constraints in the highperformance NOC (network on chip) design. Four structures of NOC with low power consumption and low timedelay are elaborated: low swing signal transmission structure, reconfigurable NOC structure, 3D IC design structure and structure based on data compression mechanism. The advantages and disadvantages of the four structures are compared by the analysis of the theoretic diagram and the principle of each type of NOC. Finally, the development directions of the low power consumption and low timedelay NOC are predicted.

Keywords: NOC; low power consumption; low timedelay; 3D

收稿日期:201109150引言

片上系统(System on Chip,SoC)和IP核技术的研究始于20世纪90年代初,并在随后的十几年中,得到了飞速的发展,到目前已有集成了十几亿个晶体管的单片芯片[1],当SoC的集成度越高时,芯片上的延迟、功耗等问题也就越突出。尤其表现出了总线的可扩展性弱,平均通信率低和单一时钟的同步性差等问题。于是在1999年研究者们提出了片上网络(Network on Chip,NoC)的概念来解决上述问题[23]。

NoC可以定义为在单一芯片上实现基于网络通信的多处理器系统,其中包括计算节点和通信节点。计算节点为完成广义的计算任务,它可以是单一的IP核也可以是比较完整的SoC,而通信节点为负责计算节点之间的数据通信。片上网络是借鉴分布式计算机系统的通信方式,由分组交换技术和路由技术代替传统的总线技术完成通信。NoC的核心思想是将计算机网络技术移植到芯片设计中来,从体系的结构上解决有关SoC的问题。主要表现在NoC网络具有良好的地址空间可扩展性,同时提供良好的并行通信能力和使用全局异步局部同步机制,解决了总线结构的单一时钟同步等一系列问题[4]。

目前NoC相关的研究主要集中在NoC网络协议、NoC拓扑结构、低功耗和低延迟等方面。研究表明,随着集成电路技术的快速发展,目前互联线的延迟比MOS管的延迟更严重,同时随着集成度的提高[1],也使得互联线的功耗问题成为了NoC研究的核心问题[5]之一。例如Intel生产的“万亿级芯片”,它的互联线功耗占整个芯片功耗的40%[6],麻省理工学院(MIT)研究的可重构Raw处理器,在互联线上消耗的功耗占整个处理器功耗的36%之多[7],由韩国KAIST实验室设计的应用低功耗NoC技术生产的BONE2芯片,其NoC互联部分的功耗也占到了31.8%[8]。

本文将对实现低功耗和低延迟NoC的4种结构进行详细分析,包括了低摆幅的信号传输结构、可重构的NoC结构、3D的IC设计结构、基于数据压缩机制的结构,并比较这4种结构在功耗和延迟等方面的优缺点。在此基础上,预测了NoC的发展趋势。

1低功耗、低延迟的4种NoC结构

1.1低摆幅的信号传输结构

对于传输线上的功耗计算可以由下面的公式给出[9]:Plink = αCLVswingVdriverf(1)式中:α为信号翻转率;CL为电路负载电容;Vswing为传输线上的电压摆幅;Vdriver为驱动电压;f为信号的频率。

从式(1)中可以看出,采用低的摆幅传输线电压,可以降低系统的功耗。如Kangmin Lee[10]等提出了图1所示的电路。这个电路可以降低功耗、减少延迟,并具有很强的抗干扰能力。

图1低摆幅电压电路对于图1中传输模块(Transmitter)而言,当输入数字信号时,对于不同的电源电压,其高电平和低电平的噪声容限不同。例如在以Vdriver为电源电压的情况下,低电平输入电压为0.3 V,在Vswing为电压的情况下这个电压值可能是高电平,故使用一对反相器使输入电压的噪声容限增加,再经过电源电压为Vswing的反相器,使得输出电压降低。

对于时钟恢复电路(CRC, Clock Restore Circuit)模块而言,当STB信号为Vswing的高电平,STB信号为Vswing的低电平时,P1、P2管全部导通,左边电流远远大于右边电流,使得N1管进入三极管区,差动放大器的输出为低电平。经过三个反相器之后变成高电平。当STB信号为Vswing的低电平,STB信号为Vswing的高电平时,这时右边电路电流远大于左边电路电流,但由于CRC电路的下部分是一个电流镜,这样就迫使差动放大器的输出电压为高电平,经过三个反相器之后变成了低电平。使用三个反相器是由于不同电源电压的电平噪声容限不同,这里是为进行转化而设置的。时钟控制放大电路(Clocked Sense Amp.)模块,原理同CRC电路相同,只是这个电路的P1管受clk的控制而已,即当CLK为高电平时(即不传输信号),整个电路截止,使得差动放大器的输出电压上移,当差动输出为高电平,经过3个反相器之后为低电平。

由于数字电路和差动输入放大器,它们的延迟时间都是用摆率来计算,如(2)式所示: tp=ΔV/SR(2)式中:tp表示传输延迟;SR表示摆率;ΔV表示输出信号的高电平与低电平的模拟电压差,所以电压转化之后使得ΔV减小,延迟减小。若使摆率增加,即增加输出电流和输入电流的驱动能力,在此电路中,可以通过增加晶体管的宽长比或降低Vswing使电流增加,继而摆率增加,传输时延减小,但相应的功耗也增加,这样必须对功耗和延迟进行权衡。图2[10]中给出了在固定的晶体管的宽长比下,功耗能量延迟积与电压摆幅的关系,并标出Vswing在什么值时,功耗能量与延迟积最小。

1.2可重构的NoC结构

Mikkel.B.S提出了可编程路由和链路结构[11],如图3所示。

在图3中,每个交换节点有5个端口,4个连接临近的交换节点,和一个连接IP核,图中在路由器和链路之间加入了可编程开关,通过这种拓扑开关,可以使网络通路经过路由器,或不经过路由器而通过物理链路直接传输到其他的IP核或者输出,其中一种可能的传输物理结构如图4所示。

图2功耗延迟积与Vswing的关系图通过图4所示的这个可编程逻辑的交换节点,可以将纯物理链路的低功耗和经过路由通路的低延迟结合起来,使得整个电路实现低功耗、低延迟。

当然,网络的拓扑结构也可以是其他结构,如树型结构,Mesh, Xmesh等相似的拓扑结构,只要把交换节点的可编程结构应用于其他的拓扑结构即可。

1.33D的IC设计结构

随着器件尺寸的减小和工艺水平的提高,人们已经利用多层结构,来减少功耗和延迟。其中Igor Loi等人提出了3D的NoC[12],其垂直方向等效电路图如图5所示。

图3交换节点的拓扑结构图4一种复杂的多样的物理链路结构图图5两个垂直节点的连接的等效电路图其中Rpl_out_top为上层电路交换节点的平面输出电阻,Cpl_out_top为上层电路交换节点的平面输出等效电容,Rpl_in_top为上层电路交换节点的平面输入电阻,Cpl_in_top为上层电路交换节点的平面输入等效电容,Rtsv为上下层电路之间的硅通路电阻(Through Silicon Via),Ctsv为上下层电路之间的硅通路电容。上下两层电路的链接通过Rcontact相连,虽然电路增加了硅通路电阻和电容,但采用上下层的结构使得互联线大大缩短,这相对于硅通路增加的电阻,其互联线减小的电阻要大的多,故使得功耗和延迟都有所减小。

1.4基于数据压缩机制的结构

对于单片芯片,从一个IP块到另一个IP块的数据有很大的冗余,所以可以引用计算机系统中的高速缓存结构(Cache)来减少数据冗余,Reetuparna Das等[13]提出了高速存储和片上网络的通信相结合来降低总的功耗和延迟,图6给出了此结构的框架图。

图6高速缓存压缩和NIC压缩模型高速缓存压缩模型(Cache Compression Scheme,CC)模式是采用数据压缩解压模块和网络适配器(Network Interface Controller,NIC)分离设计技术,即CPU或者其他模块产生的数据先经过压缩,再通过NIC和高速缓存单元节点(Cache Bank)等把压缩之后的数据传至目的地,最后将压缩之后的数据解压。基于网络适配器压缩模型(NIC Compression Scheme,NC)模块采用的是数据压缩解压模块嵌入NIC中,即在Cache Bank模块中嵌入了数据压缩解压模块,这样可以在传输的高速缓存中对数据进行压缩和解压。虽然这样的NC结构减小CPU的数据阻塞,却可能产生通信阻塞。下面给出NIC高速缓存查找过程,如图7所示。和计算机系统类似,NoC采用此结构既减少传输的数据量。同时也降低了NoC总体的功耗和延迟。

1.5四种结构的对比

表1给出了上述四种结构的性能参数。我们可以得出这四种结构几乎都减小NoC的功耗和延迟,但各自的偏重点不一样并各有缺点。如低摆幅的信号传输需要多电源供电,增加了设计的难度,3D的IC设计需要有较好的工艺水平,可重构的NoC结构的延迟几乎没减小,基于数据压缩机制的结构对压缩解压算法和电路的设计。

图7NIC高速缓存的查找过程图表1四种结构的功耗和延迟%

结构类型功耗(相对于2D

mesh结构)延迟(相对于2D

mesh结构)低摆幅的信号传输62---可重构的NoC结构56---3D的IC设计7240数据压缩(CC/NIC)77/7967/68

2总结和预测

本文论述了四种减小功耗和延迟的电路拓扑结构,并分析比较了各自的优缺点,设计者可以根据实际情况,选择一种或者多种结构来实现低功耗和低延迟NoC的设计。未来低功耗低延迟的NoC设计将向着上述多种结构的综合运用方面发展,比如采用低摆幅的信号传输与3D的IC设计技术相结合等,甚至结合传统的一些拓扑结构设计出性能优越的NoC。

参考文献

[1]YAN J. International technology roadmap for semiconductors \[R/OL\]. \[20090521\]. www. lib. semi.省略.

[2]GUERRIER P, GREINER A. A Generic architecture for onchip packetswitched interconnections \[C\]// Proceedings of Design, Automation and Test in Europe. \[S.l.\]: DATE, 2000: 250255.

[3]HEMANI A, JANTSCH A, KUMAR S, et al. Network on a chip: an architecture for billion transistor era \[C\]// Proceeding of the IEEE NorChip Conference. \[S.l.\]: Citeseer, 2000: 166173

[4]高明伦,杜高明.NoC:下一代集成电路主流设计技术[J].微电子学,2006,36(4):461466.

[5]LEE S E. pNePA: a high level power model for an adaptive router in NOC \[R\]. \[S.l.\]: UC Irvine, 2008.

[6]Intel Corp. From a few cores to many: a terascale computing research overview \[R\]. USA: Intel, 2006.

[7]KIM.J.S, TAYLOR M.B, MILLER J, et al. Energy characterization of a tiled archtecture processor with onchip networks \[C\]// Proc. of the 8th Intel Symp. on Low Power Electronics and Design. \[S.l.\]: Intel, 2003: 424427.

[8]LEE K. A 51 mW 1.6 GHz onchip network for lowpower hetergeneous SoC platform \[C\]// Proc. of IEEE International SolidState Circuits Conf. Dig. Tech. \[S.l.\]: IEEE, 2004: 152153.

[9]CHANDRAKASAN A. Design of highperformance microprocessor circuits \[M\].USA: IEEE Press, 1999.

[10]KANGMIN L, SEJOONG L, HOIJUN Yoo. Lowpower networkonchip for highperformance SoC design \[J\]. IEEE Transactions on Very Large Scale Intergration(VLSI) Systems, 2006, 14 (2): 148160.

[11]MIKKEL B. S, JENS S. ReNoC: a networkonchip architecture with reconfigurable topology \[C\]// Proceedings of Second ACM/IEEE International Symposium on NetworksonChip. \[S.l.\]: ACM, 2008: 5564.

[12]IGOR L, FEDERICO A, SHINOBU F, et al. Characterization and implementation of faulttolerant vertical links for 3D networksonchip \[J\] IEEE Transactions on ComputerAided Design of Integrated Circuits and Systems, 2011, 30 (1): 124134.

[13]REETUPARNA D, ASIT K M, CHRYSOSTOMS N, et al. Performance and power optimization through data compression in networkonchip architectures \[C\]// Proceedings of 2008 IEEE 14th International Symposium on High Performance Computer Architecture. \[S.l.\]: IEEE, 2008: 215225.

上一篇:光学电压互感器晶体双折射误差的分析与抑制 下一篇:基于LabVIEW虚拟仪器技术的指纹识别报警系统设...