当前位置:首页 > 申请书大全 > 【一种适用于非对称主从IP核的低功耗路由器结构】 非对称加密
 

【一种适用于非对称主从IP核的低功耗路由器结构】 非对称加密

发布时间:2019-02-16 04:43:55 影响了:

  摘要:大规模及超大规模集成电路的快速发展使片上网络系统成为现实,同时也使十几个平方厘米芯片的功耗达到了上百瓦,而且随着集成电路规模的发展,功耗参数也在不断上升。深微亚领域的研究使得片上网络芯片的面积不断缩小,从而使得IP核互连通信中时延和能耗成为了现代片上网络系统的主要考虑因素。本文主要分析片上网络系统的平均时延以及内部负责主要通信任务的路由器的结构,功耗,及其功耗降低的方法。
  关键词:片上网络;路由器;结构;功耗
  
  One low-power router structure for master-slave IP core NOC
  
  ZHANG Chun-miao,WANG Chang-shan
  (school of computer science&technology , xidian university,shaanxi,xi`an 710071)
  
  Abstract: The large-scale and ultra large scale integrated circuit to enable the rapid development of on-chip networks become a reality. However, it also increase the large chip’s power consumption to hundreds of watts. With the development of integrated circuits, power parameter is also rising. This paper mainly analyzes the average on-chip network delay as well as internal communications tasks for the main structure of the router, power, and power consumption reduction method.
  Keywords: on-chip network; router; structure;power;
  
  1引言
  
   传统的总线结构已经很难满足日益繁重的芯片内部数据通信,九十年代末提出了将已经成熟的互连网络通信思想应用于芯片内部各个组成单元的信息交换上,这就是片上网络系统的雏形。片上网络系统的提出和研究发展解决了总线通信结构的布线复杂通信效率低下等问题的同时,也带来了诸如通信延时,功耗较大等新的问题,而且随着IP核数目的增加,功耗等问题相当突出。IP核是实现现场可编程门阵列(Field Programmable Gate Array,FPGA)或者专用集成电路(ASIC)中的一个逻辑块或数据块。
   片上网络系统的体系结构已经超越了传统计算机体系结构,将CPU、大量内嵌内存、DSP、声音流处理器以及高带宽的I/O等功能单元统一看作是资源节点,或称IP核;将传统的总线通信结构代之以由许多路由结点组成的网络,IP核与路由器之间有通信接口作为桥梁,再运用现代超大规模集成电路的先进技术以及深微亚米的研究成果将所有这些封装集成到一块面积很小的芯片内。片上网络系统可以用在高性能计算处理器、图形处理芯片、高速路由器芯片及并行计算机等方面。
  
  2IP核的不对等性及其重用性
  
  片上网络系统芯片内部由于各个IP核的功能不同,相互之间的数据访问量不同,通信和数据交换的频繁程度也不尽相同,这就造成了IP核之间的不对等性,流片后IP核的位置固定,芯片内部网络的拓扑结构也相对固定,这些特点要求我们在研究设计低功耗片上网络系统的硬件电路时要运用最优化原则合理安排IP核之间的相对位置,同时也要求在开发适应于特定片上网络系统的软件系统时要考虑这些因素,通过片上网络的软硬件系统紧密结合来提高系统总体性能,同时达到降低时延、减少功耗的效果。
  作为设计重用性的一个要素,IP核的思想是电子设计自动化(Electronic Design Automation,EDA)工业的一个重要趋势。简单地说,它就是在新的系统设计中重复使用以前设计好的部件的思想。理想状态下,IP核应该是完全可移植的,也就说是它应该能够直接嵌入到任何接口的系统中。通用异步收发报机(UART)、CPU、协处理器、DSP芯片、RAM、以太网控制器和PCI接口等都是IP核的具体例子。在文献[8]中,作者引入了一个区域(Region)的概念。区域可以包含任意数量的资源和交换节点,它就像一个小的功能块,实现某一特定的功能,这种想法可以使片上网络更好地兼容大面积的处理器或存储资源等,同时作者还运用GALS的理念把区域设想为片上最大的同步范围。
  
  3路由器组成及其功耗
  
  片上网络的核心部件路由器主要负责IP核之间的通信和数据交换,主要由输入输出单元、交换路由单元、仲裁控制单元组成。如图1所示。
   路由器的简单工作原理:输入端口接收到IP核传输来并经过网络通信接口格式化编码封装后的信息之后,在输入端口的I/O存储器中根据排队论的规则或者是Hash算法等进行缓存,有些路由器体系结构为了提高服务质量,在设计时加入相应的策略对数据包进行分类和优先级设定。路由器的主处理器侦听到输入端口发出的输入中断请求后通知控制仲裁单元有信息到达,主处理器指挥控制仲裁单元执行相应的指令。控制仲裁单元根据信息的优先级别从I/O缓存中取出信息,根据报头信息所包含的目的地址等信息和路由算法进行选路,决定将信息送到合适的输出端口。输出端口检测到有信息到达并等待输出时,完成数据包的排队、缓冲管理及调度输出,即把该信息从I/O存储队列中取出并发送到网络上。传输结束后输出端口告知主处理器信息已经传输完毕,可以释放先前所占用的路由资源并等待进行下路由传输。
  输入输出端口的缓冲是用特殊数据结构实现的,比如Hash表,二叉Radix树等等,这个数据结构便于路由器主处理控制器能够快速地以最短的时间搜索查找出所需要的记录。
  交换单元是整个路由器的核心组成部分,是影响整个路由器速度和容量的关键因素,目前采用的交换结构有共享存储器、交换开关阵列等类型。共享存储器结构如图2所示。
   接收的分组顺序写入一个双端口的随机访问存储器RAM中。它们的分组头和内部的路由标签传输给存储器的控制器,由控制器来决定读取哪个分组到输出端口。如果要实现输出排队,存储器的操作速度必须N倍于端口速度,这将受物理条件限制而难以扩展。存储器的控制器控制分组头时也必须有很高的运行效率,多播和广播实现也很复杂:一个多播的分组要复制多份,消耗大量的内存,或者从内存中多次读取,串行执行而耗费时间,当规模较小时,这类结构易于实现,但当系统升级扩展时,设备所需要的连线大量增加,控制也会变得越来越复杂。
  交换开关阵列的设计则有更好的可扩展性,并且省去了复杂的控制,降低了成本。如图3所示。
   分组直接从输入端经过交叉开关流向输出端,多个数据分组同时通过不同的线路进行传送,提高了系统的吞吐量,系统的最终带宽取决于交换开关阵列的设计和各个交换模块的能力。
  交叉开关的物理器件,可以选用半导体光开关、耦合波导开关如LiNbO3电光开关、 M-Z干涉型电光开关、液晶光开关等等;片上网络系统一般不采用微机电系统(MEMS)开关,由于其体积相对较大,使片上网络系统的微型化便携性受到影响。
  交叉开关阵列的设计,对于较少数量的IP核所组成的片上网络系统,可以采用单级交换网络结构。
  对于M个输入线和N个输出线所组成的M×N的矩形开关阵列,共有M×N个交叉开关,其控制方式也相对简单。
  当IP核的数量相对较多时要组成相对较为复杂的片上网络系统时,这种单级的交换网络拓扑结构会让交叉结点的数目快速变大,然而我们可以采用两级或者多级的交换网络结构,如图4所示。
   对16×16共256个结点的单级交换结构利用两级的交换结构可将结点减少为4×4×8共128个结点,也即交叉开关数目减少了一半,也降低了交换网络的复杂度,但相应的搜寻空闲链路的难度增加,控制交叉开关的复杂性也相应地增加。另外,多级交换网络会出现网络内部阻塞的情况。
  控制仲裁单元是整个路由器内部的指挥协调枢纽,由路由算法进行路由选择,信息在网络传输过程中所经过的跳数直接影响路由器交叉开关的通断和链路损耗,所以路由算法的选择对片上网络系统的能耗起着至关重要的作用。通常路由算法的选择通常需要综合考虑以下几个设计目标:
  (1)最优化:指路由算法选择最佳路径的能力。
  (2)简洁性:算法设计简洁,利用最少的软件和开销,提供最有效的功能。
  (3)坚固性:路由算法处于非正常或不可预料的环境时,如硬件故障、负载过高或操作失误时,都能正确运行。
  (4)快速收敛:收敛是在最佳路径的判断上所有路由器达到一致的过程。当某个网络事件引起路由可用或不可用时,路由器就发出更新信息。路由更新信息遍及整个网络,引发重新计算最佳路径,最终达到所有路由器一致公认的最佳路径。收敛慢的路由算法会造成路径循环或网络中断。
  (5)灵活性:路由算法可以快速、准确地适应各种网络环境。例如,某个网段发生故障,路由算法要能很快发现故障,并为使用该网段的所有路由选择另一条最佳路径。
  路由算法使用了许多种不同的度量标准去决定最佳路径。复杂的路由算法可能采用多种度量来选择路由,通过一定的加权运算,将它们合并为单个的复合度量、再填入路由表中,作为寻径的标准。通常所使用的度量有:路径长度、可靠性、时延、带宽、负载、通信成本等。
  仲裁调度机构的优劣也会在一定程度上影响片上网络系统的能耗和性能,通常由多组M选1的多路选择器和相应地控制器组成,如图5所示。
  
  4使用不同结构的路由器所组成的
  片上网络系统的功耗分析
  
  利用交叉开关数量少则控制简单且功耗低的特点来设计低功耗的路由器结构,一种思路是将大量的IP核按功能和任务协同程度分成不同的簇,并通过简单的路由器结构把簇内包含的IP核相互连接。簇间也可由一些结构相对简单但传输速率较高的路由器来连接,这种路由器内部使用单级的矩形交换网络和简单的控制仲裁单元。另外一种思路是使用多级的交换网络和复杂的控制仲裁单元组成的多端口复杂路由器,来减少交叉开关和链路数量,减少簇数和簇间路由器的数量。
  例如:对于256个IP核所组成的具有簇结构的分层塔式片上网络拓扑结构,结构A是选择有五个端口的路由器,内部为5×5的交叉开关阵列,如图6A所示,每四个IP核连接一个底层路由器开成一个簇,共64个底层的路由器,每四个簇内路由器由簇间路由器连接形成16个第二层结构,但顶层的路由器不用连接上一层的路由器只连接下层的簇间路由器,仅仅需要四个端口,可以计算出交叉开关的总个数为5×5×(64+16+4)+4×4=2116,双向链路数为340条。
  另一种结构B是选择17个端口的底层路由器,内部为两级交叉开关阵列,共4×4×(4+4)+17=144个交叉开关,如图6B所示,每16个IP核连接到一个底层的路由器共16个底层簇内路由器,再连接一个16个端口的簇间路由器形成两层的片上网络系统。可以计算出这种结构的片上网络系统共有交叉开关144×16+128=2432个,双向链路256+16=272条。而当采用17×17的单级矩形交叉开关阵列时共有17×17×16+16×16=4880个交叉开关,双向链路数还是272条。
  第一种结构的交叉开关个数明显少于第二种结构,但其双向链路数较多,连线较为复杂,而且相应地控制仲裁单元的个数要明显地多于第二种结构,而交叉开关、双向链路以及控制仲裁单元都是主要的能耗单元。这两者的能耗处于伯仲之间,但显然都要比采用大容量的单级矩形交叉开关阵列的能耗要少许多。
  很显然,这两种塔式结构在距离较远的端点间数据传输频繁的情况下会使中间结点的业务量非常繁重从而形成通信热点。因此,当不在同一簇内的IP核与远端的IP核间通信业务量繁重时,可以改进这两种结构为Mesh拓扑结构如图7所示。
  
  5两种结构片上网络系统的性能分析
  
  在两种结构的能耗相差不大的情况下再通过软件仿真两种Mesh结构的网络性能参数,仿真软件选用当前比较流行的OPNET公司的OPNET Moduler组件,两种路由器结构分别采用简单的单级矩形交叉开关阵列和多端口的较为复杂的两级交叉开关阵列,输入端口均设置4条虚信道,缓存为四个分组大小,每条虚信道可缓存6个数据微片,分组大小6个128 bit 数据微片,采用先进先出FIFO的流控机制和虫孔交换机制,链路传播时延为1个cycle。网络拓扑结构采用改进后的Mesh拓扑结构。由于流片后IP核的位置相对固定,各个IP核的网络地址固定不变,除了网络拥塞和死锁的情况外,链路故障率不高,所以路由算法分别采用能够避免死锁和拥塞的确定性路由算法XY维序路由和Odd-Even奇偶路由算法。仿真的片上网络系统吞吐率和平均时延结果如图8和图9所示。
   由于路由器内部采用两级交换的结构B,增加了连接IP核的数量,减少了IP核间的路径路数,但其内部的控制仲裁单元比较复杂。结构A内部采用单级的crossbar时控制仲裁单元简单,同时连接IP核的数量减少,不同IP核间的路由跳数较多。从仿真结果的对比可以看出,总体上结构B的网络性能相较于结构A的网络要差一些,吞吐率随着注入率的增加而相差越来越大,平均时延随着注入率的增加急剧增大,结构A的平均时延要比结构B增加的稍快些。采用XY路由算法的吞吐率要比采用奇偶OE路由算法低些,平均时延在相同的注入率时要高些。
  
  6总结
  
  将不同功能的IP核分成不同的簇,簇内的IP核协同完成某项任务,这样不同的簇可以并行执行不同程序,利用两级的交换阵列来减少交叉开关的数量,减少路由器的功耗开销,可以实现不同数量的簇内IP核的互连和组成较为复杂的片上网络拓扑结构,这样在不降低片上网络系统的网络性能的情况下,可以不增加其功耗。
  
  参考文献
  [1] [C]Lu Z, Liu M, Jantsch A. Layered Switching for Networks on Chip. 2007.
  [2] [C]Dehyadgari M, Nickray M, Afzali-kusha A, et al. Evaluation of pseudo adaptive XY routing using an object oriented model for NOC. 2005.
  [3][C]Ge-ming C. The odd-even turn model for adaptive routingThe odd-even turn model for adaptive routing.IEEE Transactions on Parallel and Distributed Systems, 2000, 11(7): 729~738.
  [4] [C]Matsutani H, Koibuchi M, et al. Performance, Cost,and Energy Evaluation of Fat H-Tree:A Cost- Efficient Tree-Based On-Chip Network. 2007
  [5][C]Qiao B, Shi F, et al. A New Hierarchical Interconnection Network for Multi-core Processor. 2007.
  [6][C]Lee S E, Bagherzadeh N. Increasing the throug- hput of an adaptive router in network-on-chip (NoC). Seoul, Korea: ACM, 2006.
  [7]. [C]Majer, M., et al. Packet Routing in Dynamically Changing Networks on Chip. in Parallel and Distributed Processing Symposium, 2005. Proceedings. 19th IEEE International. 2005.
  [8] [C]Jingcao H, Jingcao H, Marculescu R. DyAD - smart routing for networks-on-chip. 2004.
  
  作者简介
  张春淼,现就读于西安电子科技大学计算机学院、硕士研究生、主要研究方向为计算机网络和片上网络系统。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3