当前位置:首页 > 教学设计 > 【采用微捷码先进的RTL-to-GDSII方法实现高性能的可完全综合微处理器】 采用系统凭先进
 

【采用微捷码先进的RTL-to-GDSII方法实现高性能的可完全综合微处理器】 采用系统凭先进

发布时间:2019-02-16 04:44:51 影响了:

  实现高性能的可完全综合的微处理器要求采用先进的RTL-to-GDSII方法。今天的完整设计流程必须能够权衡考虑性能、功耗和面积等几方面因素,并使用基于强度的准确时延模型,以在全局层级实现对尺寸调整和缓冲的同时优化,最终增强时序可预测性以及结果的质量(QoR)。它也可能涉及到先进的数据路径优化技术的使用,这对于处理器运算集中部分较为有益。为尽可能地减少时序性能下降并实现时序收敛,实现系统必须使用精确的共用路径悲观(CPP)价值来避免串扰,并对所包含的片上变异(OCV)功能使用局部无容限方法。该流程还必须去除耗时的手工调整过程。例如:微捷码(Magma)设计自动化有限公司的Talus平台就可完全自动化ARM Cortex-A8处理器的实现过程并满足所有上述需求。
  
  1可综合处理器主要
  针对各类移动和消费性应用
  
  今天的内嵌式微处理器性能优、功效高,主要针对各类移动和消费性应用,包括移动电话、机顶盒、游戏机和汽车导航/娱乐系统。在这个上市时间至关重要的新兴领域,如ARM的Cortex-A8之类的可完全综合处理器发展前景看好。
  这类处理器能够依据实现方式的不同提供各种不同的性能点,对于要求苛刻的消费类应用,其处理性能可高达2000 Dhrystone MIPS (DMIPS),而对于低功耗设备,其功耗不到300 mW。这意味着虽然这类处理器使用功率仍在前几代移动设备的功率要求范围内,但其处理能力已取得了长足进步。而且,散热量的减少以及封装和集成成本的降低均让消费类应用受益匪浅。
  当前Cortex-A8在嵌入式应用中出现了许多非常有趣的使用例子。一家领先的通信供应商基于应用处理器的产品要集成进可完全综合版的Cortex-A8处理器。新产品特点包括:改善的浏览器体验、高清(HD)视频、先进的Java多媒体和3D游戏。此类供应商预期在游戏应用中也会大量采用Cortex-A8处理器,因为该处理器特别适用于游戏的物理运算。
  同时,另一家多媒体供应商计划将Cortex-A8处理器与其多媒体技术相结合,用以集成到各类移动和消费性产品中。这些产品可以为终端用户提供灵活的低功耗多媒体加速技术,不仅可用以获得高性能,还可用于超低功耗2D/3D图形、图像、视频和音频处理。
  ARM和微捷码公司一直与多家Cortex-A8处理器技术授权客户密切合作,共同开发完全自动化的RTL-to-GDSII实现流程。该无缝流程部署和使用简单,可即刻提供出色的QoR,且无需耗时的手工干预或手工方式。
  
  2实现嵌入式Cortex-A8处理器的
  完全自动化参考方法
  
  由于对性能、功耗和面积(PPA)要求极高,早期采用Cortex-A8处理器的客户都对面积和时序关键功能块使用混和实现方法,即综合、手工结构布局和完全定制电路相结合。先将设计分成多个功能单元,然后再细分成功能块,最终根据复杂度来选择具体的实现技术。
  在以优化或混和实现方式来实现Cortex-A8处理器的过程中,大多数厂商仍对时序收敛使用标准综合方式。设计中针对性时序和面积敏感的关键功能块是通过完全定制技术实现。这需要相当大的工程设计量,不仅延长了产品上市时间,也增加了总体成本。鉴于对稳健而全面的Cortex-A8处理器实现参考方法(iRM)的需求的增加,ARM和微捷码的工程师开始探索新技术和方法以完全自动化实现流程。此类流程的优势非常明显:提高了效率和生产率,与混和流程相比降低了昂贵的实现成本,并且显著改善了上市时间――而所有这些都是以PPA数量的合理让步为代价。
  
  3先进的数据路径综合技术
  
  多数数据路径集中设计(包括Cortex-A8处理器中复杂的NEON媒体处理引擎)可以细分为简单的基于加法器的算法。微捷码的Talus提供了自动化数据路径综合技术,有多操作数加法以及加法器与乘法器的微观架构具有更好的权衡余地。通过实用的运算符合并以及基于carrysave加法器的约简树技术,这些还可得以进一步优化。在建立carrysave加法树的同时,现在的方法是将约简树在MUX边界处打断。
  在高速处理器设计中,操作数宽度越大(NEON块具有64位和128位宽度信号),时序性能下降就越严重。微捷码的Talus会自动将这些中间进位传送加法器推到约简树的末端,使其从多个减少为最低值的一个,同时改进面积和延迟性能。
  
  4包含局部无容限OCV功能
  
  一般的基于容限度的OCV考虑方式可能并不准确,会导致实现过程中占用面积增加。无容限局部OCV解决方案是通过计算精确的共用路径悲观(CPP)价值而提供。OCV的无容限局部处理方式允许进行准确一致的时序优化分析,并在全局模式(Global mode)、跟踪模式(Track mode)和最终布局模式中引入时钟插入后OCV的影响。通过以高精度分析OCV效应的影响,全局模式中的优化步骤能够改进时序,使得时钟树插入流程后能很快地见到OCV的影响。这样,优化技术就可以精确地贯穿应用于流程的剩余阶段。Talus还有一个改进的时钟树综合法(CTS),可让更多路径具有共享树,并且OCV的影响降到最小。
  
  5实现Cortex-A8处理器的
  同时考虑降低功耗
  
  贯穿RTL-to-GDSII流程的功率管理是65纳米及65纳米以下技术中一大设计难题,是实现嵌入Cortex-A8处理器的设计时绝对要考虑到的一个问题。Cortex-A8处理器的ARM和微捷码iRM本来具有若干低功耗特性。在优化过程中,Talus中的全局尺寸调整算法会自动考虑漏电优化,同时还可减少尺寸调整、缓冲和负载平衡期间的动态功耗。
   Cortex-A8处理器设计中超过94%都是由时钟门控的,能够在必要时关闭不重要的功能。Cortex-A8处理器中,全局时钟分配采用了多个等级的时钟门控,包括架构和主功能门控以及微处理器状态的细粒度时钟门控。有些高级技术还使用同等的延迟闭锁时钟门控(LCG),如图2所示。
  
  6功率驱动的
  时钟树综合(CTS)――布局
  
  多数时钟树功率主要在叶级上消耗,这是由于存在高扇出、大电容网和大量叶簇(leaf cluster)。Talus中的簇后布局优化方式通过使寄存器更接近其驱动缓冲器(见图3),可以减少电容网络中的大量电容(“CV2f”中的“C”)。这将有助于减少Cortex-A8处理器实现中的CTS功耗。
  
  7串扰规避优化
  
  在65纳米及65纳米以下技术中,多数SoC实现流程包括了串扰规避优化,这是因为串扰效应会降低时序性能并可能导致逻辑失效。为获得可嵌入Cortex-A8处理器的高性能设计,有效的串扰规避流程也是非常重要的考虑因素。在Cortex-A8处理器的ARM和微捷码iRM中,签核质量时序收敛QoR是通过使用包括有布线串扰规避和优化的流程来实现的,是通过基于单元的全局和跟踪展开布线的优化来执行串扰的优化,包括串扰考虑和串扰布线规避。这种流程减少了流程后期布局后变更工作量和详细的布线修改工作量。
  
  8总结
  
  ARM和微捷码iRM的简单性以及无需手工方式均让终端用户在受益匪浅的同时仍可即刻获得出色的QoR,从而不仅确保了生产率的改善和Cortex- A8实现成本的降低,同时还缩短了嵌入式SoC的上市时间。通过采用微捷码的Talus IC实现平台的创新性方法,时序、面积和功耗均可得到明显改善,同时还可加速完全的设计收敛。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3