当前位置:首页 > 工作总结 > 畅谈微处理器和SoC设计技术的发展趋势|微处理器发展趋势
 

畅谈微处理器和SoC设计技术的发展趋势|微处理器发展趋势

发布时间:2019-02-16 04:41:45 影响了:

   Chris Rowen博士是微处理器领域的资深专家,也是SoC设计的开拓者之一。最近Chris Rowen博士在北京就微处理器和SoC设计技术的发展趋势回答了记者和与会专业人士的提问,引起了许多听众的兴趣。现将会上的提问和Chris Rowen博士的观点,根据记录整理,供有兴趣的读者参阅。
  
   问题1:您如何看待再6年之后的SoC设计,或者说SoC 设计6年后的技术发展趋势如何?
  Chris Rowen :我认为这个市场的大方向还是相当清楚的。看看市场层面的基本趋势,再看看技术层面的基本趋势,你就可以看到他们在哪里重合。就技术而言,你会发现摩尔定律(Moore’s Law)作为经济驱动力的事实。但是摩尔定律真正有趣的部分在于 “集成度(Density)持续提高”。每隔2年半或者3年,硅密度就要提高一倍,这意味着近一倍成本的降低,可以使射频产品中数字模块的集成度越来越高。这也意味着,各种系统都在尺寸大小(Scale)上变得越来越小。所以无论是电脑亦或消费电子设备,每一个系统的目的都是集成于同一块芯片。这就变得有趣起来。因为在过去,你可以生产通用(Generic)存储器,通用处理器,通用射频等等,然后组装在一块儿,建一个非常好的专用(Specific)系统。但是在今天,事情都颠倒过来了。现在希望把许多不同的功能线路集合到一块芯片上。当然在这个意义上,你还是得搞出一块专用芯片。但是挑战变大了,因为芯片本身需要更加专注于某一个特殊应用,而专用处理器、内部总线等等功能部件,也要变得更小更强更快!
  但是,摩尔定律并没有在晶体管层面带来太多的功率改进。在过去,当东西变小了,功率自然就降低了,所以工程师也从来不考虑芯片架构(Architecture)问题。而现在,如果工程师想要优化功耗,首先就要优化架构。他得考虑如何才能更有效地完成这个计算?譬如用更少的晶体管门或者运算周期,甚至在这个任务不运行的时候关闭掉相应子系统等等。总之,需要考虑智能化的问题(Intelligent)了。
  举个例子,如果你想做个手机,就必须要注意区分不同的使用场景,譬如是听音乐、看YouTube视频、发短信、上网,或者煲电话?这些都是完全不同的情景。你得更细心,更积极地考虑关掉所有暂时没用的子系统。因此对于芯片设计师(Chip Architect)或者系统设计师来说,这是最好的时代,因为有这么多的事儿可做。但对于一个从事晶体管层面的工作人员(Transistor Guy)而言,这可真是最坏的时代啊!一切都已经上升到系统或者应用的级别。而晶体管性能的提高,功耗的降低,与面积的缩小都遇到难以克服的困难。这就是技术领域正在发生的大事件。
  
  问题2:未来几年市场方面的变化呢?
  Chris Rowen :说到市场。我认为最大的趋势是向移动化的方向发展,因为人们的生活方式已经彻底改变了。当你可以随身携带那么多的设备,就会希望能够持续地连接到互联网 上。这种影响不仅表现在设备上,还表现在无线基础设施,以及云计算上。而且经济层面的影响,将会随之变得非常,非常深远。因为你会看到,譬如在这种设备 (Chris拿起手里的iPhone开始演示)的层面,无线连接的带宽起码还要提高30倍。为了获得足够丰富的娱乐体验,我们或许需要几十甚至几百兆比特的带宽。在世界每一个地区,高端用户越来越多。中国就是一个鲜活的例子。不光如此。在印度、南美、非洲、加勒比海地区,人人都希望持续不断地连接到互联网。
  所以,你必须很好地设定人们日益增长的期望值。现在具有10倍的宽带人,每个人都希望进一步能有30倍的宽带,因此就出现了300倍的宽带要求。而系统的每个层面都需要满足这种需求。对于无线基础设施制造商来说,他们的机会是巨大的。譬如华为。但是制造商是没可能赢得300倍收入的。他们有可能获得更多的收入, 但不是三百倍以上。因此,他们必须在得到大幅增加带宽的同时,大幅降低资金成本(Capital Cost)和经营成本(Operate Cost)。
  
  问题3:那么接下来在SoC设计上会有什么变化?
  Chris Rowen:以无线基站为例。传统上它们是昂贵的。需要使用通用芯片、通用DSP、通用FPGA。可是今天,为了满足对带宽的要求,您需要更多的高度定制的SOC和芯片平台,软件的需求也上升很快。所以这将使集成度更高,每块芯片上集成更多的DSP,而每块DSP上嵌入更多的软件程序,甚至是软件内容的爆炸性发展。
  有趣的是,所有网络基础设施(Network Infrastructure)的功耗都是巨大的。因此即使仅仅从绿色节能考虑,开发更加紧密集成的系统也是异常重要的。基站将明显变小,这意味着整个基站都可能缩小变成塔顶的一个小盒子。
  当然在系统层面,你一旦降低了功耗,降低成本也就水到渠成了。所以这两者之间是一个非常良性的关系。关键是硅晶圆的集成。这也是Tensilica会如此迅速成长成为世界领先的DSP内核供应商之一的原因。
  甚至可以看到这种变化体现在云计算上。因为现在你需要300倍的带宽,也就相应地对视频服务、视频压缩、互联网数据库搜索、社会网络如此等等, 都提出了更高的需求。而所有这些事情,真的都是很复杂的应用程序呢。
  不过有趣的是,他们都是些并行的应用程序。这是个好消息。因为在计算机业已经发生的一件事情便是,单个微处理器的速度已经很难再提高了。Intel 在1990年,戏剧性地发现了单处理器性能呈指数增长的改善。但是他们也旋即发现当处理器频率达到约3.5到4GHz的时候,功率密度(Power Density)遇到了瓶颈。于是,他们开始尝试多核技术。
  还好广大客户想做的事,基本都是天然就可以并行处理的。所以,你在做互联网数据库检索(Internet Database Search)的时候,确实可以设置多内核、多芯片,甚至多系统。因为你的查询请求通常将被发往多个地点。所以在互联网云计算的领域,运用多核的机会无比广阔。
  但是有一个问题必需考虑,就是你如何在有效的MIPS指令内获得足够低的功耗。或者说,如何设计电池寿命最长的移动设备,和最可扩展的服务器之间取得平衡?因为所有都和功耗有关,而并不是只和峰值的性能有关。
  
  问题4:那么Tensilica如何来克服在功耗上的挑战?和竞争对手比起来又有何特点?
  Chris Rowen: Tensilica赞同为特定的任务去优化处理器。优化流水线(Pipeline),优化接口,优化设计层面,然后把多个内核放在一起,以建 立一个多核系统。这种优化的能力将产生巨大的影响。我将谈一谈Turbo解码器的专用(Specialized)处理器。 Turbo是一种特殊的算法,可以从嘈杂的噪声中提取有用信息,在一个工作周期(cycle)内,这个解码器可以执行大约3万次RISK指令。是的,通用的压缩(Compression)处理器只能执行一次指令,而这个专用处理器可以执行3万次。当然这是一个极端的例子,只是想表明当你知道你的问题在哪里,你就可以做出很多令人难以置信的事情。并行,从而获得了难以置信的高效率。
  同样的原则也适用于其它场合,适用于各种其它门类的专用DSP、无线接收器,适用于基带和音频的通用DSP,也适用于客户意欲进行视频处理或其它 图形压缩、安全操作、网络协议处理,以及广泛应用于射频的深嵌入式控制(Deeply Embedded Control)。
  Tensilica特别集中精力于那些能够专门优化的能力,以及确实能够方便使用的多核能力。因此,我们和传统的CPU厂家不同,譬如Intel、ARM、MIPS等等。他们都面临一个相同的物理问题,摩尔定律在给了他们更多的晶体管之后,却没有给他们更好的功率控制,对不对?
  他们很少去考虑并行的问题。而与之相反,我们在应用层面非常努力地工作,以期寻找到解决方案。在云计算那段,我们确实可以将任务分割成很多子任务,但是当我在这里玩游戏时(Chris又一次拿起手里iPhone开始演示),我真的被限制了。你看,一个手指只能玩一样东西。因此在应用处理器的层面,你真的无法得到啥好处。MIPS、ARM,甚至还有Intel,都面对着这样一个无法在当前硅科技下有效完成多任务的问题。而那是我们擅长的。
  我们看到这个市场在迅速增长,去年的出货量增长了大约70%。然后我们会试图进入所有的DPP(Data-Plane Processor)领域,包括DSP、音频视频、安全,以及深嵌入式控制,这其实和应用处理器的范畴离得很远。所以啊,我们常常会发现自己和MIPS、 ARM或Intel出现在同一块芯片上。因为有这么多不同的处理器,在Date- Plane里又有这么多不同的任务,那些小而高效的处理器会有很多机会。
  这种对于应用处理器或者接口的互补性,甚至于可以让应用处理器在执行类似于信号处理这种实时任务的时候,也完全关闭。或者比如多媒体应用,应用处理器当然可以去做,但是如果我们优化专用音频DSP的话,将获得4到5倍的效率。尺寸更小,单位时间内的吞吐量却更大。而且可以用如此多的音视频处理器够你选择。所以几乎任何时刻,系统设计师或者SoC设计师都可以通过区别应用场景的方式,来决定卸载(Off Load)某个处理器。
  这也是为什么我认为我们可以在音频方面取得这么大的成功。当你正在设计一个手机,或者阅读显示器,或者机顶盒,或者数字电视,或者数码相机,你会说,啊,这里有一种场景需要我做大量音频的工作。于是,把那种卸载很自然地就被设计到基本构架里去了。
  而且,我们可以为应用层面的处理器自动生成软硬件,尤其是基于音频和基带的非常全面的软件库(Software Libraries)。因此,不管是否是有经验的人员,在我们提供的资料库里都能找到他们所有需要的软硬件解决方案,以帮助他们最快地进入市场。集成音频、集成基带,或者其它各种功能。
  
  问题5;那么Tensilica有什么具体的应用吗?
  Chris Rowen:移动电话是一个巨大的市场,一个可以满足之前所说带宽需求的市场。特别是当前正从3G向4G升级过度,大家都聚焦在LTE身 上。不仅因为LTE看上去很像是最后标准的胜者,也因为它非常像WiMax。我们已经能够提供参考设计,帮助客户建立他们自己定义的多核LTE手机,在市场中抢得先机。这只是一个我们进入市场领域的一个例子。
  我们也在做一个很类似的数字电视解调器。因为有人希望既能适合移动应用,又能适合起居室应用。这里有个很大的问题,就是全世界在视频领域有好多不同的标准和概念,而每个人都真心希望拥有一块可以解决一切问题的视频芯片。我们准备来设计一块。其实应用一样的原理,就是找些DSP和专用核,优化最密集的任务,并充分利用我们最重要的能力――生成处理器的功率效率非常小,以及和世上最稳定的通用DSP一样易于编程的软件工具。昨天晚上客户还和我们说,DSP如此受人关注的最主要原因就是可编程。我们同样在努力使编译器更强大,使程序模型简单,使程序员更不操心。我们还在微处理器的流水线设计上增强了视觉效果。
  因此,我们拥有一个非常高效的处理器。但是效率(Efficiency)这个词值得商榷。传统意义上而言,效率就是指最少的门数、最小的功耗。但效率也应包括将产品推向市场的时间。需要多少工程师才能部署好这个系统?每行代码的成本是多少?每个工程师小时(Engineer Hour)所需要的工资?除了硅片层面的效率以外,测量的效率同样也是重要的参数。我认为我们在这两面都需要注意。刚才讨论的那种架构,也特别适合在大量出货的领域。移动设备、客厅设备、数码相机,这些都是我们做得非常好的地方。
  我们主要是在DPP方面拥有很强的知识积累,但同样的影响也已经开始在云计算上面出现。当然,现在云计算的变化还比较慢,部分原因是它并非对功耗如此敏感,但我认为整体上还是会有影响的。
  
  问题6:您会在很多其它领域譬如数字电视和有线通信,使用这种结构么?
  Chris Rowen:当然。那些可以为不同应用优化处理器的架构是很重要的。而且我们也发现,即使在一个新的水平,很多需求也是相似的。因此同样的Hi-Fi工具,同样的音频DSP,既可部署在世界最好的智能手机上,也同样可以部署在最好的数字电视、蓝光(Blue Ray)影碟机上。因为它们都要求非常小而快。
  同样,如果你看一下Altas LTE的内部架构,其主要构造模块BBE16或许是世界上最快的DSP核。而它同样也在数字电视解调子系统中使用。所以,我们看到在手机和客厅座机之间,在这两个媒体处理器和基带处理器之间,都有着共同的需求。
  
  问题7; 您说芯片的整合将集中在射频、存储和数字电路。那么您觉得它们三者有可能整合成一个吗?
  Chris Rowen:嗯。如果你从半导体工艺(Semiconductor Process)技术的角度来看,我认为在晶体管和器件优化的层面将会发生变化。我们正与很多客户一起工作,通过采用更多的数字处理器,以简化射频电路。由于数字电路的生产成本可能降低的幅度更大,更快;我们一般希望多采用数字处理器,以尽量减少射频电路。因此,我们会越来越依赖于数字方面的有效解决方案。
  同样的事情发生在存储器。人们偶尔也会使它们结合在一起,但不是一个简单的组合,内存的加工设施(Fabrication Facility)有特殊性。所以我相信,多芯片封装(Multi-Chip Packaging)将越来越重要。尤其当你将芯片(Die)一块又一块摞起来的时候。所以,你可以在数字芯片组上面摞存储芯片组,然后在上面再摞射频芯片组。这在成本上可能是最划算的。当然也可能把它们所有三个都放在一块硅片上。这取决于成本,以及开发的周期。
  但是,我想我们还会坚持三套不同的加工工艺,然后依靠封装技术来整合在一起。
  但你要知道还有个巨大的挑战,就是应用产品的缩小还是有一定的限制的,他需要适应人们的手指,和两只眼睛。决定于使用是否方便。我们在元器件层面的小,其实是对应于我们自己可以接受多小的屏幕和按钮。
  
  问题8: 几天之前,Xilinx宣布嵌入ARM 的Cortex A9核。您觉得这是否是一种新趋势?是否与Tensilica的 DPU形成竞争呢?
  Chris Rowen:这种往FPGA中嵌入处理器的工作,大概在10年前就开始了。大约在8年前,Altera也曾宣布他们嵌入ARM的处理器啊,(有人插话:没错!)
  所以,这就跟任何一个系统想要找块芯片,或者将三块芯片装配在一块儿,没啥区别。当然,偶尔你也会碰巧搞出一块啥都囊括了的数字芯片。话说回来,FPGA有一个最重要的优点就是通用性。但祸福相倚,要是让它专注做一件事的话,也就不是那么有效率了。所以,如果你想真正有效地利用处理器,我估计你会情愿将处理器嵌入一个稍微稳定点的装置里,而不是FPGA。
  我认为这是非常自然的一步。Xlinx以前也搭过Power PC,对吧?这其实是一码事。它压根没有改变任何原有的架构,也没有在CPU和FPGA的功能之间取得任何逻辑上的融合(Merge)。
  当然,FPGA是很容易配置的,而且价格也便宜。因此,他们占据了一部分的市场,尤其是那些量低而开发成本又低的市场。因此,我们在市面上看到大量的 FPGA设计。但是基于FPGA的设计总量是很小的。它其实是一个利基(Niche)市场。极端地说,即便有很多工程师在使用它,但几乎所有都是低产量的。
  我的意思是,FPGA虽然很重要,但不是Tensilica公司关注的。我们专注于高产量的产品。当然偶尔也会重叠。譬如基站。以前有很多基站是采用Altera的储存方案的。慢慢地我们看到越来越多因为容量、成本和功耗的要求,已经从FPGA转向更加高集成度的芯片解决方案。
  
  问题9: 以前我在IEEE的设计与测试(Design & Test)杂志上看到一篇您的谈话。您说,如果我们想要进入嵌入式系统设计的大规模并行领域,可配置的多核处理器SoC就有一些问题必须得到解决。几年前,您还提到过,Intel最大的问题是怎样为通用计算应用配置多核处理器。您现在还觉得多核处理器的配置有困难吗?
  Chris Rowen :对于多核应用而言,确实存在着一些困难。例如如何找到足够多的线程 (Thread)来运行。但它不是Intel单独遇到的问题。这是一个涉及到应用程序是如何被调用,以及在当下如此小型的设备上如何架构的问题。即便打开我自己的笔记本电脑,想看看到底有多少个线程准备在跑,它基本上都是很少的。通常情况下,操作系统、用户界面和应用程序开发等等所调用的方式,都完全没有最大化利用线程的数量。
  所以,我认为你在基本的架构层面可以做的,就是提供更多的线程运行,并且充分地利用到并行。当然在应用层面也会有很多层级限制。你知道现在很方便就可以搞个四核,八核,十六核的,但是在PC这一端,相对于服务器,只有相对较少的条件可以让我们找到这些线程。问题在于操作系统和应用程序需要逐步重组 (Restructuring)。
  另一个同样重要的现象是,确定哪些任务可以被放进数据层(Data Plane)。让我们来想想哪些东西通常是可以被放进数据处理器的,譬如在无线信道这类的通讯子系统,譬如存储系统,比如你怎么分发数据,或者你知道的,安全冗余,也可能是针对压缩流(Packing Stream)的特殊网络处理器,它可以是视频也可以是音频。这些东西其实是更本质(Inherently)的并行处理。
  所以,我觉得这里有两种并行重组。其一是,提供更多的线程应用。另一种是为了维持整体系统中卸载(Off Loading)并行部分的最大值,并让之进入数据层。实际上我认为,在数据层提取并行是更容易操作的。因此,在数据层有效使用多核的数量,远大于单单在应用层面使用的多核。从这一方面考虑我们认为我们是走在康庄大道上。关注于数据层,可以使我们在多核方面的成长速度大大超过那些只盯着应用层面的同行。
  
  问题10: 那么在手机上就不是个问题了?
  Chris Rowen:可以这么说。这变得相当容易,让我们举一个LTE基带(Baseband)的例子吧。我们的Atlas平台可以设计八核,这取决于你想怎么用。DoCoMo和他的合作伙伴,NEC、富士通以及松下,已经宣布并且详细描述了他们LTE基带架构。第一代是8到 10核。另一个叫做Blue Wonder Communication的合作伙伴也推出了他们的8至10核的LTE基带。因此,现在就有三种不同的LTE基带,而这三种都使用了8个核或更多。在这个层 面上是可以有大量的并行解决方案的。
  再看看下一代的LTE,大概有六点性能方面的因素需要考虑。其中一些是单核怎样可以更快,但更大部分是和多核有关。所以我们很容易找到那些有效应用20核甚至更多核于单一功能譬如基带的案例。我觉得在数据层和应用层上,多核是有完全不同的机会的。
  
  问题11;最后一个问题。您当年在斯坦福参与奠基了RISC 架构,后来也曾是MIPS的共同创始人。那么,请问您如何看待RISC架构的未来?依旧是ARM和MIPS之间的战争,抑或会发生一些新的大事件?
  Chris Rowen:从本质上看,这场关于CISC和RISC架构的争论,其实仍不过是通用 (General Purpose)架构之间的竞争罢了。RISC赢得了一定胜利,占领了一些领域。但是遵循摩尔定律的发展,可以轻松的增加晶体管数目。一个RISC解码器可能要一万门,而CISC解码器需要五万门。其实也差不多了多少。
  不过我觉得除了通用架构之间的竞争以外,还有一场更加深远的革命。我们现在来比较通用架构和大量的特殊用途的(Special Purpose)架构,怎么样?几乎任何时候你都可以说,如果一个产品是围绕某种特定的需求来设计,那么特殊用途架构肯定会胜出。RISC贬了CISC一段时间,因为它的效率可以高出2倍以上。那么为具体应用特殊定制的架构,就比所有通用架构的效率高出5至10倍以上。
   因此,这个世界不能再简单分成我的通用架构,和你的通用架构。当然对于那些非常分散(Defused)并且普适(Generic)的应用程序,就好比在笔记本上用的那些,我们还是需要通用架构的。因为一会儿你要看视频,一会儿又要运行Word或打游戏,或者运行Excel工作表。是非常多样的。所以你需要一个德智体全面发展的处理器。不能太特别专门化。
  但是,你不得不面对一个世界,那里有各种各样不同的任务,而每样任务都是独特的。而且更为重要的是,当你在芯片上能够集成更多的片上系统时,你越会发觉有足够多的处理器适用于各种特定的应用子系统的优越性。
  因此对于我来说,计算的未来不是产生新的通用架构,而是特殊用途架构的集合。譬如一个音频子系统、视频子系统,一个基带子系统、存储子系统,还有应用处理器子系统。其中只有一个需要通用的结构(Construction),其它的都将是特殊的架构。在科学上,摩尔定律带来多核,多核又将带来特殊架构的解决方案。异型多核(Heterogenic Multi-Core)就是一种新架构。而且我觉得会成为主流。Intel、ARM、MIPS这些公司当然还会有很大的市场,但只限于应用处理器领域。其实从科学发展观察,通用目的(General Purpose)最终总是会变成某一个特殊目的(Specific Purpose)的。
   (根据记录整理,略有删节)

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3