中文第一计算机图形学社区OpenGPU 版权所有2007-2018

 找回密码
 注册

扫一扫,访问微社区

搜索
查看: 17404|回复: 41

TI首席科学家展望2020年处理器架构和DSP的发展

[复制链接]
发表于 2009-10-24 16:05:22 | 显示全部楼层 |阅读模式
TI首席科学家展望2020年处理器架构和DSP的发展


作者:作者:德州仪器首席科学家 Gene Frantz





我现在得出了一个结论,我们中的绝大多数人对未来科技走向毫无头绪。我们只是忙着推动科技进步,甚至连方向是否正确都不清楚。丰富的旅行经验告诉我们一个常识,长途旅行必须理清两个问题:

1. 我现在哪儿?
2. 我要去哪儿?

科技领域同理,我们需要弄清楚自己是不是正朝着正确的方向前进。所以我请TI的一些高级技术人员思索2020年IC科技尖端的水平会发展到何种程度。你也许会说我们得有十倍于双2.0的视力才能看清2020年的情况。

下面是我对这一主题的初步感想。

处理单元(Processing Element, PE)将变成单时钟域。多年来我们相信摩尔定律将带来越来越快的时钟频率。现在终于发现时钟频率并非我们的朋友。事实上,我们早在15年前就该意识到这个问题。不过随着技术的进步,处理单元将变得足以让CPU在一个时钟周期内完成所有与资源的通信。

系统将由多个处理单元构成。嵌入式系统由很多异构处理单元构成,每个处理单元都是一个“单时钟域”处理器。处理单元的布局将类似现在的FPGA。
我们将发挥三维空间的优势。通过堆叠封装技术进行整合将会像片上系统一样平常。
开发者都将用高级语言编程。开发环境可以掌控系统的所有资源,包括微处理器、DSP、加速器、外设、模拟信号处理器、模拟外设、RF无线射频等等。

IC设计将由更小的团队(5-10名设计师)完成,硬件设计及所需时间更短(6-12个月)。复用(Reuse)将会成为常态。我来解释一下复用的两种定义:

1. 我的设计工作完成的很出色,其他人以后都用它。
2. 我没时间重复设计,所以需要找到足够相近的设计以保证按时完成任务。

不幸的是现在第一种定义更为常用。小设计团队加上更紧张的时间限制迫使我们采用第二种定义,现在已经有公司这么做了。

大部分创新将在硬件基础之上的软件内完成。

硬件将成为创新设计人员实现构想的平台的组成部分。

这是我对2020年的初步看法,虽然预测未来主要依靠想象力。不过dsp显示出一些强烈的趋势,我认为未来几年的发展是可预测的。

2009年:多核已经上市。随着片上系统体系结构越来越多地被采用,单核CPU设备将越来越少。

2012年:片上网络(Network-on-Chip,NoC)到来。片上网络是一种高性能设备,通过分组点对点异步高速通信通道连接处理单元。

2010-2015 年:组件式软件。一个设备上的内核数量仍然有限,“组件开发者”开发单独的软件组件用于单个计算集群单元,然后再组装为一个多核系统。基于该原则的开发工具提升了稳定性,因为软件通信体系结构(SCA,用于SDR,软件定义无线电驱动了硬件通过中间件实现虚拟化。

2015-2020 年:单程序多数据(Single program multiple data, SPMD)。内核数量达到32个以后,组件式方法将逐渐失效,继而转向高性能计算(high-performance computing , HPC)中所采用的SPMD。嵌入式软件社区负责开发SPMD方式,让程序在编译后同时运行于多个内核。最初需要通信流(communication flow)的明确解释,现在选派(pragmas)被引入激发算法的天然的并行优势,以深挖多核设备的潜能。

2015:FPGA的终结。这将是可编程性发展史的里程碑。相比组成FPGA的ALU/LUT分布式结构,小型多核CPU在显著降低功耗的同时,为复杂算法和通信模式提供了更丰富的映射选项。

2020:CPU 消失。功能在多CPU上的分散处理急剧简化了每个CPU的硅成本,而基于硬件的操作系统支持可以高效管理片上网络传输。程序员无需留意CPU间通信,可以在不知晓具体有哪些独立执行单元参与的情况下进行开发、debug。编程更关注总体数据流而不是独立的部分。

2020年的产品品种和2009年相比不会有太大变化。2020年,嵌入式DSP仍将是各种CPU和加速器的多样化组合。即便程序员在编程时不再留意各设备的差异,有些设备在执行特定任务时表现更好这一现象未来不会改变。

因为片上系统的价值很大程度上建立在外围设备的悉心挑选之上,CPU和DSP制造商的差异体现在各种IP模块组合与连接方式。最后,开发工具品质和应用软件支持将决定谁能成为第一流厂商。





from: eetchina

评分

1

查看全部评分

 楼主| 发表于 2009-10-24 16:06:16 | 显示全部楼层
2015-2020 年:单程序多数据(Single program multiple data, SPMD)。内核数量达到32个以后,组件式方法将逐渐失效,继而转向高性能计算(high-performance computing , HPC)中所采用的SPMD。嵌入式软件社区负责开发SPMD方式,让程序在编译后同时运行于多个内核。最初需要通信流(communication flow)的明确解释,现在选派(pragmas)被引入激发算法的天然的并行优势,以深挖多核设备的潜能。


这段话翻译得很生硬,高人解释一下?
发表于 2009-10-24 16:29:24 | 显示全部楼层
这段话翻译得很生硬,高人解释一下?
DOC 发表于 2009-10-24 16:06


看来kernel之间productor-consumer communication是板上定钉的事情的。这就是FPL-fashion啊~~~我得抓紧把OpenGPU Project的框架弄完!
发表于 2009-10-24 17:12:43 | 显示全部楼层
能不能給個原文的地址?
发表于 2009-10-24 20:04:57 | 显示全部楼层
说的非常有道理。

但是我不同意“FPGA的终结”这样的结论。就像我们一直强调的那样,fpga不是万能的,但是在局部小范围,fpga还是有它的生存空间的,尤其是在IO部分。FPGA和FPOA以后会成为一个整体,使之在同一个芯片内实现可多种编程粒度的共存。
发表于 2009-10-24 20:27:50 | 显示全部楼层
不过我一直在考虑的事情是,到底一个片上多处理单元系统内,每个processing element 或者 processor 的粒度是多大。如果是一个简单的通用处理器,不管同构的也好异构的也好,都和现在的处理器集群的方式相似。如果是把PE相连接,那就和FPOA相当了。很可能还会有很多介于两者之间的中等粒度,比如非常非常轻质的处理器?还是会有更有新意的设计出现?
发表于 2009-11-15 10:15:04 | 显示全部楼层
本帖最后由 jr0jr 于 2009-11-15 02:21 编辑
能不能給個原文的地址?
queeten 发表于 2009-10-24 09:12


我也想找原文,结果发现中文的这篇是两篇文章合成的。
http://e2e.ti.com/blogs/video360 ... ill-be-in-2020.aspx

http://e2e.ti.com/blogs/video360 ... rogrammability.aspx

而后一篇其实是 Alan Gatherer 写的。

评分

1

查看全部评分

发表于 2009-11-15 13:35:20 | 显示全部楼层
不过我一直在考虑的事情是,到底一个片上多处理单元系统内,每个processing element 或者 processor 的粒度是多大。如果是一个简单的通用处理器,不管同构的也好异构的也好,都和现在的处理器集群的方式相似。如果是 ...
jr0jr 发表于 2009-10-24 20:27


无论多大,一定要有办法隐藏延迟……即便不能隐藏,也要减小延迟惩罚。我的理解是,现在最大的难题是通讯,通讯做好了,那就好办了……
发表于 2009-11-27 18:29:08 | 显示全部楼层
在IC 的发展方向上,已经进入迷茫期了,呼唤下一个 冯.诺依曼
发表于 2009-11-27 20:54:59 | 显示全部楼层
无论多大,一定要有办法隐藏延迟……即便不能隐藏,也要减小延迟惩罚。我的理解是,现在最大的难题是通讯,通讯做好了,那就好办了……
ic.expert 发表于 2009-11-15 05:35


我去年面试的时候,老板就问我:你认为片上网络最大的问题是什么。我说是通讯,哈哈。现在再看,还有一个分布式存储一致性管理的问题,当然这个和通讯也有很大关系。
发表于 2009-11-28 00:03:04 | 显示全部楼层
我去年面试的时候,老板就问我:你认为片上网络最大的问题是什么。我说是通讯,哈哈。现在再看,还有一个分布式存储一致性管理的问题,当然这个和通讯也有很大关系。 ...
jr0jr 发表于 2009-11-27 20:54



我假设的NOC都是靠软件在Cache或是Loacl Memory上维护一个粗粒度的Productor-consumer通讯,而不是靠Cache Coherency机制来维护一个细粒度的基于一致性协议的通讯。这有助于简化硬件设计。只要缩小应用范围,硬件就可以适当简化,并且一般的数据密集型的应用也不大需要细粒都的一致性协议。

评分

1

查看全部评分

发表于 2009-11-28 00:05:06 | 显示全部楼层
说的好! 我能给你加分么? 呵呵。
发表于 2009-11-28 14:56:22 | 显示全部楼层
cache coherence 要看APPLICATION。STREAM STYLE PROCESSING,DSP这些没有SPACIAL LOCALITY和TEMPORAL LOCALITY的应用,本来就没有CACHE。传统DSP processor也都是不用CACHE的。但是涉及到NON-DETERMINISTIC CHARACTER的应用,比如NETWORK PROCESSING,CACHE就很有必要。GENERAL PURPOSE更是都用COHERENT CACHE。原先GPU没有CACHE,但现在GPU再往GENERAL PURPOSE发展,新的GPU像FERMI之类,都会用COHERENT CACHE。CACHE COHERENCE的问题,要和MEMORY CONSISTENT MODEL一起看,CACHE COHERENCE 只是整个故事的一部分。

评分

1

查看全部评分

发表于 2009-11-28 15:28:00 | 显示全部楼层
cache coherence 要看APPLICATION。STREAM STYLE PROCESSING,DSP这些没有SPACIAL LOCALITY和TEMPORAL LOCALITY的应用,本来就没有CACHE。传统DSP processor也都是不用CACHE的。但是涉及到NON-DETERMINISTIC CHARACT ...
luyeallen 发表于 2009-11-28 14:56


小小的纠正一下,TI的DSP还是早期GPU都还是有Cache的,尤其传统IMR GPU,没有Cache的话ROP是不可能做快的。大牛说得非常好,这些并不影响主旋律。那我还想请教一下,大牛能说说自己看好的Memory Consistency的架构么?
发表于 2009-11-29 01:37:21 | 显示全部楼层
小小的纠正一下,TI的DSP还是早期GPU都还是有Cache的,尤其传统IMR GPU,没有Cache的话ROP是不可能做快的。大牛说得非常好,这些并不影响主旋律。那我还想请教一下,大牛能说说自己看好的Memory Consistency的架构 ...
ic.expert 发表于 2009-11-28 15:28


我不懂GPU,也不知道IMR和ROP,谢谢你纠正。不过从广义来讲,CACHE有四类,一般说的CACHE,也就是TRANSPARENT CACHE只是四类之一,统一编地址,硬件隐式管理。SPM属于NON-TRANSPARENT CACHE,有自己的ADDRESS SPACE,显式管理。传统DSP倾向于使用SPM,MEMORY-TO-MEMORY操作,CISC结构和特殊寄存器。DSP的传统实现,比如SYSTOLIC ARRAY,每个PE也有自己的SPM。DSP以deterministic算法为主,无论是滤波,域变换还是矩阵计算(SVD,QRD之类),数据流都是规整的,所以还是以使用SPM为主。比较新生代的基于VLIW的DSP,才更接近于RISC,可能使用TRANSPARENT CACHE,只是我自己的理解。

关于MEMORY CONSISTENCY,我自己比较感兴趣在NOC上做局部一致性和弱一致性模型,可以更好的利用数据和计算的LOCALITY,避免严格一致性的开销。普林斯顿最近几年做NOC的PAPER有做CACHE COHERENCE的,比如07年的IN-NETWORK CACHE COHERENCE,这也是比较新的课题研究方向。

我的知识很有限,论坛大部分板块我只能学习,跟不上讨论。上次另一个板块看到那个GPU的入门资料我想下看看,但总是碰到权限的说法。不知道版主可否帮助一下我这样的新手。

评分

1

查看全部评分

发表于 2009-11-29 04:08:26 | 显示全部楼层
关于MEMORY CONSISTENCY,我自己比较感兴趣在NOC上做局部一致性和弱一致性模型,可以更好的利用数据和计算的LOCALITY,避免严格一致性的开销。普林斯顿最近几年做NOC的PAPER有做CACHE COHERENCE的,比如07年的IN-NETWORK CACHE COHERENCE,这也是比较新的课题研究方向。
luyeallen 发表于 2009-11-28 17:37


这个领域,您觉得比较有前景的发展方向是什么?楼上大人给我们写一篇综述怎么样?谢啦!
发表于 2009-11-29 21:11:36 | 显示全部楼层
我不懂GPU,也不知道IMR和ROP,谢谢你纠正。不过从广义来讲,CACHE有四类,一般说的CACHE,也就是TRANSPARENT CACHE只是四类之一,统一编地址,硬件隐式管理。SPM属于NON-TRANSPARENT CACHE,有自己的ADDRESS SPAC ...
luyeallen 发表于 2009-11-29 01:37



大牛说的Cache分为四类,有Transparent Cache,还所有Scratch-pad Memory(SPM),另外两类呢?跟大牛学习一下  

大牛对NOC很有研究阿,连脉动阵列都搞过。赫赫,这个架构好像现在已经比较冷门了。
发表于 2009-11-30 04:54:30 | 显示全部楼层
回楼上二位,本人才疏学浅,只会灌水赚分为下点资料。

如果二位有兴趣,斗胆建书一本:《Memory System: Cache, DRAM, Disk》by Bruce Jacob et.al。前六章讨论CACHE,对CACHE分类,逻辑结构,替换策略,存储器一致性,Cache coherence等等问题都有详细探讨。

评分

1

查看全部评分

发表于 2009-11-30 09:59:52 | 显示全部楼层
回楼上二位,本人才疏学浅,只会灌水赚分为下点资料。

如果二位有兴趣,斗胆建书一本:《Memory System: Cache, DRAM, Disk》by Bruce Jacob et.al。前六章讨论CACHE,对CACHE分类,逻辑结构,替换策略,存储器一致 ...
luyeallen 发表于 2009-11-30 04:54



首先,此书已经加入到图书资料分区,这里可以下载,多谢大牛推荐,给大牛额外加10分  :)
http://www.opengpu.org/bbs/viewt ... ge=1&extra=#pid8523

然后,关于Cache的分类,我查阅了一下,书里面是这么分类的(如下图)。看来主要问题在于Addressing Spaces以及HW or SW Managing Coherency。非统一编址SPM类似于Cluster,而同一编址的SPM类似于NUMA。

Cache Type                Addressing Scheme     Management Scheme             
Transparent cache             Transparent              Implicit (by cache)      
Software-managed cache        Transparent              Explicit (by application)      
Self-managed scratch-pad      Non-transparent           Implicit (by cache)      
Scratch-pad memory            Non-transparent          Explicit (by application)      


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2009-11-30 11:06:28 | 显示全部楼层
版大,给俺加点分俺很开心,以后下东西方便。。不过版大千万不要再叫俺大牛了。。才疏学浅。。实在是承受不起。。
发表于 2009-12-1 03:20:45 | 显示全部楼层
这个领域,您觉得比较有前景的发展方向是什么?楼上大人给我们写一篇综述怎么样?谢啦!
jr0jr 发表于 2009-11-28 20:08


老是引用自己的帖子觉得挺害臊的。呵呵。再次邀请楼上给我们点评点评。您推荐的书的确好,不过书在图书馆,想看的时候就能自己去借阅;可您自己的个人体会,您不说,我们可是一点都没办法知道。您肚里的乾坤,能让我们也“借阅借阅”?:)
发表于 2009-12-1 09:59:13 | 显示全部楼层
关于on-chip networks,有这么一坨神器:
http://www.morganclaypool.com/do ... 008?journalCode=cac
可惜我下不了,网上也找不到其他下载的。不知哪位可以帮这个忙?
再说一句,Mark Hill编的这套书要怒赞!
发表于 2009-12-1 12:38:40 | 显示全部楼层
呵呵,片内的通信和cach应该还是一个很大的难题。另一方面,单一程序的并行性也是一个比较大的挑战了。前两天看的100核的东西才是Intel芯片的4倍就很能说明问题了。
感觉还是将CPU和GPU融合形成异构的多核结构会有比较大的性能提升。
至于,FPGA也可以加内核构成带CPU的器件。
发表于 2009-12-2 00:51:08 | 显示全部楼层
Tilera100的性能目前是intel的4X,但是第一它的晶体管利用率高,第二它还有非常大的优化编译器进以提升性能的空间。

类似tilera这样的东西,我觉得一样可以配置成异构的,拿出10来虚拟成一个CPU,再用剩下的90个去虚拟一个GPU。

评分

1

查看全部评分

发表于 2009-12-2 15:14:10 | 显示全部楼层
Tilera100的性能目前是intel的4X,但是第一它的晶体管利用率高,第二它还有非常大的优化编译器进以提升性能的空间。

类似tilera这样的东西,我觉得一样可以配置成异构的,拿出10来虚拟成一个CPU,再用剩下的90个去 ...
jr0jr 发表于 2009-12-2 00:51


未来的GPU就是一个可重构的流处理器阵列。然后一大堆Kernel在这上面跑,这些Kernel之间显式的数据传递(可能对应用来说是隐式的),这些数据传递可能是通过片上网络也可能通过片外占存。肯定比现在的GPU要强大多了!
发表于 2009-12-2 17:59:01 | 显示全部楼层
未来的GPU就是一个可重构的流处理器阵列。然后一大堆Kernel在这上面跑,这些Kernel之间显式的数据传递(可能对应用来说是隐式的),这些数据传递可能是通过片上网络也可能通过片外占存。肯定比现在的GPU要强大多了 ...
ic.expert 发表于 2009-12-2 07:14


看一篇这个 http://www.morphware.org/PCA101/
发表于 2009-12-13 17:44:54 | 显示全部楼层
NOC在08年以前已经提出,最多2010就规模商用。典型的如freescale的P4080.      TILE 64在08年就大量出货。
发表于 2009-12-17 22:41:09 | 显示全部楼层
Many core到一定程度之后,工艺将会成为瓶颈。不知道3D芯片的技术能否解决这个瓶颈。
发表于 2009-12-18 10:22:12 | 显示全部楼层
看一篇这个
jr0jr 发表于 2009-12-2 17:59


点评以下~~~ ? :)
发表于 2009-12-19 04:13:30 | 显示全部楼层
本帖最后由 jr0jr 于 2009-12-18 20:17 编辑

回复 29# ic.expert

Sorry I don't have Chinese IME now. So, please dealing with my crappy English.

It's about a middleware job, a generic framework for many different HW architectures, e.g. RAW, TRIPS, etc. I was not saying we should, or would better to do a middleware. You know I'm basically an outsider of the SW world. What I was trying to point out is that, in a PE array, there are two different modes: thread and stream. Both are required.

By wrapping a PE in diverse ways, PEs can perform in either thread mode or stream mode. This feature just reminders me of an another job in one of the PhD theses you've given to me. A TTA processor can be configured as either a RISC or a stream processor, of course by hardware schedular (instead of SW middleware).  Although he only focused on one TTA processor, this idea is constructive and inspiring. This is why I totally agree with you that the NUDT is one of the few best research institudes in China on Computing Systems Architecture.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关于我们|小黑屋|Archiver|手机版|中文第一计算机图形学社区OpenGPU

GMT+8, 2018-5-23 07:11 , Processed in 0.070637 second(s), 21 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表