您的位置:首页 >科技 > 正文

intel 推出Iris Xe MAX 独立显卡 从1.35 GHz提升到1.65 GHz

先看规格,Iris Xe MAX(DG1,应该是Discrete Graphic 1的缩写,第一代独立显卡?)和TGL-U的Iris Xe(96EU)比,除了作为独立显卡存在必然需要的独立显存、使用PCIe接口而不是Ringbus和CPU内核连接外,唯一的区别就是频率高了,从1.35 GHz提升到1.65 GHz,提升了0.3 GHz,22%,甚至连显存都使用完全一样的128 bit LPDDR4X-4266:

对笔记本硬件比较关注的,应该知道96EU的Xe核显和MX350性能相近。基于上述条件,即便还没看到DG1的评测,大概也能猜到,其它规格完全一样,频率提高22%的DG1,充其量仅仅能够和NV在低压本上最新的入门级独显——MX450相近。所以,不管是桌面还是游戏本,NV和AMD两家的真·入门级独显,5500和1650,打DG1轻松的很。而且DG1的TDP仅仅是25W,显然也不是面向供电散热都有一定保证的游戏本、桌面市场的。

那么问题来了,Intel给出来一个和核显规格一样的独显,这是要干什么?可以实现类似NV的SLi或者AMD的交火那样的效果么?很遗憾,不可以。Intel并没有提供过类似的多显卡的技术,要么用核显,要么用独显——事实上,因为通过PCIe通道和CPU互联,带宽、延迟都不如核显使用Ringbus,据说在某些游戏中,具备独立显存无需与CPU共享内存带宽,频率更高的DG1,性能甚至不如核显。在低压笔记本上,增加这么一块芯片以及显存,只为了部分游戏中获得20-40%的性能提升,显然很不合算。

结合Intel将近10年来,从Core 2 Quad直至Core gen7,一直维持主流平台旗舰4核8线程的规格;高端桌面、服务器平台除了增加核心规模外同时一直在推动SIMD计算;以及发布11代时的视频中,大量的篇幅是介绍11代如何提升AI性能,加速应用。我的看法是:DG1是Intel在布局未来的人工智能、高性能计算的另一次尝试。

Netburst架构的奔腾4因为功耗爆炸失败后,Intel对于功耗是非常重视的。这些年来,Intel多次在不同场合给出了不同情况下,数据计算、传输消耗的功耗数据,没有经过大量的研究、模拟、测试和统计分析,是不可能给出这些数据的。

具体的数据懒得重新翻出来了,大体上的结论就是执行某条指令的时候,参与工作的晶体管越多,CPU功耗就越高。不同的指令,计算单元本身的实现差异可能很大,例如浮点单元功耗可以达到整数单元的十多倍。想降低计算单元的功耗只能通过优化电路,使用更少的晶体管实现来降低,对于已经成熟的指令,这个几乎不可能了。

而执行一条指令,除了计算单元外还有大量的晶体管参与工作。对于现代的CPU,计算单元不过是十多近二十级流水线中的一级,流水线的其它部分实现了取指、译码、分支预测、重排序、调度、寄存器重命名、发射、数据抓取/回写等功能。除了CPU流水线外,现代CPU单个核心中还有大量的晶体管用于实现多级缓存。最终的结果,以Sandybridge(SNB)架构的Core Gen2为例,执行最传统的x86指令(不含浮点),计算单元仅仅占用了整个内核功耗的6%左右。执行浮点计算指令好一点,计算单元的功耗和内核中额外的模块相近(不含SIMD指令)。因此,现代CPU为了达成高工作频率使用的多级流水线,以及为了降低各种情况导致的流水线空泡出现的概率,代价是使用了额外的大量晶体管。

SIMD(Single Instruction Multi Data,单指令多数据)指令是提高晶体管效率的有效手段。对于多个需要进行相同计算的数据,一条指令就可以完成。相应的计算单元、数据通道使用的晶体管多倍提升的同时,流水线其它模块使用的晶体管数量并没有明显变化。因此,SNB执行256bit AVX指令时,计算单元的功耗占整个内核的75%,晶体管效率提高了很多。支持512bit的AVX512指令,大概可以进一步提高到87%。

然而这仅仅是指内核的功耗分布,现代CPU除了内核,还有uncore部分,以Intel早期的服务器CPU(至强E5/E7 V*)来说,包括内核间互联的环形总线、末级缓存、内存控制器、PCIe控制器、多个CPU互联的QPI总线控制器等非内核模块。海量数据吞吐计算时,这些模块的功耗占据了整个CPU大约40%。所以,即便是AVX2这样的SIMD指令,其实计算单元功耗也只占整个CPU的45%,不到一半。

这就是现代CPU的功耗困局:即使是降低CPU的工作频率,可以大幅降低内核功耗;在同等功耗限制下,不惜成本成倍增加晶体管数量,容纳下更多核心,但仍然会因为流水线的其它模块和CPU内部的其它模块占用了大量晶体管,无法获得理想的计算性能。这些代价,对于只需处理少量数据的传统应用,或者追求高响应的应用,是值得的,而且是必须的。但对于海量数据吞吐的计算来说,还是否必须,是否值得,就有待商榷了。

从NVIDIA推出GPGPU以来,频率低,流水线短,没有分支预测、乱序执行机制,等同于超宽SIMD指令(16-64个单精度浮点数,相当于512-2048bit宽度)的GPU,虽然一直被诟病程序编写困难、不够灵活、延迟高、效率低等等,但也因为频率低单个晶体管功耗也低,可以使用更成熟的生产工艺堆砌大量的计算单元。依靠大量线程的切换来回避流水线空泡,相对CPU简单很多的指令流水线占用的晶体管数量少得多,效率更高。即便是最顽固的CPU拥护者,也无法忽视GPU动则比同时期CPU高三四倍甚至更高幅度的理论性能。算法合适的前提下,GPU能提供比CPU强得多的性能。即便是效率差一些的算法,实际性能往往也可以达到甚至超过CPU。

如果说传统的高性能计算,CPU和GPU各有所长,整体上CPU编程更简单方便更灵活,GPU对CPU威胁有限的话。这几年的视频内容流行,人工智能在移动端的流行,都是相当合适用GPU处理的算法,GPU对传统CPU在数据中心市场造成了相当程度的冲击。

Intel并非对GPU的冲击毫无预见,但之前因为在x86的近乎垄断地位,Intel采用的方案是集成大量的支持超宽SIMD指令但流水线简化很多的x86 CPU,也就是至强融核。期望在这个市场也用x86优秀的兼容性,方便应用移植来从GPU手上争夺回市场份额。即便是采用相对Core架构简单很多的P54C架构,用4线程切换替换了乱序执行,因为指令译码、x86指令兼容、大容量缓存和交互总线依然消耗了大量晶体管,至强融核和同期的GPU相比,理论性能依然低不少。例如2012年的Xeon Phi 7120P,理论单精度浮点性能2.4 TFLOPS,同期的Geforce GTX 680是3 TFLOPS。这还是7120P用了22nm制程,功耗达到300W;680则是台积电28nm制程,功耗195W的结果,因为晶体管数量7120P是50亿,680仅仅是35亿。

至强融核路线已经在2017年被取消了,而DG1则是负担起抗衡NV的重任。但一开始就直接抗衡旗舰级产品并不现实,NV多年来的积累不是几年的研发就能追赶上的。因此,低规格的DG1,凭借Intel和笔记本OEM厂商的关系,在低压笔记本平台上,搭配Xe核显,在支持GPU加速的生产力应用上提供更强的性能——在低压移动这个因为功耗、成本NV难以发力的平台上,CPU+iGPU+dGPU配合打一下NV还是很有希望的。

Intel应该是期望随着这个方案的普及,更多应用对Intel这套方案提供支持优化,在今天相对更普及的视频编辑、人工智能(客户端推断)方面对NV发起反击。

最后,搭载DH1的笔记本产品还没上市,具体性能表现,市场表现,各软件开发商支持力度,都难以推测。所以,最终效果能否达成Intel的期待,还要拭目以待。

免责声明:本文不构成任何商业建议,投资有风险,选择需谨慎!本站发布的图文一切为分享交流,传播正能量,此文不保证数据的准确性,内容仅供参考

关键词: intel

相关内容

热门资讯

最新图文