您的位置：首页 >科技 > 正文

intel 推出Iris Xe MAX 独立显卡从1.35 GHz提升到1.65 GHz

来源：大事件儿时间：2020-11-06 11:39:13

先看规格，Iris Xe MAX(DG1，应该是Discrete Graphic 1的缩写，第一代独立显卡?)和TGL-U的Iris Xe(96EU)比，除了作为独立显卡存在必然需要的独立显存、使用PCIe接口而不是Ringbus和CPU内核连接外，唯一的区别就是频率高了，从1.35 GHz提升到1.65 GHz，提升了0.3 GHz，22%，甚至连显存都使用完全一样的128 bit LPDDR4X-4266：

对笔记本硬件比较关注的，应该知道96EU的Xe核显和MX350性能相近。基于上述条件，即便还没看到DG1的评测，大概也能猜到，其它规格完全一样，频率提高22%的DG1，充其量仅仅能够和NV在低压本上最新的入门级独显——MX450相近。所以，不管是桌面还是游戏本，NV和AMD两家的真·入门级独显，5500和1650，打DG1轻松的很。而且DG1的TDP仅仅是25W，显然也不是面向供电散热都有一定保证的游戏本、桌面市场的。

那么问题来了，Intel给出来一个和核显规格一样的独显，这是要干什么?可以实现类似NV的SLi或者AMD的交火那样的效果么?很遗憾，不可以。Intel并没有提供过类似的多显卡的技术，要么用核显，要么用独显——事实上，因为通过PCIe通道和CPU互联，带宽、延迟都不如核显使用Ringbus，据说在某些游戏中，具备独立显存无需与CPU共享内存带宽，频率更高的DG1，性能甚至不如核显。在低压笔记本上，增加这么一块芯片以及显存，只为了部分游戏中获得20-40%的性能提升，显然很不合算。

结合Intel将近10年来，从Core 2 Quad直至Core gen7，一直维持主流平台旗舰4核8线程的规格;高端桌面、服务器平台除了增加核心规模外同时一直在推动SIMD计算;以及发布11代时的视频中，大量的篇幅是介绍11代如何提升AI性能，加速应用。我的看法是：DG1是Intel在布局未来的人工智能、高性能计算的另一次尝试。

Netburst架构的奔腾4因为功耗爆炸失败后，Intel对于功耗是非常重视的。这些年来，Intel多次在不同场合给出了不同情况下，数据计算、传输消耗的功耗数据，没有经过大量的研究、模拟、测试和统计分析，是不可能给出这些数据的。

具体的数据懒得重新翻出来了，大体上的结论就是执行某条指令的时候，参与工作的晶体管越多，CPU功耗就越高。不同的指令，计算单元本身的实现差异可能很大，例如浮点单元功耗可以达到整数单元的十多倍。想降低计算单元的功耗只能通过优化电路，使用更少的晶体管实现来降低，对于已经成熟的指令，这个几乎不可能了。

而执行一条指令，除了计算单元外还有大量的晶体管参与工作。对于现代的CPU，计算单元不过是十多近二十级流水线中的一级，流水线的其它部分实现了取指、译码、分支预测、重排序、调度、寄存器重命名、发射、数据抓取/回写等功能。除了CPU流水线外，现代CPU单个核心中还有大量的晶体管用于实现多级缓存。最终的结果，以Sandybridge(SNB)架构的Core Gen2为例，执行最传统的x86指令(不含浮点)，计算单元仅仅占用了整个内核功耗的6%左右。执行浮点计算指令好一点，计算单元的功耗和内核中额外的模块相近(不含SIMD指令)。因此，现代CPU为了达成高工作频率使用的多级流水线，以及为了降低各种情况导致的流水线空泡出现的概率，代价是使用了额外的大量晶体管。

SIMD(Single Instruction Multi Data，单指令多数据)指令是提高晶体管效率的有效手段。对于多个需要进行相同计算的数据，一条指令就可以完成。相应的计算单元、数据通道使用的晶体管多倍提升的同时，流水线其它模块使用的晶体管数量并没有明显变化。因此，SNB执行256bit AVX指令时，计算单元的功耗占整个内核的75%，晶体管效率提高了很多。支持512bit的AVX512指令，大概可以进一步提高到87%。

然而这仅仅是指内核的功耗分布，现代CPU除了内核，还有uncore部分，以Intel早期的服务器CPU(至强E5/E7 V*)来说，包括内核间互联的环形总线、末级缓存、内存控制器、PCIe控制器、多个CPU互联的QPI总线控制器等非内核模块。海量数据吞吐计算时，这些模块的功耗占据了整个CPU大约40%。所以，即便是AVX2这样的SIMD指令，其实计算单元功耗也只占整个CPU的45%，不到一半。

这就是现代CPU的功耗困局：即使是降低CPU的工作频率，可以大幅降低内核功耗;在同等功耗限制下，不惜成本成倍增加晶体管数量，容纳下更多核心，但仍然会因为流水线的其它模块和CPU内部的其它模块占用了大量晶体管，无法获得理想的计算性能。这些代价，对于只需处理少量数据的传统应用，或者追求高响应的应用，是值得的，而且是必须的。但对于海量数据吞吐的计算来说，还是否必须，是否值得，就有待商榷了。

从NVIDIA推出GPGPU以来，频率低，流水线短，没有分支预测、乱序执行机制，等同于超宽SIMD指令(16-64个单精度浮点数，相当于512-2048bit宽度)的GPU，虽然一直被诟病程序编写困难、不够灵活、延迟高、效率低等等，但也因为频率低单个晶体管功耗也低，可以使用更成熟的生产工艺堆砌大量的计算单元。依靠大量线程的切换来回避流水线空泡，相对CPU简单很多的指令流水线占用的晶体管数量少得多，效率更高。即便是最顽固的CPU拥护者，也无法忽视GPU动则比同时期CPU高三四倍甚至更高幅度的理论性能。算法合适的前提下，GPU能提供比CPU强得多的性能。即便是效率差一些的算法，实际性能往往也可以达到甚至超过CPU。

如果说传统的高性能计算，CPU和GPU各有所长，整体上CPU编程更简单方便更灵活，GPU对CPU威胁有限的话。这几年的视频内容流行，人工智能在移动端的流行，都是相当合适用GPU处理的算法，GPU对传统CPU在数据中心市场造成了相当程度的冲击。

Intel并非对GPU的冲击毫无预见，但之前因为在x86的近乎垄断地位，Intel采用的方案是集成大量的支持超宽SIMD指令但流水线简化很多的x86 CPU，也就是至强融核。期望在这个市场也用x86优秀的兼容性，方便应用移植来从GPU手上争夺回市场份额。即便是采用相对Core架构简单很多的P54C架构，用4线程切换替换了乱序执行，因为指令译码、x86指令兼容、大容量缓存和交互总线依然消耗了大量晶体管，至强融核和同期的GPU相比，理论性能依然低不少。例如2012年的Xeon Phi 7120P，理论单精度浮点性能2.4 TFLOPS，同期的Geforce GTX 680是3 TFLOPS。这还是7120P用了22nm制程，功耗达到300W;680则是台积电28nm制程，功耗195W的结果，因为晶体管数量7120P是50亿，680仅仅是35亿。

至强融核路线已经在2017年被取消了，而DG1则是负担起抗衡NV的重任。但一开始就直接抗衡旗舰级产品并不现实，NV多年来的积累不是几年的研发就能追赶上的。因此，低规格的DG1，凭借Intel和笔记本OEM厂商的关系，在低压笔记本平台上，搭配Xe核显，在支持GPU加速的生产力应用上提供更强的性能——在低压移动这个因为功耗、成本NV难以发力的平台上，CPU+iGPU+dGPU配合打一下NV还是很有希望的。

Intel应该是期望随着这个方案的普及，更多应用对Intel这套方案提供支持优化，在今天相对更普及的视频编辑、人工智能(客户端推断)方面对NV发起反击。

最后，搭载DH1的笔记本产品还没上市，具体性能表现，市场表现，各软件开发商支持力度，都难以推测。所以，最终效果能否达成Intel的期待，还要拭目以待。

免责声明：本文不构成任何商业建议，投资有风险，选择需谨慎！本站发布的图文一切为分享交流，传播正能量，此文不保证数据的准确性，内容仅供参考

关键词： intel