17380538992

算力标杆|戴尔全新一代PowerEdge R760服务器深度评测

Admin 167 2024-01-22 10:34

数字化推动算力基础设施的,算力作为各个行业信息系统运行的载体和引擎,受到了前所未有的重视。就在前不久,戴尔科技集团发布了新一代 Dell PowerEdge 服务器,覆盖主流型、GPU优化型、边缘优化型等8大细分品类,从而满足不同业务场景对服务器的需求。



戴尔新一代 Dell PowerEdge 服务器发布后,益企研究院重点关注其在性能、架构设计、节能设计以及安全等方面的诸多创新,并联合战略合作伙伴中国计量科学研究院针对Dell PowerEdge R760在复杂环境下的可靠性进行了验证。

数据量的爆发式增长带来了算力需求的急剧增加,这让数据中心对处理器的性能也提出了更高的要求。Dell PowerEdge R760是第四代英特尔®至强®可扩展处理器的2U机架服务器,在新一代PowerEdge服务器中的定位为高性能通用型,在性能、可扩展性等方面较为均衡。

Dell PowerEdge R760提供多种配置方式满足多样化的用户需求



Dell PowerEdge R760提供了两路处理器插槽,以及32条内存槽,属于满配。处理器和内存区域的布局也因此显得极其紧凑。



为了验证R760的实力,我们会专门为其搭配顶级的双路处理器,也就是第四代英特尔®至强®可扩展处理器中白金系列的8480+。8480+拥有56个内核,基础频率2.0GHz,全核睿频3.0GHz,最高3.8GHz,拥有105MB L3 Cache,功耗350W。事实证明,R760的默认散热配置可以完全满足这一对顶级处理器的散热要求。



第四代英特尔®至强®可扩展处理器(代号“Sapphire Rapids”)的一项重大特性是全面引入了PCIe 5.0的支持,每插槽可以提供80通道的PCIe 5.0,双路平台则可以达到160个通道,这明显提升了计算卡、高速网卡、NVMe SSD等设备的支持能力。




着眼客户应用场景,戴尔在服务器架构设计进行了创新。Dell PowerEdge R760为后窗提供了4组PCIe Riser用于扩展标准PCIe卡。其中,两侧的Riser(编号分别为1、4)为PCIe 5.0接口,中间的两组Riser(上下叠放)为PCIe 4.0接口。


从布局上看,戴尔建议将强调高性能输出的GPU卡等设备置于机箱两侧,既分别接近电源(减少线损),散热条件也比较宽裕;而对带宽要求不那么高的设备(如主流网卡、推理卡、视频加速、存储控制器等)使用主流的PCIe 4.0接口,合理控制成本,安装密度也可以较大。

Dell PowerEdge R760的导风罩设计也匹配了这种思路,中部的气流并非全部直通后窗,而是分流一部分给两侧。从导风罩的后向视角可以看到,中部上层的风道入口是故意收窄的,把进风量留给了左右两侧的PCIe 5.0 Riser部分。

Dell PowerEdge R760右侧电源与Riser2之间预留了出入液管道布放通道。换句话说就是:戴尔已经为R760做好了部署冷板式液冷的准备,可以充分释放新一代处理器、GPU等的性能。传统服务器如果想改造为冷板式液冷,通常需要牺牲至少一个PCIe扩展槽的的空间走管路,而Dell PowerEdge R760不再面临这种困扰。



与愈发昂贵的制造工艺相比,内存墙的问题可能更让人头疼——处理器内核数量的增长明显快于内存带宽的增长。所幸英特尔®至强®可扩展处理器用上了DDR5内存,换下了已是“三朝元老”的DDR4。另外,这一代平台全面采用了Chiplet设计,其片上互联的带宽、延迟应该是在内存测试中反映的最为明显。


因此,我们格外重视在新一代平台上内存的表现,并在不同环境下进行了多次测试。

首先,在Windows Server 2022下,通过AIDA64 Cache & Memory Benchmark,我们可以看到,Dell PowerEdge R760搭配的8480+在16通道DDR5 4800的支持下,内存带宽可以达到542.64GB/s,超过理论值的90%(16通道DDR5 4800的理论值是:4800×64×16/8=563200MiB/s=600GiB/s),可以满足内存密集型用户的需求。

作为参考,我们用实验室中的第三代英特尔®至强®可扩展处理器跑了同样的测试。双路平台,16通道DDR4 2933的内存带宽为307.66 GB/s,约为理论值的84%。另外,我们还留意到:8480+的内存带宽已经接近上一代处理器的L3 Cache带宽了。为了匹配内存带宽的长足进步,英特尔®至强®可扩展处理器的L3 Cache不但容量爆增,带宽也增长到了上一代处理器的约2.5倍。


在延迟方面,8480+的L1、L2 Cache延迟明显优于第三代英特尔®至强®可扩展处理器,这些主要来源于微架构的改进。譬如这一代的Golden Cove架构内核将每个周期的可能负载数量从上一代的2个增加到3个;L1D 填充缓冲区从 12 个增加到 16 个;L1 DTLB已经从64个条目增加到96个条目等。

8480+的L3 Cache的延迟则增加到了40ns左右。这符合预期,我们认为是Sapphire Rapids采用Chiplet设计导致——L3 Cache需要跨Tile访问引入了额外的延迟。至于内存,内存控制器也需要跨Tile组织,且DDR5频率提升也确实相对高频DDR4增加了延迟,内存延迟测试的结果与上代相比仅略有增加,优于我们测试前的预期。


我们也在CentOS下用MLC、Stream进行了测试。除了内存带宽和延迟的测试,我们还特意给Dell PowerEdge R760增加了逐核压力递增测试。从测试结果看来,搭载第四代英特尔®至强®可扩展处理器的Dell PowerEdge R760在通过Chiplet技术大幅提升核数的同时,不但保持了低延迟的相对优势,效率还有所提升。



在判读数据前需要指出的是,目前我们使用的MLC及脚本在特定的几个内核出现数据异常,鉴于两代Xeon处理器都会在同样的内核数(如25~28)均输出为0,可以排除硬件的架构问题,请忽略下图中的两处各4内核的异常点。

从图中我们可以看到:随着物理内核负载逐步增加,PowerEdge R760搭载8480+的内存带宽开始近乎于线性的增加。当内核负载增加到56个(恰好是单路处理器的内核数量)时,内存带宽已经达到500GB/s左右,相当于峰值的92%。然后,在64~70核时,内存带宽便达到顶点。以往的双路平台并不会这么快让内存带宽达峰,譬如参考的第三代英特尔®至强®可扩展处理器的内存带宽会分两阶段递增,在调用的内核少于一个插槽的数量时,另一插槽的内存带宽没有带来什么助益。



我们这次基于第四代英特尔®至强®可扩展处理器的 Dell PowerEdge R760内存带宽比以往产品的测试更早到达峰值,除了处理器内核与操作系统的调度有关,也与双路处理器之间的互联带宽的提升关系很大。Sapphire Rapids的XCC内核版本提供了4组x24 UPI2.0@16GT/s互联,而Ice Lake为3组11.2GT/s——两代平台间双路处理器互联带宽近乎翻倍的巨大提升可能是许多人未曾留意的。简而言之,在这一组测试中,R760展现出了更高的处理器互联带宽带来的价值,能够更充分地发挥新一代内存的带宽优势。


第四代英特尔®至强®可扩展处理器采用系统级设计方法,在CPU芯片架构中内置专用的工作负载加速器,以提升性能和效率。为此,益企研究院在Dell PowerEdge R760这台服务器上测试了新的加速器技术,考察到底能带来哪些性能提升。



此前益企研究院曾专门针对AMX加速器进行解析。AMX计算单元支持8bit的整形数据(int8)和16bit的浮点数据(bf16),可以对不同的工作负载进行有效的优化。例如,在对AI模型进行训练的时候,为了保证模型的数据精度,往往需要bf16以上的数据精度进行运算。而在日常生产环境中,推理用的频次要远远高于训练的次数,而在AI模型的推理过程中,由于运算量相对较小,就可以采用int8的数据精度来提高效率。

通过考察TensorFlow ResNet50推理,可以展现第四代英特尔®至强®可扩展处理器的真正实力。在没有启用AMX之前,8480+的推理性能相对上一代处理器的提升主要得益于内核规模的增加。而一旦有了AMX加持,吞吐量的提升幅度就会比物理内核要大得多:在同是使用8480+的情况下,指定精度bf16的输出能力接近AVX-512(fp32)的4倍,int8更是接近8倍。有此“软硬兼施”,才能称得上火力全开。



【公司名称】四川旭辉星创科技有限公司

【代理级别】成都戴尔服务器工作站总代理

【销售经理】王经理

【联系方式】座机:028-85596747    手机:17380538992

【公司地址】四川省成都市武侯区二环路南一段13号群益商务大厦1栋单元4层1-403


联系我们
您好,咨询客服了解更多促销产品
售前优惠在线咨询
QQ咨询
微信咨询
售前优惠电话咨询专线:
17380538992
售后电话咨询专线:
028-85596747

请用微信扫描二维码

1.725744s