17380538992

利用 Dell PowerEdge、PowerScale 和 NVIDIA 为 AI 解决方案提供支持

Admin 33 2024-11-11 15:25

戴尔科技和英伟达合作提供集成解决方案,结合领先的 AI 平台、横向扩展文件系统和屡获殊荣的服务器,以满足当今日益苛刻的 AI 工作流程。

Darren 详细介绍了 GenAI 如何从结合 PowerScale 存储、PowerEdge 服务器和 PowerSwitch 网络以及 NVIDIA AI Enterprise 和 NEMO 的解决方案中受益。


针对性能、并发性和规模进行优化的架构


戴尔的 PowerScale架构是一个领先的横向扩展 NAS 平台,可将多达 252 个节点集群到单个存储系统中,旨在加速跨本地、边缘和云环境的 AI 模型训练和推理。其全闪存平台使用 OneFS 和 NVMe 磁盘,通过单个命名空间实现完整的集群容量和性能,支持极端并发和低延迟数据传输。

通过提供可扩展存储,PowerScale 允许企业按需扩展。集群可以在单个命名空间内扩展到 186PB 容量和超过 2.5TB 的读/写吞吐量。这确保了强大的 AI 工作流支持。


PowerScale 针对 AI 训练期间的高并发 IO 进行了优化,支持 NFSoRDMA 和 NVIDIA 的 GPU 直接存储 (GDS),以实现低延迟数据传输。PowerScale OneFS 还支持融合以太网上的 RDMA (RoCEv2),绕过 CPU 和操作系统以提高数据传输效率,并与 MagnumIO 结合,在 NVIDIA GPU 内存和 PowerScale 存储之间实现高效的数据传输,从而更快地推动 AI 创新。


PowerEdge XE9680 服务器配备八个 NVIDIA H100 GPU 和 NVIDIA AI 软件,旨在实现高吞吐量和可扩展性。它通过 NVIDIA ConnectX-7 SmartNIC 增强了性能和网络,支持 NLP 等高级应用程序。配备 NVLink 交换机系统的 NVIDIA H100 GPU 通过专用的 Transformer Engine 加速 AI 工作负载,使 LLM 速度提高 30 倍。



测试 PowerEdge 是否适用于 AI 训练工作负载


为了评估该架构的 GPU 性能和存储可扩展性,我们训练了一个流行的 LLM — 在 LLAMA 2 模型架构上使用两种不同的配置:一个 7B 参数模型,使用一台配备 8 个 NVIDIA H100 GPU 的 PowerEdge XE9680 服务器;一个 70B 参数模型,使用六台配备 48 个 NVIDIA H100 GPU 的 PowerEdge XE9680 服务器。


通过使用这些现成的 LLAMA 2 模型尺寸,此评估将帮助我们更好地了解基础设施资源的使用情况和各种训练工作负载的要求。

两种配置均包含 NVIDIA AI Enterprise。NVIDIA AI 平台的这一软件层是解决方案设计的核心,可加速数据科学流程并简化 AI 开发和部署。这个安全的云原生平台包括 100 多个框架、预训练模型和用于数据处理、模型训练、优化和部署的工具。


这两个模型示例的初始数据加载对存储的性能影响很小,因为基于语言和文本的模型具有较小的数据集。这导致文件系统上的读取活动较少。然而,检查点数据的影响更大。在检查点操作期间,70B 参数模型需要比 7B 参数模型高得多的写入吞吐量,从而影响 OneFS 文件系统。

基准测试结果取决于工作负载、应用程序要求和系统设计。相对性能会有所不同,因此此工作负载不应取代特定客户应用程序基准测试,以进行关键容量规划或产品评估。有关 Dell PowerEdge 服务器基准测试,请参阅MLPerf 基准测试页面。


测试 PowerScale 的图像模型训练


此次验证旨在了解训练图像数据集时存储性能的变化。评估了两种配置:一种是四节点 PowerScale F600P 集群中配备两台 8 路服务器,每台服务器配备 16xH100 GPU;另一种是八节点 PowerScale F600P 集群中配备相同的服务器设置。我们使用了 ResNet-50 模型架构,这是存储和 GPU 计算平台上图像分类的标准基准。


验证设置旨在测量训练操作期间 Dell PowerScale 文件系统的影响,并在添加 PowerScale 节点后检查文件系统性能和训练性能的变化。

当 PowerScale 集群从 4 个节点扩展到 8 个节点时,集群节点的 CPU 周期减少了 41%,NFS 操作减少了 50%。训练性能对于每 GPU 每秒图像数(约 5,370 张)和 GPU 利用率(99%)都保持一致。


经过验证的 GenAI 工作负载性能和可扩展性


戴尔 PowerScale 生成式 AI 模型训练参考设计为 LLM 训练提供了可扩展的高性能架构。它利用 NVIDIA AI Enterprise 和 NVIDIA NeMo 来简化 GenAI 模型的开发和训练,并由强大的戴尔基础设施提供支持。

使用 LLAMA 2 模型架构进行验证可为 GenAI 训练提供可靠、灵活的解决方案,解决网络架构、软件设计和存储性能问题。此设计可作为理解存储要求和性能影响的指南,基于训练阶段的模型和数据集差异,使其适用于许多不同的企业用例。


【公司名称】四川旭辉星创科技有限公司

【代理级别】成都戴尔服务器工作站总代理

【销售经理】王经理

【联系方式】座机:028-85596747    手机:17380538992

【公司地址】四川省成都市武侯区二环路南一段13号群益商务大厦1栋单元4层1-403

联系我们
您好,咨询客服了解更多促销产品
售前优惠在线咨询
QQ咨询
微信咨询
售前优惠电话咨询专线:
17380538992
售后电话咨询专线:
028-85596747

请用微信扫描二维码

3.457835s