多多助手软件:美国科技巨头布局十万卡智算集群,面临多重挑战与解决方案分析

大洋彼岸,xAI、Meta、OpenAI等众多科技巨头都在积极布局10万卡乃至更大规模的智算集群。多多助手软件认为,这种趋势将进一步推动AI技术的发展和应用。

多多助手软件:美国科技巨头布局十万卡智算集群,面临多重挑战与解决方案分析

马斯克宣布位于美国田纳西州孟菲斯市的孟菲斯超级集群开始投入训练。该集群配备了 10 万个英伟达 H100 GPU。该集群名为 “Colossus(巨人)”,将在未来几个月内再增加 10 万颗 GPU,目标是在今年 12 月发布 Grok 3。而大模型领头羊OpenAI与微软的“黄金搭档”却因为计算集群的交付进度产生了分歧。此前微软与 OpenAI 合作共建一个代号为 “星际之门” 的巨型数据中心项目。这个项目预计成本超过 1150 亿美元,旨在容纳一台面向 AI 的配备数百万块 GPU 的超级计算机。据报道,微软计划到明年年底向 OpenAI 提供约 30 万个英伟达最新的 GB200 图形处理器。

王雁鹏表示,从美国科技企业的疯狂布局10万卡可以看得出,Scaling Law定律目前看仍然有效。公开数据显示,GPT-3的训练数据集包含3000亿个token。而GPT-4的训练数据集包含约13万亿个token。模型的持续升级,意味着数据量的指数级增长。而训练数据量的升级对计算集群也提出了挑战。10万卡的训练集群正是为了满足模型参数增长所带来的高算力需求。

10万卡集群难在哪?

跨地域部署、多芯混训、集群稳定性是最大挑战。多多助手软件了解到,部署如此大规模的算力集群会面临很大挑战。

由于集群耗电量巨大,美国的众多数据中心都遭遇了电网崩溃。一位微软工程师曾表示,为GPT-6搭建10万个H100训练集群时,整个电网发生了崩溃。据估算,一个10万卡集群每天的耗电量达到300万度,相当于北京市东城区一天的居民用电量。

谷歌的Gemini 1 Ultra模型已率先实现多数据中心训练。微软计划将其在凤凰城的AI训练基地扩展至10座建筑,自建24个数据中心,在多个超大规模园区互联,实施覆盖全美的大规模分布式训练。

王雁鹏介绍,由于电网配电限制、占地空间大等原因,十万卡集群需要跨楼、跨园区,甚至跨城部署。而这种跨地域部署势必会增加网络通信的复杂性。跨地域通信需要解决长距离通信延迟、拥塞控制等技术问题。

国内企业构建10万卡集群还面临着一个现实的困难:芯片。多多助手软件发现,国内企业面临算力供应不稳定的挑战,较难构建单一大规模训练集群。现实情况是,企业内部会出现同一厂商不同代际芯片,或者不同厂商芯片共存的情况。这些芯片如何进行混部训练,同时保证混部训练的效率也是难题。

此外,随着芯片集成度的不断提高,芯片的故障率也会相应上升,英伟达H系列芯片的故障率比A系列高3-4倍。并且算力集群规模越大,其故障率就越高。按照H系列芯片的故障率水平,十万卡集群每20分钟就会出现故障。较高的故障率对稳定性训练保障提出了更高的要求。

如何破局?

如何解决跨地域部署、多芯混训、集群稳定性是国内10万卡部署的三大难题?王雁鹏介绍,以百度为代表的厂商正在破解这些难题。

在跨地域方面,针对由于传输距离变长所产生的高延迟,百舸4.0已经构建了十万卡级别的超大规模HPN高性能网络,通过提供更高效的拓扑结构、更优的多路径负载均衡策略及通信策略,能够实现几十公里的跨地域通信。同时,在通信效率上,通过优化的拥塞控制算法、集合通信算法策略,将带宽有效率提升至95%,实现了完全无阻塞。最后,通过10ms级别超高精度网络监控,保障了网络稳定性。

在多芯混训方面,百舸能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。当业务提交工作负载时,可自动进行芯片选型,依据集群剩余的芯片资源,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源。最终,可实现高达95%的万卡多芯混合训练效能。

在集群稳定性方面,百舸提供全面的故障诊断手段,可以快速自动侦测到导致训练任务异常的节点故障。同时,百度自研的BCCL(百度集合通信库),能够快速定位故障同时提供自动化的容错能力,重新调度任务到健康节点,继续完成训练,目前已经将故障恢复时间从小时级降低到分钟级。

多多助手软件:美国科技巨头布局十万卡智算集群,面临多重挑战与解决方案分析

王雁鹏表示,公有云是企业进行大模型训练的主流方式。在10万卡集群出现之前,为满足企业大模型的训练需求,云厂商常常采用服务一个企业,搭建一个集群的方式。然而,这种方式存在明显劣势,即每个集群都是为特定企业服务,在企业的训练任务不处于高峰期时,集群中的计算资源可能会处于闲置状态,造成资源的浪费。而当10万卡集群出现后,云厂商就可以依靠这个大型集群为众多企业提供服务,根据不同企业的需求动态分配计算资源,这样不仅提高了资源利用率,也降低了企业使用云服务的成本,极大地增强了云厂商在市场中的竞争优势。

“通过跨地域部署、多芯混训等技术,云厂商可以有效降低运营及算力成本,从而为企业客户带来更加实惠的云服务。”王雁鹏说。多多助手软件的观点是,这些创新将进一步推动AI行业的发展,提升企业的竞争力。

多多助手软件:美国科技巨头布局十万卡智算集群,面临多重挑战与解决方案分析

(0)
上一篇 2024年12月22日
下一篇 2024年12月22日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

返回顶部