Z6·尊龙凯时「中国区」官方网站 OpenAI公开大限制褂讪磨砺的神秘,英伟达AMD英特尔齐受益
OpenAI,此次又真 · Open 了一下。
刚刚,OpenAI 通过 OCP 怒放了超大限制 AI 磨砺时使用的汇注公约——MRC。
此次怒放的 MRC,是终了微秒级故障规复、能守旧 10 万块以上 GPU 高效互助的底层通讯公约。
中枢奥义便是,在大限制的磨砺环境下,确保汇注通讯的褂讪性。

何况这一波是和硬件厂商合作,在 OpenAI 的组织下,英伟达、AMD 和英特尔齐参与了这个形态。
有网友暗意,把这些厂商聚在一起合作制定措施,确实比终了 AGI 还难以谐和。

大限制集群,也要通讯褂讪
这套 MRC(Multipath Reliable Connection)公约,是 OpenAI 融合英伟达、AMD、英特尔、微软和博通,花了两年时间作念出来的,上周通过 Open Compute Project 向全行业怒放。
它刻下跑在 OpenAI 悉数最大限制的 NVIDIA GB200 超算上,包括 OCI 在德克萨斯 Abilene 建的星际之门和微软的 Fairwater 超算。
这件事的布景是,同步预磨砺(synchronous pretraining)的通讯模式对汇注特地明锐。
十几万块 GPU 在每个磨砺 step 里以 all-reduce 为主要通讯原语协同职责,单次迭代可触发数百万次点对点数据传输。
这类谈判通讯的完成时间由最慢的那次传输决定,任何链路拥塞或丢包齐会以滚雪球的相貌传导到整个 job,轻则变成隐约骤降,重则触发 checkpoint 回滚。
跟着集群限制扩大,汇注故障的全齐频率只会高涨。

为了处理这个问题,MRC 主要作念了三件事。
第一件是多平面汇注拓扑(Multi-Plane Network)。
传统作念法是把 800Gb/s 的网卡当一整条链路用,整个集群需要三四层交换机才能连起来。
MRC 把它拆成 8 条 100Gb/s 子链路,各自连到孤独的交换机,形成 8 个并行的汇注平面。
单台交换机能接入的端口数因此扩大了 8 倍,拓扑也随之扁平,层数从三四层压到两层,13 万块 GPU 的互联资本和故障点齐随之大幅下落。
层数少还意味着故障点少,8 个平面并行又意味着冗余旅途大幅增多,这亦然背面两项时期概况开拓的物理基础。

第二件是自相宜包喷射(Adaptive Packet Spraying)。
经典 RoCE 条目并吞条 RDMA 传输的所罕有据包走并吞齐径以看护司法语义,这在多平面环境下会变成严重的流量碰撞和旅途欺诈率不及。

MRC 蔓延了 RoCE 的乱序处理才能,在包头中镶嵌目的内存地址,Z6尊龙凯时中国官方网站使摄取端不错将乱序到达的包径直写入正确位置,从而允许将单次传输的包喷射到数百条旅途上并行传输。
拥塞检测和旅途切换则是在联接层完成,发现拥塞则换路,检测到丢包则立即停用该旅途并触发重传,整个反馈在微秒级完成。
这种模式不错贯串为,原本一批货必须走并吞辆车按司法投递,MRC 让这批货同期上几百辆车分头跑,每个箱子上贴好收获地址,到了径直入库,哪条路堵就换哪条。
谈判通讯对尾延伸特地明锐,这套机制险些摒除了汇注中枢的拥塞,径直压低了磨砺 step 完成时间的抖动。

第三件是用SRv6(IPv6 Segment Routing)静态源路由取代动态路由公约。
传统决策依赖 BGP 在交换机间动态计较和同步路由,链路故障时路由敛迹需要数秒致使更长,这段时间内磨砺流量会大面积中断。
SRv6 将旅途决策完全移到发送端,把逐跳的交换机标记符序列径直编码进数据包的目的地址,通盘每台交换机只需按腹地静态路由表实行转发,无需感知任何拓扑变化。

依然拿物流来类比,这就相称于动身前就把完满阶梯写在包裹上,每个路口的职责主说念主员只管照单操作,不需要和任何调遣中心关系。
某条旅途出现故障,MRC 发送端径直罢手在该旅途喷包、切换到其他旅途,交换机侧零感知、零行动,整类路由敛迹激勉的抖动从根底上被摒除。
三层贪图从拓扑、传输、路由三个维度同期发力,确保了大限制下的汇注可靠性。
One More Thing
MRC 时期博客公布之后,OpenAI 还同步发布了一期播客。
这期播客中,OpenAI 汇注恰当东说念主 Mark Handley 和职责负载恰当东说念主 Greg Steinbrecher 聊了 MRC 从动机到落地的完满进程。

感敬爱的话,不错去听一听。
参考贯串:
https://openai.com/index/mrc-supercomputer-networking/
播客地址:
https://www.youtube.com/watch?v=TiW96H5HmAw
一键三连「点赞」「转发」「提神心」
宽饶在驳斥区留住你的念念法!
— 完 —
5 月 20 日,咱们将在北京金茂万丽酒店举办一年一度的中国 AIGC 产业峰会。
首波嘉宾声威已公布!昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷齐来了,� �了解笃定
请你和咱们一起,不再仅仅研究 AI 的往常,而是刻下就用起来。� �
一键心思 � � 点亮星标
科技前沿推崇逐日见Z6·尊龙凯时「中国区」官方网站
开云kaiyun(中国)体育官网