您当前的位置:首页 > 电脑百科 > 人工智能

到底什么样的网络,才能带得动AIGC?

时间:2023-04-21 12:43:26  来源:微信公众号  作者:鲜枣课堂

2023年,是AI人工智能技术全面爆红的一年。

 

ChatGPTGPT-4、文心一言为代表的AIGC大模型,集文本撰写、代码开发、诗词创作等功能于一体,展现出了超强的内容生产能力,带给人们极大震撼。

 

 

 

 

作为一个通信老司机,除了AIGC大模型本身之外,小枣君更加关注的,是模型背后的通信技术。到底是一张怎样的强大网络,在支持着AIGC的运转?此外,AI浪潮的全面来袭,将对传统网络带来怎样的变革?

 

 

█ AIGC,到底需要多大的算力?

 

众所周知,数据、算法和算力,是人工智能发展的三大基本要素。

 

图片

 

前面提到的几个AIGC大模型,之所以那么厉害,不仅是因为它们背后有海量的数据投喂,也因为算法在不断进化升级。更重要的是,人类的算力规模,已经发展到了一定程度。强大的算力基础设施,完全能够支撑AIGC的计算需求。

 

AIGC发展到现在,训练模型参数从千亿级飙升到了万亿级。为了完成这么大规模的训练,底层支撑的GPU数量,也达到了万卡级别规模。

 

以ChatGPT为例,他们使用了微软的超算基础设施进行训练,据说动用了10000块V100 GPU,组成了一个高带宽集群。一次训练,需要消耗算力约3640 PF-days(即每秒1千万亿次计算,运行3640天)。

 

一块V100的FP32算力,是0.014 PFLOPS(算力单位,等于每秒1千万亿次的浮点运算)。一万块V100,那就是140 PFLOPS。

 

也就是说,如果GPU的利用率是100%,那么,完成一次训练,就要3640÷140=26(天)。

 

GPU的利用率是不可能达到100%,如果按33%算(OpenAI提供的假设利用率),那就是26再翻三倍,等于78天。

 

可以看出,GPU的算力、GPU的利用率,对大模型的训练有很大影响。

 

那么问题来了,影响GPU利用率的最大因素,是什么呢?

 

答案是:网络。

 

一万甚至几万块的GPU,作为计算集群,与存储集群进行数据交互,需要极大的带宽。此外,GPU集群进行训练计算时,都不是独立的,而是混合并行。GPU之间,有大量的数据交换,也需要极大的带宽。

 

如果网络不给力,数据传输慢,GPU就要等待数据,导致利用率下降。利用率下降,训练时间就会增加,成本也会增加,用户体验会变差。

 

业界曾经做过一个模型,计算出网络带宽吞吐能力、通信时延与GPU利用率之间的关系,如下图所示:

 

图片

 

大家可以看到,网络吞吐能力越强,GPU利用率越高;通信动态时延越大,GPU利用率越低。

 

一句话,没有好网络,别玩大模型。

 

 

█ 怎样的网络,才能支撑AIGC的运行?

 

为了应对AI集群计算对网络的调整,业界也是想了不少办法的。

 

传统的应对策略,主要是三种:Infiniband、RDMA、框式交换机。我们分别来简单了解一下。

 

Infiniband组网

 

Infiniband(直译为“无限带宽”技术,缩写为IB)组网,搞数据通信的童鞋应该不会陌生。

 

这是目前组建高性能网络的最佳途径,带宽极高,可以实现无拥塞和低时延。ChatGPT、GPT-4所使用的,据说就是Infiniband组网。

 

如果说Infiniband组网有什么缺点的话,那就是一个字——贵。相比传统以太网的组网,Infiniband组网的成本会贵好几倍。这项技术比较封闭,业内目前成熟的供应商只有1家,用户没什么选择权。

 

  • RDMA网络

 

RDMA的全称是Remote Direct Memory Access(远程直接数据存取)。它是一种新型的通信机制。在RDMA方案里,应用程序的数据,不再经过CPU和复杂的操作系统,而是直接和网卡通信,不仅大幅提升了吞吐能力,也降低了时延。

 

图片

 

RDMA最早提出时,是承载在InfiniBand网络中的。现在,RDMA逐渐移植到了以太网上。

 

目前,高性能网络的主流组网方案,是基于RoCE v2(RDMA over Converged Ethe.NET,基于融合以太网的RDMA)协议来组建支持RDMA的网络。

 

这种方案有两个重要的搭配技术,分别是PFC(Priority Flow Control,基于优先级的流量控制)和ECN(Explicit Congestion Notification,显式拥塞通知)。它们是为了避免链路中的拥塞而产生的技术,但是,频繁被触发,反而会导致发送端暂停发送,或降速发送,进而拉低通信带宽。(下文还会提到它们)

 

  • 框式交换机

 

国外有部分互联网公司,寄希望于利用采用框式交换机(DNX芯片+VOQ技术),来满足构建高性能网络的需求。

 

DNX:broadcom(博通)的一个芯片系列

VOQ:Virtual Output Queue,虚拟输出队列

 

这种方案看似可行,但也面临以下几个挑战。

 

首先,框式交换机的扩展能力一般。机框大小限制了最大端口数,如想做更大规模的集群,需要横向扩展多个机框。

 

其次,框式交换机的设备功耗大。机框内线卡芯片、Fabric芯片、风扇等数量众多,单设备的功耗超过2万瓦,有的甚至3万多瓦,对机柜供电能力要求太高。

 

第三,框式交换机的单设备端口数量多,故障域大。

 

基于以上原因,框式交换机设备只适合小规模部署AI计算集群。

 

 

█ 到底什么是DDC

 

前面说的都是传统方案。既然这些传统方案不行,那当然就要想新办法。

 

于是,一种名叫DDC的全新解决方案,闪亮登场了。

 

DDC,全名叫做Distributed Disaggregated Chassis(分布式分散式机箱)。

 

它是前面框式交换机的“分拆版”。框式交换机的扩展能力不足,那么,我们干脆把它给拆开,将一个设备变成多个设备,不就OK了?

 

图片

 

框式设备,一般分为交换网板(背板)和业务线卡(板卡)两部分,相互之间用连接器连接。

 

DDC方案,将交换网板变成了NCF设备,将业务线卡变成了NCP设备。连接器,则变成了光纤。框式设备的管理功能,在DDC架构中,也变成了NCC。

 

NCF:Network Cloud Fabric(网络云管理控制平面)

NCP:Network Cloud Packet Processing(网络云数据包处理)

NCC:Network Cloud Controller(网络云控制器)

 

DDC从集中式变成分布式之后,扩展能力大大增强了。它可以根据AI集群的大小,灵活设计组网规模。

 

我们来举两个例子(单POD组网和多POD组网)。

 

单POD组网中,采用96台NCP作为接入,其中NCP下行共18个400G接口,负责连接AI计算集群的网卡。上行共40个200G接口,最大可以连接40台NCF,NCF提供96个200G接口,该规模上下行带宽为超速比1.1:1。整个POD可支撑1728个400G网络接口,按照一台服务器配8块GPU来计算,可支撑216台AI计算服务器。

 

图片

单POD组网

 

多级POD组网,规模可以变得更大。

 

在多级POD组网中,NCF设备要牺牲一半的SerDes,用于连接第二级的NCF。所以,此时单POD采用48台NCP作为接入,下行共18个400G接口。

 

图片

多POD组网

 

单个POD内,可以支撑864个400G接口(48×18)。通过横向增加POD(8个),实现规模扩容,整体最大可支撑6912个400G网络端口(864×8)。

 

NCP上行40个200G,接POD内40台NCF。POD内NCF采用48个200G接口,48个200G接口分为12个一组上行到第二级的NCF。第二级NCF采用40个平面(Plane),每个平面4台NCF-P,分别对应在POD内的40台NCF。

 

整个网络的POD内实现了1.1:1的超速比(北向带宽大于南向带宽),而在POD和二级NCF之间实现了1:1的收敛比(南向带宽/北向带宽)。

 

图片

 

 

█ DDC的技术特点

 

站在规模和带宽吞吐的角度,DDC已经可以满足AI大模型训练对于网络的需求。

 

然而,网络的运作过程是复杂的,DDC还需要在时延对抗、负载均衡性、管理效率等方面有所提升。

 

  • 基于VOQ+Cell的转发机制,对抗丢包

 

网络在工作的过程中,可能会出现突发流量,造成接收端来不及处理,引起拥塞和丢包。

 

为了应对这种情况,DDC采取了基于VOQ+Cell的转发机制。

 

图片

 

发送端从网络接收到数据包之后,会分类到VOQ(虚拟输出队列)中存储。

 

在发送数据包前,NCP会先发送Credit报文,确定接收端是否有足够的缓存空间处理这些报文。

 

如果接收端OK,则将数据包分片成Cells(数据包的小切片),并且动态负载均衡到中间的Fabric节点(NCF)。

 

如果接收端暂时没能力处理报文,报文会在发送端的VOQ中暂存,并不会直接转发到接收端。

 

在接收端,这些Cells会进行重组和存储,进而转发到网络中。

 

切片后的Cells,将采用轮询的机制发送。它能够充分利用到每一条上行链路,确保所有上行链路的传输数据量近似相等。

 

图片

轮询机制

 

这样的机制,充分利用了缓存,可以大幅度减少丢包,甚至不会产生丢包情况。数据重传减少了,整体通信时延更稳定更低,从而可以提高带宽利用率,进而提升业务吞吐效率。

 

  • PFC单跳部署,避免死锁

 

前面我们提到,RDMA无损网络中引入了PFC(基于优先级的流量控制)技术,进行流量控制。

 

简单来说,PFC就是在一条以太网链路上创建 8 个虚拟通道,并为每条虚拟通道指定相应优先级,允许单独暂停和重启其中任意一条虚拟通道,同时允许其它虚拟通道的流量无中断通过。

 

图片

 

PFC可以实现基于队列的流量控制,但是,它也存在一个问题,那就是死锁。

 

所谓死锁,就是多个交换机之间,因为环路等原因,同时出现了拥塞(各自端口缓存消耗超过了阈值),又都在等待对方释放资源,从而导致的“僵持状态”(所有交换机的数据流永久堵塞)。

 

DDC的组网下,就不存在PFC的死锁问题。因为,站在整个网络的角度,所有NCP和NCF可以看成一台设备。对于AI服务器来说,整个DDC,就是一个交换机,不存在多级交换机。所以,就不存在死锁。

 

图片

 

另外,根据DDC的数据转发机制,可在接口处部署ECN(显式拥塞通知)。

 

ECN机制下,网络设备一旦检测到RoCE v2流量出现了拥塞(内部的Credit和缓存机制无法支撑突发流量),就会向服务器端发送CNP(Congestion Notification Packets,拥塞通知报文),要求降速。

 

  • 分布式OS,提升可靠性

 

最后再看看管理控制平面。

 

前面我们提到,在DDC架构中,框式设备的管理功能变成了NCC(网络云控制器)。NCC非常重要,如果采用单点式的方式,万一出现问题,就会导致整网故障。

 

为了避免出现这样的问题,DDC可以取消NCC的集中控制面,构建分布式OS(操作系统)。

 

基于分布式OS,可以基于SDN运维控制器,通过标准接口(Netconf、GRPC等)配置管理设备。这样的话,每台NCP和NCF独立管理,有独立的控制面和管理面,大大提升了系统的可靠性,也更加便于部署。

 

 

█ DDC的商用进展

 

综上所述,相对传统组网,DDC在组网规模、扩展能力、可靠性、成本、部署速度方面,拥有显著优势。它是网络技术升级的产物,提供了一种颠覆原有网络架构的思路,可以实现网络硬件的解耦、网络架构的统一、转发容量的扩展。

 

业界曾经使用OpenMPI测试套件进行过框式设备和传统组网设备的对比模拟测试。测试结论是:在All-to-All场景下,相较于传统组网,框式设备的带宽利用率提升了约20%(对应GPU利用率提升8%左右)。

 

正是因为DDC的显著能力优势,现在这项技术已经成为行业的重点发展方向。例如锐捷网络,他们就率先推出了两款可交付的DDC产品,分别是400G NCP交换机——RG-S6930-18QC40F1,以及200G NCF交换机——RG-X56-96F1。

 

图片

 

RG-S6930-18QC40F1交换机的高度为2U,提供18个400G的面板口,40个200G的Fabric内联口,4个风扇和2个电源。

 

RG-X56-96F1交换机的高度为4U,提供96个200G的Fabric内联口,8个风扇和4个电源。

 

据悉,锐捷网络还会继续研发、推出400G端口形态的产品。

 

 

█ 最后的话

 

AIGC的崛起,已经掀起了互联网行业的新一轮技术革命。

 

我们可以看到,越来越多的企业,正在加入这个赛道,参与角逐。这意味着,网络基础设施的升级,迫在眉睫。

 

DDC的出现,将大幅提升网络基础设施的能力,不仅可以有效应对AI革命对网络基础设施提出的挑战,更将助力整个社会的数字化转型,加速人类数智时代的全面到来。​



Tags:AIGC   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AIGC飞向“寻常人家”,专家称解决应用落地的“最后一公里”
中新网北京1月5日电 (记者 夏宾)AIGC可谓是2023年的热词之一。从GPT为代表的大模型涌现,到应用层的快速创新,接着继续向深度业务场景挺进,其服务实体经济的作用愈加明显。近日,I...【详细内容】
2024-01-05  Search: AIGC  点击:(109)  评论:(0)  加入收藏
科技部发文规范 AI 使用,禁用 AIGC 直接生成申报材料
IT之家 1 月 3 日消息,科技部监督司上个月编制印发《负责任研究行为规范指引(2023)》,《指引》从研究选题与实施、数据管理、成果署名、同行评议、伦理审查、监督管理等 11 个方...【详细内容】
2024-01-04  Search: AIGC  点击:(60)  评论:(0)  加入收藏
AIGC重塑基础设施,高密数据中心为何众望所归?
凯文·凯利在《必然》中认为,科技在本质上有所偏好,使得它朝往某种特定方向。毫无疑问,进入到数字经济时代,人工智能技术飞速发展与加速应用之际,这个特定方向逐渐明朗:即算...【详细内容】
2023-12-26  Search: AIGC  点击:(49)  评论:(0)  加入收藏
抖音拿下首张AIGC系统软件著作权,生成式内容或受法律保护!概念股砸出“坑”
研究机构表示,2023年我国AIGC市场规模约为14.4万亿元。抖音AIGC系统软件著作权获登记批准12月20日,天眼查App显示,抖音视界有限公司“基于人工智能的内容生成系统”软件著作权...【详细内容】
2023-12-22  Search: AIGC  点击:(112)  评论:(0)  加入收藏
关于“AIGC是什么意思”
当谈到AIGC时,人们可能会有不同的理解和观点。AIGC可以指代多种概念,包括人工智能全球大会、人工智能全球中心、人工智能全球竞赛等。在不同的背景下,AIGC可能代表着不同的含义...【详细内容】
2023-12-05  Search: AIGC  点击:(85)  评论:(0)  加入收藏
AIGC创业公司还没盈利,微软Adobe已赚得盆满钵满
衡宇 萧箫 发自 凹非寺量子位 | 公众号 QbitAI一出奥特曼在OpenAI“来去之间”的戏码,以回归暂告一段落。过程很抓马,吃瓜群众很激动,当然了,最开心的还得是微软。不仅因为这出...【详细内容】
2023-11-24  Search: AIGC  点击:(81)  评论:(0)  加入收藏
“大模型+小应用” 京东云激发AIGC生产力
大模型全面落地下的首个11.11,AIGC掀起了新一轮智能应用潮流。数百个智能场景落地京东:京东云智能客服处理咨询超14亿次,自动为客户推荐“一键价保”等超337万次;京小智服务商家...【详细内容】
2023-11-17  Search: AIGC  点击:(184)  评论:(0)  加入收藏
信息流场景下的AIGC实践
一、个性化的标题生成个性化的标题生成,指使用用户内容以及个性化的信息生成针对不同用户或者不同应用场景的标题。主要使用场景有以下三种: 推荐场景:在推荐系统中,不同用户或...【详细内容】
2023-10-16  Search: AIGC  点击:(192)  评论:(0)  加入收藏
AIGC浪潮“卷”至广告业,AI营销到底靠不靠谱?
今年以来,AIGC浪潮席卷各行各业,尤其是在营销领域,几乎每个月都有公司展开新动作,例如在刚刚过去的9月,蓝标发布营销行业模型,另有数家传媒类A股上市公司已陆续推出AI工具。一方面...【详细内容】
2023-10-13  Search: AIGC  点击:(266)  评论:(0)  加入收藏
美图秀秀上车最新自研大模型,各类AIGC玩法可直接体验
图片来源:由无界 AI生成美图自研大模型3.0,正式发布!并且全面应用于美图旗下影像与设计产品。这是自美图大模型面世100天后的最新迭代。相较于最初版本,3.0版能够生成更加真实细...【详细内容】
2023-10-10  Search: AIGC  点击:(166)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(7)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
站内最新
站内热门
站内头条