

作者丨何思思 西西编辑丨陈彩娴2021年,中国信通院曾低调颁发一份报告,指出一个与支流视角相悖的趋向:虽然那时全球算力的出货量还是以 CPU 居多,但从 2021 年起头,中国的智能算力(GPU)占比就已经跨越通用算力,在我国算力中占比跨越 50%,增速 85%。两年前,这个数字还没有引发云计较范畴的普遍认同,但也已经有一部分云厂商有备无患。比如,百度在 2020 年就提出,云计较一定要斟酌野生智能(AI)技术的影响。这中心,AI 技术在焦点生产场景中的代价曾一度遭到质疑,智能计较的话题临时搁浅。但到 2023 年,随着大模子的爆发,各行各业迎来了有能够决议未来成长、甚至企业命运的倾覆性技术。运转千亿级参数以上模子的计较根本设备扶植需求又重新回到行业的视野,支持智能算力平台的 GPU 也迎来继 2012 年深度进修后的第二春,市场反应甚至较 2012 年加倍火爆。最直观的数据是,2023 年英伟达公布的 Q3 财报显现,英伟达期内营收达 181.2 亿美圆,同比上涨 206%,市值跨越 12000 亿美圆,横跨英特尔近 1 万亿美圆,成为全球市值最高的芯片公司。而这背后的鞭策力,无疑是今年占据各大科技头条的大模子变化。ChatGPT的出现,不但改变了 AI 范畴的成长格式,说话 AI 技术职位逐级爬升,取代视觉 AI 成为本日通用野生智能(AGI)话题的 C 位,同时也改变了云计较的成长格式——智能算力的脚色将加倍关键,企业技术架构将从曩昔的以CPU为计较焦点,逐步转向以GPU为代表的智能计较 为焦点,GPU+CPU+DPU+… 的异构计较架构将取代单一XPU,成为云计较的首要算力形式。有行业人士甚至猜测,国产 GPU 第一次大范围的格式重塑将在 2025 年之前完成。不管预言能否正确,但可以必定的是,2023 年已经走到年关,大模子为中心的 AI 技术日新月异,留给云计较厂商的预备时候已经不多了。而在云计较的格式被完全重构之前,大模子时代给算力提出的新应战,也仍需明智思考、谨慎看待。计较范式的变化在曩昔大模子狂飙的一年中,人们最能直观感遭到大模子对云计较发生影响的表示,大约是科技同业对 GPU 算力的哄抢。一位算力采购从业者告诉雷峰网一个段子,年头有人费劲含辛茹苦找到英伟达的销售后,自以为兜里有钱、心里不慌,“财大气粗”地向英伟达的销售提出要采办2000 张 A100,成果被英伟达的销售拒绝了,缘由是“要的量太小”。在上半年炼大模子最红火期、芯片出口管束公布之前,江湖一度传闻该巨头的 GPU 卡出货量是 4000 张起步,但仍有多量同业斥巨资还要碰一鼻子冷灰。毫无疑问,在大模子的影响下,云计较从互联网时代的 CPU 云为主向 AI 时代的 GPU 云为主改变已是行业共鸣、大势所趋。更底层的芯片端最早反应,除了英伟达,高通、英特尔、Arm 等厂商也起头将面向大模子练习与推理的芯片设想与生产列入日程,为下一个时代到来的能够性做预备。但除了芯片品种与数目的变化,雷峰网观察到,大模子对云计较厂商的影响实则表现在更深的维度。虽然 GPU 在2012 年深度进修突起时就已经被利用于 AI 算法的练习与推理,但由于大模子基于 Transformer 与超大参数范围的新特征,通用泛化才能远远强于曩昔的 AI 小模子,练习、推理算力需求指数级飙升,对算力(集群)范围、能效、稳定性都提出了极高要求。仅仅依靠简单的算力堆叠,完全没法适用于大模子时代。在这样的趋向布景下,曩昔的云办事形式也需要作出顺应时代的变化与调剂。而相比计较劲的“收缩”,云厂商办事形式的维度并没有遭到太多的关注。具体来说,在大模子时代,要介入新一轮的合作,云计较厂商或需要重视三大命题、并供给解法:计较根本设备的变化关于小模子与大模子的工程量对照,我们可以用分歧范例的飞机模子来做比力:一样是飞机,虽然都具有机翼、机身、策动机、升降架与尾翼,但玩具飞机、小型飞机、中型飞机与大型飞机的尺寸巨细分歧,实现功用分歧,搭建与运维所需的技术、人材、工程量等等也有极大差别。对应地,分歧参数范围的 AI 模子所要求的计较根本设备也分歧。曩昔 AI 小模子的练习一般只需单卡或单机多卡,但大模子的练习需要不计其数张 GPU 才能跑起来。而一样类比飞机模子的例子,个位数的 GPU 与上万张 GPU 卡的集群搭建也不是同一个工程量级。周全替换为 GPU 不现实,现实计较中 GPU 常常还要连系 CPU、DPU 等构成超大范围智算集群才能完成练习与推理。而大范围计较集群的扶植也不是将一万张显卡停止简单聚积就能完成,还需要专门的设想与优化,才能使模子练习与推理的性能和稳定性到达现实需求。以显卡的操纵率为例。曩昔业界千卡 CPU 并行的操纵率凡是在 60% 到70% 之间,这已经是很高的水平,但照旧不够。在时代巨轮飞转、从 CPU 过渡到 CPU+GPU+DPU 只要极短时候的条件下,提升显卡操纵率一向是云厂商老浩劫的题目。在大模子眼前,这类题目会变得加倍关键。当显卡的基数扩大,显卡操纵率提升 5% 甚至 10% 的影响力也变得加倍庞大。据雷峰网领会,一些智算中心的售卖率虽然很高,但在操纵率方面却极低,百分率只在个位数。换言之,计较集群的治理仍存在较大的降本增效空间。此外,由于大模子的参数范围与练习复杂度加大,显卡的故障率也随之提升。多位技术职员告诉雷峰网,英伟达显卡练习大模子的一个常见故障是“掉卡”,即显卡在运转进程中忽然落空毗连或没法一般工作。大模子的练习周期较长,假如中途出现故障,原本已经停止了十几天的使命能够就要重新起头。是以,面向大模子停止云计较根本设备系统的重构是当下云厂商不能不推动的工作。大模子办事成支流,MaaS 是趋向曩昔一年,围绕大模子技术重构上层产物与利用已成行业共鸣。虽然当前中国的大模子原生利用数目远远没有到达公共预期,与人们设想的移动互联网时代 app 层见叠出的愿景还有一定间隔,但今年下半年以来,围绕大模子设想 AI 原居民时代的会商越来越多。以百度文心一言为例。百度曾公布一组数据,称百度文心一言自 8 月 31 日周全开放后,至今 4 个月里,百度千帆大模子平台上的大模子 API 日挪用量增加了 10 倍,且挪用行业不但范围在互联网、教育与电商场景,还有营销、手机与汽车等大师所想不到的传统行业。随着企业对大模子利用的关注加大,大模子的贸易形式也在发生变化。在MaaS(模子即办事)的趋向下,客户未来关心的重点将转向模子好欠好,框架好欠好等等,而不是仅仅看算力怎样样。MaaS将完全改变云办事的贸易形式和市场格式,并为各行各业的AI原生利用带来爆发式增加的沃土。未来大模子很大能够不再只基于 API 挪用、按 token 字数推理收取计费。一些厂商正在研发围绕 GPU 供给的云计较办事,希望依照客户的现实利用量来免费。百度团体副总裁侯震宇以为,MaaS 的支出最少会分为两类:一类是面向模子的研发支出,即基于某个通用的基座大模子来做 SFT(监视微调),这部分会慢慢取代裸用算力来停止模子练习的部分收益。在追逐基座大模子的狂热衷,企业偏向于采办算力来停止模子练习,但随着大模子的数目越来越多,更多企业也意想到,重新起头练习一个大模子的做法不成取,基于已有的通用大模子停止二次开辟更现实。这一判定合适当前大模子范畴“反复造轮子”现象众多的应对计划。另一类是 AI 原生利用爆发后的推理支出。除了前期的练习,云厂商更大的盈利空间在于为开辟者供给强大的基座大模子后,面向未来深入营业场景与用户的 AI 利用收推理用度。在这一方针上,稳定的计较办事与推理体验自然成为云厂商一较高低的分水岭。利用开辟范式被倾覆上一个十年,深度进修算法的落地常常要按照单一的特定场景停止模子的练习,从数据标注到算法练习、再到端到端摆设落地,前后常常要耗时几周甚至数月。但随着越来越多泛化才能强的基座大模子的诞生,以及 MaaS 形式的成熟,大模子时代的 AI 模子不再需要重新练习,而是可以基于一个强大的通用大模子停止有监视微调而来。在这类研发方式的改变下,企业的专注力集合在自家场景的数据上,加上通用大模子的泛化上风,行业用户研发大模子利用所需的算力范围与练习时候城市大幅收缩,由此带来更快的迭代速度。在这类形式下,计较资本的操纵率也会大幅提升。具体地,大模子怪异的了解、天生、逻辑与记忆才能还会带来全部技术栈、数据流与营业流的倾覆,催生出新场景(如小我助理、代码天生)、新架构(如检索增强天生 RAG)、新开辟生态。在顺应新 AI 利用开辟范式的预备工作中,一套灵活、创新的云计较系统与云办事设备更能顺应未来大模子商用与落地的走向。大模子诞生于大范围云计较集群,但随着行业需求的变化,云计较也要改变姿势,反主为客,跟上大模子的成长步伐。百度解法:一个重构启迪针对大模子练习难度大、算力要求高的题目,今年以来,国内外的云计较厂商也停止了各自的思考与行动。一个云厂商要若何跟上大模子时代?这个题目不小,解法也有很多,但不管各家的答案若何,回答这个题目都绕不开大模子的本质——大模子的合作不是百米冲刺,而是五千米长跑、甚至半程马拉松。从急事缓办的精神信条来看的话,云厂商的决胜关键也不但在于敏捷的反应,还有周全的结构、谨慎的排雷。以算力中心空转现象为例。一位云计较销售告诉雷峰网,今年上半年有一些运营商和小型智算中心轰抢完一批显卡后,却不晓得怎样用起来。从云厂商的角度看,最理想的方针是算力持久租赁,假如短期租赁竣事后、后续需求不明白,则原本的算力资本便能够被闲置,形成资本的浪费。此外,当前业界的关重视点集合在大模子的开辟与利用上,对于计较中心的邃密化运营关注度很低。在大模子的练习进程中,对计较资本的治理方式也比力集约。假如一个云厂商只是追求热门,不停止持久计划与治理,资本浪费的背后本色是贸易形式的崩塌。克日,百度召开 2023 年百度智算大会。雷峰网领会到,百度在云计较的重构上采纳了降本增效、精准冲击同时又四平八稳的战略。从百度的技术基因来看,百度既有文心大模子,又有国内最早摸索云智一体的理论经历,在智能云的结构上采纳多线作战、稳步进步的线路是在道理当中。这是顺应云计较行业需求的行动,也是百度的长项地点。具体来说,百度智能云的重构表现在三方面:首先,重构智算根本设备方面,百度智能云推出了百舸·AI异构计较平台3.0。百度百舸·AI异构计较平台的研发最早可追溯 2009 年,这一年,百度起头用 GPU 做 AI 加速,百度起头用 GPU 做 AI 加速,不竭扩大集群范围,为百舸平台终极面向市场推出奠基了根本。2021 年百舸·AI异构计较平台 1.0 问世,2022 年升级到 2.0 版本。

与 1.0 和2.0 相比,升级后的 3.0 首要针对大模子的练习和推理场景研发,在高效、稳定以及易运维三方面停止升级,实现了万卡级别使命有用练习时长到达98%以上,带宽有用性可达 95%。百舸异构计较平台在针对开源大模子的练习和推理加速上,别离最高可提升 30% 和 60% 。针对 AI 原生时代智能算力的供给失衡题目,百度智能云公布了智算收集平台。该平台支持将百度及第三方扶植的智算中心、超算中心、边沿节点等智算节点停止全域接入,将分离和异构的算力资本买通毗连起来,构成同一的算力收集资本池,再经过百度自立研发的算力调剂算法,智能分析各类算力资本的状态、性能和操纵率等目标,同一调剂算力,实现智算资本的灵活、稳定、高效的操纵。同时,为了满足 AI 原生场景的要求,百度智能云延续更新增强百度太行·计较的产物才能、公布新一代云办事器,高性能计较平台、新一代网关平台等,并经过散布式云供给无处不在的智能算力。数据根本设备方面,百度沧海·存储升级公布了同一技术底座,可以支持更大范围,更高性能的计较场景。同时公布云原生数据库 GaiaDB 4.0、数据库智能驾驶舱、升级大数据治理平台 Serverless 才能等。为了增强智能根本设备的办事才能,今年早期百度智能云已经展开了多项工作,比如 3 月份将阳泉数据中心升级为了智算中心, 8 月启动国内首个大模子数据标注中心,同时又结合多地政府共建了智算中心、AI 数据标注基地等。其次,周全升级MaaS办事平台,在 MaaS 形式的变化下,百度智能云为了让企业能更公道挑选与有用操纵大模子,为开辟上层 AI 利用缔造高效易用的模子才能调剂情况,百度智能云对千帆大模子平台停止了升级。智算大会现场,百度公布了千帆的最新“成就单”。 自8月31日文心大模子向全社会周全开放以来,在千帆大模子平台上,大模子API日挪用量增加10倍。今朝千帆平台已经累计办事跨越4万家企业用户,累计帮助企业用户精调近1万个大模子。与千帆平台 2.0 相比,升级后的千帆平台将模子数目增加至 54 个,数目位居全国榜首,并针对性停止模子才能增强;新增了数据统计分析、数据质量检查等功用,连系数据清洗可视化Pipeline,可以构建出头向大模子场景的高质量数据燃料;推出自动化+野生的两重模子评价机制,大幅提升模子评价效力与质量。

此外,为了帮助客户更快的定制专属大模子,千帆平台快速迭代模子开辟的全流程工具链。经测试发现,较自建系吐浞习大模子来说,利用千帆平台练习的本钱最高可以下降 90%。第三,周全开放AI原生利用工作台在2023百度云智大会·智算大会上,百度团体副总裁侯震宇指出,AI原生时代的典型系统架构,最少包括模子、数据与利用三部分。是以,在对智算根本设备和MaaS办事平台的重构以后,周全开放AI原生利用工作台千帆AppBuilder则成为了百度打造AI原生利用生态的重要闭环。

千帆AppBuilder将基于大模子开辟AI原生利用的常见形式、工具、流程,沉淀成一个工作台,帮助开辟者聚焦在本身营业,而无需为开辟进程牵扯过剩精神。针对分歧条理开辟者的需求,Appbuilder供给了面向需要深度AI原生利用开辟才能用户的“代码态”和合适于快速定制和上线智能产物的“低码态”两种产物形状,让企业和开辟者可以灵敏、高效地停止AI原生利用开辟。大模子时代,一个云厂商能否应当自研大模子?在曩昔一年中,大模子厂商与云厂商之间的关系博弈也饶有兴趣。但在贸易天下中,淘金者与卖铲子的人常常并不冲突,愈甚者,只要淘过金的人材晓得什么样的铲子是最好的。百度的经历就是:云计较为大模子兜底,大模子也扶持了云计较。由于百度在模子、计较、利用层均有结构,所以在百度的技术中台上,大模子能实现从底层算力到上层利用的端到端买通,从而实现更好的迭代。在技术加持下,6 月6 日百度公布ERNIE-Bot-Turbo版时,推理性能已提升 50 倍;7 月 7 日文心大模子 3.5 公布,结果提升 50%、练习速度提升 2 倍、推理速度提升了 30 倍;8 月 2 日百度千帆大模子平台升级,模子的推理本钱再下降 50%。侯震宇供给的一组数据是:从3月份公布文心一言以来,推理本钱已经降到了本来的1%。假如说大模子是翻开 AI 时代的钥匙,那末这个钥匙的背后一定离不开三层加持:模子、算力与利用。不管是成长大模子、还是成长云计较,百度的重构都将三者合为一谈、而不是拆开来零丁会商,这也使得百度的大模子结构气力平衡,整体能齐头并进。结语大模子行业刚起步,究竟上,不管是大模子独角兽,还是兼具云与模子的互联网大厂,都仍在不竭摸索,摸着石头过河中。大模子时代的云计较重构不止有一种解法,而百度率先向行业交出了一份答卷。作为一家在野生智能范畴深耕10余年的AI公司,Cloud for AI(云为 AI 而生)是百度的宿命,也是百度的上风。除了周全结构、稳重进步的节奏,也许持久主义的精神更符合大模子时代的要求。快跑者能赢得百米冲刺,但马拉松需要耐心与韧力。云计较冲向 2024,谁领风骚,还看今朝。