AI大模型需求高企助推“东数西算”加速发展_数字经济

首页 > 正文

AI大模型需求高企助推“东数西算”加速发展

以ChatGPT为代表的AI大模型应用的训练、优化和推理应用涉及数据处理、模型设计、调参、评估等多个环节，其中参数约为1750亿个，我国目前的AI大模型应用的参数基本与其保持同数量级，也有部分模型超过万亿参数，对应的算力需求远超以往任何应用。面对如此惊人的需求，我国算力体系能否满足？

发布时间：2023-05-22 13:59 来源：数字经济杂志作者：高丹

近日，由美国人工智能公司OpenAI发布的AI大模型应用ChatGPT引领强劲风潮。除了交互外，ChatGPT还具备理解用户输入的要求来撰写邮件、视频脚本、文案、翻译、绘图等功能，且多数任务完成的速度和质量接近专业人士，有望极大提升某些行业效率，需求巨大。为抢占巨大市场份额，我国科技巨头也纷纷发布或研究对标ChatGPT的AI大模型应用。

以ChatGPT为代表的AI大模型应用的训练、优化和推理应用涉及数据处理、模型设计、调参、评估等多个环节，其中参数约为1750亿个，我国目前的AI大模型应用的参数基本与其保持同数量级，也有部分模型超过万亿参数，对应的算力需求远超以往任何应用。面对如此惊人的需求，我国算力体系能否满足？“东数西算”作为优化提升我国算力体系的重要工程，全面启动已逾一年，未来能否满足AI大模型应用的算力需求？AI大模型又对“东数西算”工程提出了哪些新要求？

AI大模型应用对智算算力的需求巨大

ChatGPT年算力需求总量约为80EFLOPS，对GPU依赖极大。ChatGPT算力由训练、优化和推理应用需求构成。ChatGPT官方数据显示，训练阶段ChatGPT总算力消耗约3.6EFLOPS，考虑优化和推理应用可视为实践阶段的训练，且按用户访问数量按月呈线性增长，因此所需算力之和平均单月达6.3EFLOPS，目前ChatGPT全年需近80EFLOPS的算力供给。

与此同时，由于当前GPU最擅长大规模向量、张量计算，对于模型训练、推理场景的处理能力更强，而以CPU为代表的通用算力进行模型训练不仅速度慢，同时占用过多内存等资源（以处理样本量为10000的矩阵计算为例，GPU要比CPU快近50倍，且随着样本量增加，差距还将以近似指数增长的速度快速拉大）。因此ChatGPT的需求基本为GPU提供的智算算力。

我国已发布AI大模型应用的算力需求约为120EFLOPS，也均需要GPU提供智算算力。我国AI大模型应用呈“百花齐放”态势，截至2023年4月，已有6款产品发布，到6月预计将有近50款产品发布。考虑我国已发布的AI大模型应用尚未完全产品化，因此参考ChatGPT参数数量对应的算力需求，测算已发布产品的训练阶段所需算力，将超过50EFLOPS；参照ChatGPT在优化和推理应用阶段平均每月所需算力，测算已发布产品所需算力，将超过70EFLOPS。此外，当前我国AI大模型应用的训练均采用GPU芯片提供的智算算力。

AI大模型应用持续迭代带来的算力利用效率大幅提升，一定程度上控制了算力需求。由于缺少应用实践的经验，AI大模型应用的落地（训练）对算力的需求巨大，但在产品化普及（优化和推理应用）的过程中，随着面向应用需求的模型持续迭代，算力利用效率有望大幅提升。如2023年3月，百度的产品文心一言开启内测一个月以来，已完成4次模型的升级，算力利用率提升了1倍。因此，尽管初始阶段算力需求巨大，但随着用户与厂商的良性互动带来的模型迭代，后续训练、优化和推理应用所需的算力将维持在一个相对稳定的水平，不会保持线性增长。

我国智算算力尚不能完全满足AI大模型需求

以ChatGPT为代表的AI大模型应用加速推广普及，标志着大模型时代的到来，一方面使得智算算力规模的需求快速提升，另一方面也对不同地区算力协同提出了新要求。2020年以来，我国加快构建全国一体化大数据中心协同创新体系，打造数据中心、云计算、大数据一体化的新型算力网络体系。在此过程中，各算力枢纽的作用突出。2022年2月，“八大枢纽、十大节点”的“东数西算”工程全面启动，截至目前已逾一年，虽然有效提升了我国算力整体规模和智算算力比重，但仍难以满足AI大模型的需求。

我国算力总规模持续提升。“东数西算”工程的实施加速我国东西部数字经济协同发展，有助于实现算力和应用的合理配搭和梯次布局，从而进一步丰富算力应用、提升算力总规模。2022年，全国八大算力枢纽新建数据中心规模超110万标准机架，其中西部地区新建规模超过60万标准机架，对东部地区算力需求的支撑作用越发明显。东西部地区算力协同发展态势持续向好，预计2023年我国算力总规模有望突破200EFLOPS，增速显著，为智算算力提升提供了必要前提。

当前，我国智算算力水平满足AI大模型应用的压力仍较大。从算力结构来看，我国通用算力占比近80%，智算算力等其他算力占比偏低，而ChatGPT类AI大模型应用的算力需求均为智算算力，因此为适配应用需求，我国算力结构有待优化，有待按需提升智算算力比重。“东数西算”工程将自动驾驶、AI推理训练、工业互联网等低延时业务产生的“热数据”集中在东部地区就近利用，而后台加工、离线分析、存储备份等时效性需求不高的“冷数据”传输至西部进行处理，为地区算力供给向需求侧的优化，特别是提供智算算力的GPU服务器占比提高创造必要的条件。

到2023年，我国算力总规模预计达到200EFLOPS，其中智算算力将近40EFLOPS。但我国已发布AI大模型应用对智算算力需求约为120EFLOPS，且模型迭代带来的算力利用效率的提升很有限。因此，从短期来看，当前我国智算算力供给水平不能完全满足AI大模型应用的需求。

‖图1：2019-2025年中国算力总规模（换算为FP32）及预测

来源:赛迪顾问

“东数西算”三大重要举措有望有效提升我国智算算力水平

尽管当前我国智算算力存在“供不应求”的情况，但未来情况较为乐观。“东数西算”工程全面启动一年多来，各算力枢纽节点集聚效应初显，新型算力网络体系建设初见成效。未来，提高数据中心上架率、强化算力设施协同、提速算力绿色转型将成为重要举措，带动大量潜在算力的开发利用，智算算力供给能力将进一步提升，以支撑AI大模型应用等算力关键应用落地。

提升数据中心上架率有利于提升智算算力供给水平。“东数西算”工程启动后，各枢纽节点的数据中心建设目标数量较大，有算力供过于求的风险。如西北和西南地区2022年数据中心上架率均在30%-40%，现阶段存在空置现象。随着国家各算力枢纽节点、数据中心集群等持续强化政策引导和要素保障，特别是西部地区发力数据采集、清洗、挖掘等服务环节，有望提高数据中心上架率，形成健康的算力供需关系，从而持续提高智算算力整体水平。

强化算力设施协同有利于提升对智算算力应用需求的适配水平。“东数西算”工程使得各枢纽节点加大了投资建设算力基础设施的力度，但目前各枢纽节点之间缺少任务协同和资源共享机制，算力基础设施存在“忙闲不均”现象，算力有较大合理调度和均衡的空间。未来，我国算力调度机制持续优化，东西部地区算力基础设施的异构化体系结构打通、软硬件的兼容性提升、数据资源接口统一等得以实现，从而形成统一的算力资源池，对于AI大模型应用等大规模智算算力需求的适配水平将极大提升。

提速算力绿色转型有利于可持续的智算算力应用落地普及。“东数西算”工程推进过程中，算力的绿色转型地位重要。按2023年1月ChatGPT的训练及运营情况，消耗算力对应的耗电量超过了20亿千瓦时，而随着模型迭代、参数量扩大、日活人数增加，AI大模型应用带来的耗电量将呈指数级增长，因此算力的节能降碳势在必行。随着液冷等技术降低IT设备能耗、使用新能源绿电奖补等配套政策出台、配置一定比例的储能系统分布式可再生能源发电设施投入使用，我国算力绿色转型步伐加快，助力低能耗、低碳排放的可持续的智算算力应用落地和普及。

与此同时，我国尚有大量潜在算力有待开发利用。当前，AI大模型应用所需的智算算力只有数据中心可以提供。从目前我国算力供给能力来看，支撑几十种AI大模型技术产品存在较大压力，但考虑到当前数据中心上架率有较大提升空间，算力供给能力有望进一步提升。如到2025年，“东数西算”各起步区数据中心的平均上架率不低于65%，意味着西部地区平均上架率近30%的提升后，仍有较大的潜在算力空间，东部地区平均上架率将达到更高水平，同时智算算力有望快速借此机会加快部署，响应AI大模型应用的需求。

基于上述分析：算力供给方面，未来三年，在当前上架率水平下，预计我国智算算力比重将接近30%，假定东西部地区上架率均有提升，新增部分潜在智算算力；算力需求方面，按当前水平，我国AI大模型应用的智算算力利用率按每年提升25%计算。预测智算算力供给及需求情况如下图。

‖图2：2023-2025年中国智算算力供给及生成式AI应用需求预测

来源:赛迪顾问

由图2可知，在上述假定成立的前提下，尽管2023年我国智算算力供给不能满足AI大模型应用的需求，但自2024年起，智算算力可以较好地满足其需求。AI大模型应用爆发的机会点分析AI大模型应用的落地和普及将助力我国算力体系，特别是智算算力发展。在此背景下，有效降低训练成本的人工智能软件、高效算力应用的GPU专业训练卡和液冷技术将迎来发展机会，建议重点关注。

人工智能软件。AI大模型应用训练、优化和推理应用的算力需求巨大，而人工智能软件可有效提升算力利用效率，如当前TensorFlow和PyTorch等软件框架可实现在分布式系统上以高性能训练上百亿参数的模型。除了上述开源软件外，定制化人工智能软件将迎来发展风口。

专业训练卡。目前AI大模型应用依赖GPU训练卡，效率和成本都有较大提升空间。未来，专攻垂直场景应用需求、提升其算力利用效率，且成本可控的国产GPU训练卡具有较好发展前景。液冷技术。随着“东数西算”工程推进，我国新型算力网络体系加快形成，加上AI大模型应用需要的智算算力快速发展，数据中心部署密度将大幅上升。为响应低碳绿色要求，液冷将成为部署高密数据中心的关键技术。（文︱高丹赛迪顾问业务总监袁钰赛迪顾问电子信息产业研究中心）