扫码分享到微信
【雷竞技app下载安卓 讯】在数字经济蓬勃发展的当下,算力已然成为驱动经济增长与产业升级的核心引擎。智能技术正以前所未有的速度和深度,重构千行百业的发展逻辑,“云存智算”也由此从简单的技术叠加,跃升为推动产业变革的智能基座。从AI大模型的高效训练与精准推理,到工业互联网的实时智能决策;从教育医疗领域的全面智能升级,到传统行业的创新业态重塑,算力与智能的深度融合,正重新定义着生产力与生产关系的内涵。在此背景下,如何通过技术创新破解产业痛点、充分释放数据价值,进而推动产业智能化转型,成为业界共同聚焦的核心议题。

近期,在2025中国算力大会“云存智算创新实践分论坛”上,浪潮数据云计算产品部副总经理张明灿发表了《可演进的私有云:浪潮云海 InCloud AIOS 发布》的精彩演讲,揭秘了浪潮云海在智能云领域的最新成果。会后,雷竞技app下载安卓 有幸对张明灿进行了专访,深入探讨了InCloud AIOS的产品价值、市场趋势以及未来发展方向。
AI私有化部署:从概念验证到多元需求
DeepSeek的火爆让各行各业深刻认识到,AI私有化部署并非如先前所想,需要巨额投资和超大集群规模。张明灿接受雷竞技app下载安卓 采访时表示,AI私有化部署正逐渐成为各行业的普遍趋势。面对用户建设需求主要围绕快速交付DeepSeek展开,旨在通过构建1 - 2台AI节点,快速部署AI大模型,搭建简单问答助手等应用,体验AI带来的便利,这一阶段被称为单一模型的概念验证阶段。
随着AI技术的日益成熟,企业在AI领域的探索不断深入,发展目标也愈发明确。张明灿透露,金融、医疗、政府、企业等众多用户纷纷开启AI建设征程,力求实现智能财务应用、智能客服应用、智能制造应用等智能化转型。这些应用丰富多样,对大模型的参数、精度、数量以及GPU的算力和类型都提出了不同要求。用户需求逐渐转向多芯多模的统一化建设,以及AI基础设施的安全稳定与极简运维。
AI建设方式:自行建设与云化建设的痛点与抉择
目前,AI建设方式主要分为用户自行单独建设AI基础设施和通过云化建设将AI基础设施与云建设相结合两大类。在自行建设过程中,诸多痛点逐渐浮现。张明灿介绍:
一方面,许多用户侧的AI基础设施建设并非由信息中心和运维中心主导,而是由研发测试、营销、生产等各个业务部门各自为政。例如,各部门纷纷购买自己的DeepSeek一体机,导致AI资源分散,形成“烟囱化”局面。
另一方面,不同AI平台厂商带来的各自平台和开发平台,也使得资源进一步分散。这使得运维中心和信息中心在统一运维、管理和分配AI资源时面临重重困难。
用户逐渐意识到,在建设AI基础设施时,能否像建设云一样实现统一管理、统一呈现和统一分配资源,做到业务整合、数据集中和资源池化,成为亟待解决的关键问题。因此,从资源布局角度来看,AI基础设施正从烟囱化模式向云化模式转变。
云:承载AI的最佳载体
张明灿认为,云是承载AI的最佳设施,这主要基于以下几点核心原因:
其一,智能应用大多由传统业务改造而来,旨在赋能传统应用。而传统应用通常运行在云上,未来智能应用与传统应用必将长期共存。因此,实现传统应用和AI应用的统一管理,将成为私有云或AI云的一大显著亮点。
其二,AI所需的资源,包括虚拟机、容器、数据库、PaaS服务、分布式存储以及安全合规服务等,私有云能够更便利地使用这些资源,并且提供灵活的资源扩展性和可靠性。
其三,面对AI所需的多芯多模趋势,私有云能够更好地进行广泛兼容、适配和算力协同。私有云可以适配不同类型的芯片、大模型和推理框架,充分满足多芯多模的AI发展需求。
其四,AI基础设施由正由传统烟囱模式向统一的云化模式转变,AI和云的统一建设能够显著降低运维人员的压力,进而减少用户在AI平台上的人力、物力和财力投资成本。
基于以上观点,浪潮云海构建了智能云的大致框架,凭借强大的算力调度能力、灵活的资源扩展特性以及高效的协同管理优势,成为承载AI的最佳载体。在私有云时期,浪潮云海一直秉持开放兼容、分层解耦的设计理念,在AI云时代依然坚持这一理念。在算力层,构建统一算力平台,能够统一管理通算、智算、超算等不同类型的算力资源。
用户可以根据自身不同需求,灵活匹配技术路线,选择适合的芯片、架构和路线。在服务层,浪潮云海提供IaaS服务、PaaS服务以及AI服务,支撑智能体和传统应用并存。尤其是AI服务方面,浪潮云海专注于AI基础设施服务,面向大模型和智能体进行统一的资源管理、运维和运营,为上层的智能体开发平台提供稳定高效的大模型资源。同时,通过智能体的统一感知,对智能体进行统一的生命周期管理和灵活调度。在应用层,浪潮云海保持开放生态,进行各行各业的应用调优和适配,实现广泛兼容。
平滑演进,满足不同阶段需求
浪潮云海拥有约15000家私有云老用户,分布于各行各业,这些用户均存在AI建设需求。针对处于单一模型概念验证期或探索期的用户,浪潮云海提供了平滑演进方案,使其能够快速从私有云演进到AI云。
张明灿强调,部分用户希望以最高性价比的方式快速扩容一个节点,构建AI基础设施。通常情况下,在一台AI管理节点上跑32B等小参数模型并无问题。而对于希望在一个节点上部署满血大模型的用户,浪潮云海也进行了大量深度优化。借助模型本身的量化技术以及平台的CPU与GPC协同推理技术,将部分任务卸载到CPU,把部分模型的权重文件加载到内存,并通过推理引擎的深度优化,成功在一个AI节点上运行满血大模型。同时,对于开源解决方案,实现了两倍首token延迟的降低和大约10倍吞吐量的提升,帮助用户快速构建AI私有云。
对于已有明确AI建设目标和应用建设目标的用户,其应用丰富多样,需要提供多芯多模的能力,迅速统一异构资源。张明灿介绍,浪潮云海提供了两类灵活扩展的资源方式:
在大模型方面,支持对市面上主流大模型如DeepSeek等进行广泛兼容,用户还可以注册定制自己的模型,经过训练、调整优化后,在模型商店发布使用,甚至外接互联网大模型,实现大模型层面的灵活扩展;
在GPU算力方面,InCloud AIOS平台与国内外领先的主流GPU厂商进行了深度适配,真正做到多芯多模的统一管理。此外,平台在推理框架层面进行了大量优化,推理框架自动选择引擎,自动为用户匹配最优的推理框架。尤其在应用发布和模型注册发布时,自动匹配模型与推理框架之间的关系,让运维人员和IT人员不再为大模型发布和匹配而烦恼,助力用户从私有云拓展到多芯多模的AI云。
优化运维,实现统一高效管理
在AI基础设施平台建设中,张明灿认为,运维特性的优化对于用户至关重要。由于许多AI基础设施由业务部门主导,资源分散,浪潮通过平台运维层面的优化,帮助运维人员实现统一管理,加速AI基础设施的统一规划和资源分配调度。
首先,面向AI基础设施的三大关键资源进行统一运维。在GPU统一运维方面,能够实现GPU集群的统一运维,实时查看整个GPU集群的使用率和利用率,还可对单个GPU进行细粒度监控,了解其承载的模型类型和数量。同时,支持按照多机多卡、单机多卡、单卡VGPU等多种方式切分GPU资源,进行细粒度分配管理。在大模型统一运维方面,提供模型商店,实现大模型的注册、发布、预热、监控等全生命周期管理支持大模型的质量评价、多版本管理,通过弹性伸缩、HA等机制保障模型服务连续性。。在智能体统一运维方面,InCloud AIOS以智能体为单位对资源进行打包,实现对智能体的统一管理,包括开机、关机、迁移等操作,真正做到像运维虚拟机一样运维智能体。通过以上运维优化,用户基本可以实现自主运维AI基础设施。
打造统一门户,强化稳定性与安全合规
浪潮云海打造了统一的门户,针对关键AI资源设计了全新的AI大屏。张明灿介绍,在一个界面上,用户可以观测整个AI基础设施平台GPU和大模型的运行情况,除了资源利用率和使用情况等常规监控外,还可以按照租户和组织进行监控,了解其使用的AI资源数量和利用率,为资源分配和调度提供更好的决策支撑,确保算力得到充分利用。
AI基础设施的稳定性是运维人员和信息中心关注的核心问题。在业务访问量激增、算力资源不足、模型卡顿或算力迭代更新等场景下,平台通过多种优化措施确保稳定运行。张明灿举例,在业务高峰期,当单一模型资源无法支撑业务流量时,可自动弹性伸缩扩展模型副本,以多个副本承载高峰流量;在算力迁移场景中,面对国产化要求,为用户提供等价算力调度,通过计算不同芯片在某个大模型下的基础性能基准分,为迁移动作提供决策支撑;针对GPU集群,进行DRS调度,动态调配GPU资源,将资源利用率较高芯片上的大模型自动迁移到利用率较低的GPU,保证整个GPU资源池的性能和利用率均衡。
同时,安全合规也是企业、政府和金融用户关注的重点。浪潮云海在InCloud AIOS中内置了增强型的AI安全网关,针对大模型的输入和输出进行实时记录,像I/O一样将请求记录到日志中,用户可以按照时间维度和租户维度查阅调取这些记录,有效解决安全合规问题。
浪潮云海InCloud AIOS的发布,为私有云AI领域带来了创新性的解决方案。通过满足不同阶段用户需求、优化运维特性、打造统一门户以及强化稳定性与安全合规等方面的努力,为用户在AI基础设施建设中提供了全方位的支持,助力产业智能化转型迈向新的高度。(文/徐培炎)
京ICP证000080(一)-16
京公网安备11010802009845号