AI原生时代的算力架构重构:商汤大装置三层架构设计与弹性扩缩容实践

2026中关村论坛期间,一场关于AI推理基础设施的研讨会引发行业关注。趋境科技与九源智能计算系统生态联合体联合主办的分论坛中,商汤大装置首席架构师项铁尧发表了《AI原生云基础设施探索与实践》主题演讲,系统阐述了AI原生时代算力集群建设的前沿判断。 AI原生时代的算力架构重构:商汤大装置三层架构设计与弹性扩缩容实践 IT技术

从云原生到AI原生:Kubernetes的范式跃迁

项铁尧从底层技术视角指出,Kubernetes正从容器编排工具向AI时代操作系统演进。动态资源分配、WorkloadAPI与GatewayAPI三项核心特性的引入,标志着整个行业加速从云原生集群时代向AI原生时代跃迁。这一转变的核心在于:当算力集群进入AI原生时代,新的架构范式必须具备统一规范、极致弹性的扩缩容机制,以及为大模型训练和推理深度优化的AI集群runtime。 AI原生时代的算力架构重构:商汤大装置三层架构设计与弹性扩缩容实践 IT技术

AI算力池:水平分层架构设计

商汤大装置打造的AI算力池采用三明治水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及AgenticEngine的完整PaaS产品体系,全面杜绝不同产品间的资源孤岛问题。

该架构具备三大核心优势:面向角色设计,针对集群管理员与平台工程师提供高弹性虚拟集群资源,针对AI研究员提供丰富脚本工具与高效研发环境;水平分层结构确保产品间信息与资源高效流转;资源自由流转机制使用户只需购买一种通用算力形态,即可在虚拟机、虚拟集群、AICodeSpace开发机等不同产品形态之间秒级自由切换,充分应对算力潮汐效应,显著提升集群整体资源利用率。

虚拟集群:全量托管的秒级弹性扩缩容

在底层Infra层,商汤大装置创新应用虚拟集群技术。区别于主流云厂商仅托管控制面、数据面仍需用户自行管理的传统模式,全新虚拟集群技术实现控制面与数据面的全量托管,扩缩容效率从传统方案的数分钟乃至数十分钟压缩至秒级,同时提供完全标准的K8sAPI,用户无需对现有代码做任何修改即可无缝接入。

三大自研套件:超大规模AI训练与推理的技术支撑

为满足超大规模AI生产场景的极致性能需求,商汤大装置自研三大套件:SenseCoreScheduler作为高性能调度器,支持复杂异构硬件的在离线混合调度;容错引擎解决超大规模训练中的不稳定性,实现故障自动检测与隔离;AgenticEngine针对Agent使用需求进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等功能。

虚拟节点:弹性算力的最后一环

商汤大装置自研的虚拟节点技术具备三大优势:与虚拟集群体系无缝集成、提供比虚拟机更轻量级的使用体验与更高效的性能、提供比runc更好的安全性和隔离度。

生态协同:推动国产推理基础设施迭代

在生态合作层面,商汤大装置已与趋境科技展开深度合作,为趋境科技自研的ATaaS高效能AIToken生产服务平台提供高性能、高可靠的算力支撑。该平台可支撑万级别AI推理需求,达到日均万亿级别Token整体产能。商汤大装置作为九源智能计算系统生态联合体理事单位,积极参与以产学研用服协同合作为核心模式的开放生态,聚焦国产智能计算系统建设与软件生态统一,推动AI能力真正走向普惠。