
北京大学联合华为发布全栈开源DeepSeek推理方案
2025年3月9日,北京大学联合华为发布DeepSeek全栈开源推理方案。该方案基于北京大学自主研发的SCOW算力平台系统与鹤思调度系统,整合了DeepSeek、openEuler、MindSpore与vLLM/RAY等社区开源组件,全面拥抱开源生态,实现了华为昇腾上的DeepSeek高效推理,并支持大规模算力集群的“训练-推理一体化”部署。方案源码已向所有开发者开放,支持灵活二次开发,其性能表现接近闭源解决方案。
全栈开源方案 |
其他闭源方案 |
|
模型 |
DeepSeek-R1-w8a8 |
|
硬件配置 |
2*Atlas 800I A2 |
|
输入长度 |
4096 |
|
输出长度 |
1024 |
|
系统输出吞吐 |
1198 |
1288 |
用户并发 |
128 |
128 |
目前,此方案已成功部署于北京大学未名卓越一号集群。该集群由北大计算中心负责研制与运维管理,为北大鲲鹏昇腾科教创新卓越中心提供算力支持。作为国内首个基于高校自研基础软件的国产智算平台,集群于2024年11月18日上线运行,首期集成20台昇腾AI服务器与10台鲲鹏通用服务器,AI算力规模达30.64PFlops(半精度)。其全国产自主技术栈覆盖从芯片指令集到调度系统的完整生态,关键软件如调度系统、门户等采用北大自研的鹤思与SCOW系统,扩展和适配性强,可广泛支持包括鲲鹏昇腾在内的国内外主流处理器,并支持vLLM、MindSpore、DeepSeek等开源框架和模型。
开源生态驱动性能突破,技术自主性再升级
此次发布的DeepSeek推理方案依托全栈开源组件构建,通过开放协作打破技术壁垒,聚合全球开发者智慧,持续推动技术创新。开源生态不仅能加速技术普及,更促进跨领域、跨行业的合作,形成良性发展循环。随着全球对技术透明性和可定制化需求的日益增长,开源模式将作为未来技术发展的主流趋势成为产学研各界共同拥抱的方向。
算力集群全栈开源推理方案架构图
本方案在openEuler开源操作系统层面进行了深度优化:通过异构调度负载感知MoE冷热专家,显著提升任务调度的细粒度控制能力;采用异构融合技术实现内存的高效管理,有效减小系统内存碎片;利用毕昇编译器进一步优化,大幅缩短算子下发耗时,全面提升推理性能。
在MindSpore高性能推理框架中,本方案实现了显著的性能增益:将模型编译为计算图,通过模式匹配自动进行算子融合;模型压缩工具“金箍棒”可快速实现模型量化算法及量化推理全流程,并根据用户需求及硬件特性进行定制量化。
针对大规模算力集群场景,本方案深度融合北大自主研发的SCOW算力平台系统与鹤思算力调度系统,进一步提升硬件资源利用率,实现了高效管理大规模的异构算力集群,并通过软硬件解耦的分层体系架构,屏蔽底层硬件差异,向下兼容多种硬件设备,向上适配多种框架模型应用。该方案支持openEuler操作系统,以及包括MindSpore在内的各种主流框架,通过高效的算力调度技术实现训推一体,实现了算力资源的充分利用。
北京大学未名卓越一号国产集群
目前,算力集群的北大方案已经应用于全国60余家单位,并在北京大学-华为卓越中心框架合作背景下服务未名卓越一号国产集群,为科教创新提供强劲算力引擎。
一键部署:高效推理触手可及
2025年3月7日,在北京大学鲲鹏昇腾科教创新卓越中心,北大师生和openEuler、MindSpore社区开发者首次联合完成openEuler+MindSpore+DeepSeek全栈开源推理方案的生产环境部署实践。未来,该方案将进一步支撑北大的教学科研工作,并逐步在openEuler和MindSpore社区发布DeepSeek开源部署方案的具体细节。
北京大学与华为进行生产环境部署实践。参与部署的成员包括:北京大学计算中心工程师龙汀汀(右三)、付振新(右二),北京大学本科生孙远航(右一),华为公司栾建海(左四)、邓叶鹏(左三)、李强(左二)、李佳明(左一)
信息来源:北大新闻网