华为云Tokens服务全面接入384超节点 以“大杂烩”优势打造先进算力

2025年8月27日,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。

发挥“大杂烩”优势,以系统能力打造先进算力

过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。

华为云Tokens服务全面接入384超节点 以“大杂烩”优势打造先进算力

大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。

首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

“拆掉”Transformer,xDeepServe全面激发算力潜能

作为CloudMatrix384 超节点的原生服务,xDeepServe以Transformerless 的极致分离架构,把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块,相当于在一台CloudMatrix384上把“大模型”拆成“积木”,并分派到不同的NPU上同步处理任务。之后,再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台,即Tokens的“超高速流水线”。通过xDeepServe不断调优,最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层,CANN包含多个算子库和和XCCL这种高性能通信库等组件,共同支撑AI模型的高效运行。其中,XCCL作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力,为 Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎,FlowServe把CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。

目前,xDeepServe已实现MA分离,而下一步,将把Attention、MoE、Decode全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。

聚焦主流大模型,不断提升模型性能

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说,在轻微损失画质的情况下,通过Int8量化、旋转位置编码融合算子等方式,在在华为云MaaS平台实现了2倍于业界主流平台的出图速度,最大尺寸支持2K×2K。而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建AI Agent。

而在应用层,华为云已与超过100家伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱AI创新,加速智能化。

如基于MaaS平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。

以Token为动力的智能社会已经到来,而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力,助力各行各业加速落地AI。

本文来自投稿,不代表创造权威IP 赋能创业者——IP百创立场,如若转载,请注明出处:创造权威IP 赋能创业者——IP百创

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年8月27日
下一篇 2025年8月27日

相关推荐

  • 曾轶可方被巡演主办方索赔

    #曾轶可方被巡演主办方索赔231万##曾轶可演唱会 迟到打碟一小时# 据悉,11月17日,有网友自称是曾轶可前工作人员,其发文控诉曾轶可职场霸凌并要求道歉。随后,曾轶可现任助理在朋友圈公开质问前工作人员。 天眼查天眼风险信息显示,今年6月,杭州市临平区人民法院向胥文雅、北京作乐文化发展有限公司公告送达原告杭州追乐部落文化发展有限公司与其演出合同纠纷一案起诉状…

    2025年11月18日
  • 公牛集团5000万在上海成立智能科技公司含多项AI业务

    天眼查工商信息显示,近日,上海公牛智能科技有限公司成立,法定代表人为刘圣松,注册资本5000万人民币,经营范围包括人工智能行业应用系统集成服务、人工智能公共服务平台技术咨询服务、人工智能应用软件开发等。股东信息显示,该公司由公牛集团全资持股。 天眼查信息:https://www.tianyancha.com/company/7866916492

    2025年11月28日
  • 谁在造就内娱四大普女?

    作者|耳东陈 监制|吴怼怼 「白鹿被叫普女冤不冤?」 《长月烬明》成为优酷站内热度最快破万的剧后,关于女性角色的颜值争议持续上演。 按说有女明星的地方就有艳压,这本不是什么值得说道的事情,但自2022夏天,《星汉灿烂》《苍兰诀》爆,奠定了内娱甜妹格局的赵露思、虞书欣被说普,继而引发豆瓣网友激情开贴票选「内娱四大普女」时起,每个有讨论度的新生代小花,都会被评价…

    2023年4月20日
  • 华为阅读,在追求效率的时代,以快打快

    6月21日,华为开发者大会2024(HDC 2024)在东莞召开,松山湖又热闹了起来,全国各地的开发者和华为的合作伙伴齐聚此间,走进精彩的数字生活,一同领阅科技新浪潮带来的美好未来。 重头戏当然是HarmonyOS NEXT,这是HarmonyOS抛弃Linux内核及安卓开放源代码项目(AOSP)等代码的首个大版本,也是HarmonyOS的全新未来,将给所有…

    2024年6月23日
  • Sportwetten Deutschland: Quoten verstehen und gesetzliche Vorgaben berücksichtigen

    Die Welt der Sportwetten Deutschland hat sich in den vergangenen Jahren tiefgreifend transformiert und bietet Wettbegeisterten heute eine Vielzahl von Möglichkeiten, auf athletisch…

    2026年1月7日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

邮件:939297903@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信