华为云Tokens服务全面接入384超节点 以“大杂烩”优势打造先进算力

2025年8月27日,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。

发挥“大杂烩”优势,以系统能力打造先进算力

过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初中国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上,今年3月,华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

而这一次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现了吞吐量的突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms。

华为云Tokens服务全面接入384超节点 以“大杂烩”优势打造先进算力

大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。

首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内存存储打破AI内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

“拆掉”Transformer,xDeepServe全面激发算力潜能

作为CloudMatrix384 超节点的原生服务,xDeepServe以Transformerless 的极致分离架构,把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块,相当于在一台CloudMatrix384上把“大模型”拆成“积木”,并分派到不同的NPU上同步处理任务。之后,再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台,即Tokens的“超高速流水线”。通过xDeepServe不断调优,最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层,CANN包含多个算子库和和XCCL这种高性能通信库等组件,共同支撑AI模型的高效运行。其中,XCCL作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥CloudMatrix384扩展后的UB互联架构(UB fabric)的全部潜力,为 Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎,FlowServe把CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。

目前,xDeepServe已实现MA分离,而下一步,将把Attention、MoE、Decode全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。

聚焦主流大模型,不断提升模型性能

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说,在轻微损失画质的情况下,通过Int8量化、旋转位置编码融合算子等方式,在在华为云MaaS平台实现了2倍于业界主流平台的出图速度,最大尺寸支持2K×2K。而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建AI Agent。

而在应用层,华为云已与超过100家伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱AI创新,加速智能化。

如基于MaaS平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。

以Token为动力的智能社会已经到来,而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力,助力各行各业加速落地AI。

本文来自投稿,不代表创造权威IP 赋能创业者——IP百创立场,如若转载,请注明出处:创造权威IP 赋能创业者——IP百创

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年8月27日
下一篇 2025年8月27日

相关推荐

  • 拆解信息茧房,科学测量助力品牌实现品效双赢

    站在2023年的中点往回看,技术正在加速进化,大模型、AI等日更式发展带来了信息的新一轮爆炸,从市场的角度看这本应是一件好事,毕竟技术可以给商业带来多种利好,推动商业发展,但现实情况却在朝着相反方向发展,Al+大数据意外形成了一个个“信息茧房”。 信息大爆炸本应该帮助品牌看清市场,但随着商业环境日趋多元化一切却又陷入了迷雾之中,看不清人群、打不通平台、内容无…

    2023年7月21日
  • 追觅行业首创灵境交互系统:让洗地机像家人一样懂你

    在很多人眼中,洗地机只是家里一个基础的清洁工具,只要能把地面弄干净就算合格。但其实在实际的使用中,清洁状态不明确、灯光看不懂、提示不及时、操作太复杂,一个又一个不便利才是用得不舒服的根源。追觅H60 Ultra正是看到了这一点,用一套全球首创的灵境交互系统,让清洁不仅是技术活,而是成为“沟通”的艺术 灵境交互系统的核心,是让机器和用户说“同一种语言”。H60…

    2025年10月16日
  • 疯狂英语李阳名下公司近期经营异常

    #疯狂英语李阳名下多家公司吊注销##李阳说董宇辉英语差发音怪# 据媒体报道,11月10日,有网友发视频,在11月8日-9日的疯狂英语线下活动中,创始人李阳公开讨论董宇辉与外国外交官的交流情况,引发热议。 天眼查App显示,李阳名下关联20家企业,其中5家处于存续或开业状态,分别是上海李阳疯狂英语教育科技有限公司、广东大爱李阳教育发展有限公司等,其余15家企业…

    2025年11月15日
  • 写了这么多年,我来揭秘写作到底能不能养家

    一个关于写作的“幽灵”正在当代投稿家们的上空盘旋。 这个“幽灵”就是AI。去年以来,几乎所有科技界人士都在击节相庆:写作或许是第一个被AI深度替代的行业。知乎上也有很多类似的担忧:咱们这些投稿家们何去何从? 千言万语总结成一句话:写作到底还能不能搞啊? 1 写作能赚钱 “AI替代人的写作”,这样的预测表面看上去是说得通的,因为写作的门槛与那些更加专业化的技术…

    2024年9月1日
  • 君实生物、国泰海通等成立健康并购基金# 出资额5

    天眼查App显示,近日,安徽高投国泰海通健康并购股权投资基金合伙企业(有限合伙)成立,执行事务合伙人为君实创业投资(海南)有限公司、国泰君安创新投资有限公司,出资额5亿人民币,经营范围包括以私募基金从事股权投资、投资管理、资产管理等活动。合伙人信息显示,该基金由君实生物(688180)、安徽省中小企业发展二期基金有限公司、国泰君安创新投资有限公司等共同出资。…

    行业动态 2025年11月21日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

邮件:939297903@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信