英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法

MoE模型剑指算力效率:优化算法,压榨性能

英伟达“超神”的背后:AI厂商迫切地在MoE模型上寻求算力新解法

文 | 智能相对论

作者 | 陈泊丞

在过去的一年多时间内,英伟达破天荒地完成了市值的“三级跳”。

一年前,英伟达的市值并尚不足1万亿美元,位居谷歌母公司Alphabet、亚马逊、苹果和微软等科技巨头之后。

时至今日,英伟达市值突破3万亿美元,超越苹果,仅次于微软。

这样的成就归功于英伟达在AI芯片领域的显著优势。随着生成式AI进入规模化爆发阶段,算力需求愈发膨胀,由此英伟达的AI芯片便成了市场的“香饽饽”。

然而,市场对算力的需求远超大众的想象,英伟达的高端芯片也是一卡难求,在这个节点上AI行业不得不在其他层面上寻求破局算力荒的新解法。

如今,在算法架构上,MoE混合专家模型凭借其在算力效率上的显著优势持续走红,成为越来越多AI厂商共同探索的新方向。

那么,MoE模型的走红,是否真的能为AI行业破解算力荒?

MoE模型剑指算力效率:优化算法,压榨性能

区别于稠密(Dense)模型,MoE模型采用采用稀疏激活机制,在处理任务的过程中往往可以根据不同的任务需求,只需要激活一部分专家网络即可,而非激活全部参数,从而很好地提高了计算效率,更高效地利用计算资源。

比如,阿里巴巴的Qwen1.5-MoE-A2.7B模型在总参数量为143亿的情况下,每次推理只激活27亿参数。类似的,DeepSeek-MoE 16B的总参数量为164亿,但每次推理只激活约28亿的参数等等。

以上这种设计,就有效平衡了模型的性能与计算资源的使用效率。

因此,尽管MoE模型通常拥有更多的参数,但由于其稀疏性,训练开销可以显著降低。又比如,在实践中,使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B,训练成本显著降低了75%。

再以浪潮信息的源2.0-M32开源MoE模型来说,我们发现,源2.0-M32在2颗CPU,80GB内存的单台服务器上即可部署高性能推理服务,而Llama3-70B则需要在4颗80G显存的GPU服务器上才能完成部署和运行。

通过这样的对比,就可以发现,凭借MoE模型在算力效率上的显著优势便能在AI基础设施层面减少投入,缓解对高端GPU芯片的过度依赖。根据推算性能测试,如今源2.0-M32的单Token推理算力需求是Llama3-70B的1/19。

之所以能达到这样的效果,是因为MoE模型通过将模型划分为多个小型的专家网络,而这种划分允许模型在保持性能的同时,减少所需的存储空间和内存带宽。由于在训练过程中模型大小的减少,MoE模型需要的计算资源也随之减少,这意味着相比于同等性能的密集模型,MoE可以以更低的硬件成本和更短的训练时间完成训练。

可以说,MoE模型本质上是一种高效的Scaling技术,在允许参数规模拓展的过程中也为算力投入提供了一个较好的解决方案,让大模型在保证规模和精度的同时具备了加速落地的可能。

更少的算力是否意味着性能打折?

尽管MoE模型可以用较少的算力去进行训练,但这并不意味着其性能会大打折扣。

在实践中,MoE模型通过细粒度专家的设计、非从头训练的初始化方法和带有共享及路由专家的路由机制等技术创新,使模型在保持较小参数量的同时,能够激活并利用更加精细的计算资源。这也就使得MoE模型在保持高性能的同时,有效降低了计算资源消耗。

简单对比一下MoE模型和Dense模型的计算性能,源2.0-M32在支持BF16精度的2颗CPU服务器上,约20小时就能完成1万条样本的全量微调。而在同样的CPU服务器上,Llama3-70B完成全量微调则是需要约16天的时间。

由此来说,MoE模型在计算性能上并没有因为算力的问题而大打折扣,反而还提升了不少。同样的算力支持,MoE模型可以产出更智能的应用和实现更高效的性能。

这样的结果涉及MoE模型多种算法的创新和优化。MoE模型通过引入专家网络(Expert Networks)和门控机制(Gating Mechanism)实现了模型的稀疏化和模块化,但是模型的性能问题依旧还没有得到很好的解决和优化。

随后,行业继续从不同的角度对MoE模型的性能提升进行探索。其中,QLoRA微调技术是针对预训练模型的,通过对专家网络的参数进行低秩分解,将高维参数矩阵分解为低秩矩阵的乘积。然后对这些低秩矩阵和量化参数进行微调,而不是整个专家网络参数,进一步提升模型的性能。

同时,微软又提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE,其通过深度优化MoE在并行训练中的通信,减少通信开销,并实现高效的模型并行。此外,DeepSpeed-MoE还提出了基于微调的专家排序机制,可以根据训练过程中专家的损失动态调整输入样本到专家的分配,提升效果。

总的来说,针对MoE模型的性能问题,业内一直在致力于创新和探索新的算法和技术来进行提升和优化。目前,MoE所展现出了巨大的性能潜力,并不输Dense模型。

写在最后

现阶段,算力吃紧是不争的事实,日趋激烈的算力需求促使了英伟达的“超神”故事。但是,AI大模型厂商们也并非坐以待毙,针对算法架构层面的创新和优化持续涌现,MoE模型的走红正预示着AI行业进入了算法+基础设施两手抓的阶段。

可以预见的是,MoE模型的持续迭代在解决AI算力荒的同时也在跨越式地提升AI模型的性能,把人工智能带入一个全新的发展阶段。胡适曾提到一种经典的战略思想:大胆假设,小心求证。

从某种程度来说,MoE模型的走红,恰恰是这一战略思路的呈现。AI行业对算力、性能等问题的探讨,在假设和求证中,MoE模型为人工智能找到了一条更为清晰的发展之路。

*本文图片均来源于网络

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

本文来自投稿,不代表创造权威IP 赋能创业者——IP百创立场,如若转载,请注明出处:创造权威IP 赋能创业者——IP百创

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年6月20日 下午4:47
下一篇 2024年6月20日

相关推荐

  • #申昊科技等在广东成立智维科技公司# 注册资本2000万

    天眼查App显示,近日,广东申昊智维科技有限公司成立,法定代表人为董永明,注册资本2000万人民币,经营范围包括以自有资金从事投资活动、人工智能行业应用系统集成服务、智能无人飞行器销售等。股东信息显示,该公司由申昊科技、广州明秀企业管理合伙企业(有限合伙)共同持股。 天眼查信息:https://www.tianyancha.com/company/77042…

    2025年9月4日
  • 特斯联等在嘉兴成立具身机器人制造公司注册资本1000万

    天眼查App显示,近日,光特(嘉兴)具身机器人制造有限责任公司成立,法定代表人为刘烽,注册资本1000万人民币,经营范围包括服务消费机器人制造、智能机器人的研发、软件开发等。股东信息显示,该公司由特斯联科技集团有限公司、光特海智海洋科技(青岛)有限公司共同持股。 天眼查信息:https://www.tianyancha.com/company/7850700…

    2025年11月18日
  • 首次聚焦“微短剧”和“人工智能”,两会提案释放出哪些行业信号?

    作者| 贝贝 编辑| Mia 2024年全国两会已经在北京闭幕,对于文娱行业来说,参加两会的代表委员们的提案言论是行业的重要风向标,很多新政策往往会由这些提案中完善出来。此届代表委员会提出了哪些与文娱产业相关的提案?今后会如何影响文娱领域发展新趋势? 纵观与文娱行业相关的系列提案,大都是围绕微短剧发展、人工智能、内容创作这些热门领域,从各自的视角出发,列举相…

    行业动态 2024年3月13日
  • 追兵猛虎齐上阵 李书福和凌世权能否笑到最后?

    堪比马斯克的李书福,要靠雷达汽车突破新能源时代上位困局?

    2023年8月4日
  • 探秘亳州模式:花草茶产业在拼多多狂奔的5年

    提高生产效率,在我看来是人类进入工业时代之后孜孜以求的唯一一件事。而效率一词并非数量与速度的简单函数,抑制产出过剩(降速)、采用实时应对需求的生产方式(提效)恰恰是在低增速时期提高效率的真谛。 这样的认知在当前的时代背景下尤其重要。如果一个产业带能够充分执行“小批量、快响应”的生产节拍,这样的产业带将极大变革生产方式,而合理的生产方式意味着更充分的收益、更幸…

    2024年7月6日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

邮件:939297903@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信