百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

近日,昆仑万维携手新加坡南洋理工大学成功开发了一个名为Q*的算法,能够显著提升现有大模型的推理能力。在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

Q*能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,这一算法不仅大幅提升了小模型的性能,还显著降低了计算资源的需求,为人工智能的广泛应用带来了全新可能,开创了高效智能的新纪元。

项目论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》已公开发布。

论文链接:https://arxiv.org/abs/2406.14283

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

打破OpenAI封锁 提升现有模型能力

自OpenAI的Q*项目曝光后,引发业内众多讨论。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

(英伟达科学家Jim Fan、图灵奖得主Yann LeCun等参与讨论OpenAI的Q*实现方式)

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

(Meta科学家田渊栋则认为Q*是Q-learning和A*的结合,且天然地适合推理任务,尤其在数学推理方面)

不过迄今为止OpenAI没有公开关于Q*算法的具体细节,其效果究竟如何我们并不得而知。

昆仑万维自Q*项目曝光以来,一直密切关注Q*的动向,且在第一时间就成立研究小组尝试开发自己的Q*算法,希望打破OpenAI的封锁,提升现有开源模型的推理能力。经过数月的尝试,团队提出了一种新颖的Q*框架,并且帮助现有开源模型在GSM8K、MATH和MBPP数据集上,分别超越了ChatGPT和Gemini Ultra。

复杂推理任务全盘规划

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态,对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

其中g(s_t)表示当前轨迹中的多个历史状态,既{s1,…,s_t},的聚合收益。

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建Process Reward Model (PRM) 进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

为了获得状态-动作对(s_t, a_t)

的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

。训练过程中的真实标签

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。

实验结果表明,昆仑万维本次所提出的Q*框架,可以显著地提升LLM的推理能力,在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra; 在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力 昆仑万维携手新加坡南洋理工大学发布Q*算法

研究证明,Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显著降低了计算资源的需求。目前,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。未来,昆仑万维会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为人工智能前沿技术发展带来全新可能。

本文来自投稿,不代表创造权威IP 赋能创业者——IP百创立场,如若转载,请注明出处:创造权威IP 赋能创业者——IP百创

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年6月25日
下一篇 2024年6月25日

相关推荐

  • 威马汽车科技集团经营异常

    天眼查App显示,近日,威马汽车科技集团有限公司因未依照规定的期限公示年度报告,被上海市青浦区市场监督管理局列入经营异常名录。 威马汽车科技集团有限公司成立于2012年5月,法定代表人为SHEN HUI,注册资本60亿人民币,由苏州威马智慧出行科技有限公司全资持股。风险信息显示,该公司目前存在多条被执行人、限制消费令、失信被执行人(老赖)及终本案件信息。 天…

    2024年7月13日
  • 问界新M7火爆热销迎来“Mate7时刻”,日均订单突破1500+

    在刚刚结束的2023华为秋季全场景新品发布会上,问界新M7又传热销捷报。自9月12日正式上市后,问界新M7深受消费者喜爱,日均大定1500+,彻底引爆大型SUV市场。问界新M7投入超过5个亿全新打造,拥有超智慧的鸿蒙智能座舱、超先进的高阶智能驾驶与超强的主被动安全,为用户带来享六座,大五座的全新体验。 日均订单1500+,问界新M7引爆细分市场 作为一款集大…

    2023年9月25日
  • 纯流量逻辑失效,汽车营销如何破局?

    刚刚过去的8月,汽车圈热点不断。 先是知名演员杨幂成为华为享界S9的001号车主,余承东亲自为她交车;再是阿维塔联名限量版新车型阿维塔012迎来全球首秀;紧接着,在刚刚结束的成都车展上,宝马集团BMW和MINI品牌共13款新车亮相成都车展,创造宝马历年参加成都车展的新车之最;小鹏汇天飞行汽车更是惊艳亮相展会,并完成了在成都的首次飞行演示…… 在智能汽车领域,…

    互联网 2024年9月3日
  • 阿里橙狮在上海成立新公司

    天眼查App显示,近日,上海杨浦乐动力体育有限公司成立,法定代表人为彭铿,注册资本500万人民币,经营范围含体育保障组织、软件开发、组织体育表演活动、互联网销售、人工智能硬件销售、体育竞赛组织、体育赛事策划、数据处理和存储支持服务等。股东信息显示,该公司由阿里巴巴旗下橙狮体育有限公司全资持股。 天眼查信息:https://www.tianyancha.com…

    2024年8月16日
  • #周笔畅关联公司拟注销# 曾打造男团YES!CAMP

    天眼查App显示,近日,四川新华贝易文化有限公司新增简易注销公告,公告期自6月18日至7月8日。 该公司成立于2018年9月,常雄飞为法定代表人,周笔畅为董事,该公司注册资本230万人民币,经营范围含广播、电视、电影和录音制作业,组织文化交流活动、文化体育娱乐活动与经纪代理服务等,由周笔畅持股的北京贝易文化有限公司,以及四川新华泛悦文化传媒有限公司分别持股8…

    2024年6月24日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

邮件:939297903@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信