开源视频模型打赢Gemini,京东AI加速跑

监控画面里突然窜出火苗,直播中的爆款商品一闪而过,独居老人在房间意外摔倒,世界杯赛场上出现一脚绝杀……

现实里这些关键事件还很难被大模型处理,因为当前主流大模型多遵循轮次对话逻辑,必须接收用户指令才会启动视觉感知,面对转瞬即逝的场景天然存在结构性短板。

最近,京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction,这也是全球首个全栈开源的interaction模型和系统,就是为了解决上面的结构性矛盾而生。

开源视频模型打赢Gemini,京东AI加速跑

这不仅仅是一个新模型,而是一次对多模态AI交互范式的重构。

范式之变:从”等你问”到“我看着办”

2026年的多模态AI赛道很热闹,但热闹之下有一个根本问题没解决:现有系统的优化目标仍然是对话轮次,即在你说了之后,尽可能快地回答,交互围绕对话组织,等待用户的轮次到来。本质上,这是“更快更自然的问答机器”,而非“世界的观察者”。

这就是“轮次对话”与“流式交互”之间的范式鸿沟,也是京东JoyAI-VL-Interaction要填补的空白。

所谓“流式交互”(Streaming Interaction),核心区别不在回答速度,而在决策权归属:轮次对话模型无法自己选择开口时刻,而流式交互模型每一秒钟都在做判断:此刻值得开口吗?还是应该继续沉默观察?还是这个问题超出了实时推理的能力,应该委托给后台大模型?

我把这种范式转换概括为“三大跃迁”,也是多模态AI从“工具”向“伙伴”跃迁的关键三步:

第一大跃迁,是主动判断。传统模型要等用户发起问题才开始处理画面,而JoyAI-VL-Interaction可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。用户设置“裁判出示红牌时提醒我”,模型就会持续值守画面并在事件发生时自动预警,而不是等用户再问“刚才发生了什么”。会说话很重要,会沉默也同样重要。一个好的AI助手,不应一直打扰用户,而应知道什么时候该出现,什么时候该安静。

第二大跃迁,是实时响应,而非事后总结。在摔倒检测的场景中,JoyAI-VL-Interaction在人倒下的瞬间就发出警报,而Gemini则不支持持续画面实时监控。这是结构性能力的差异:前者持续在线观察,后者只在被轮询时才“睁开眼睛”。

第三大跃迁,是适时智能体委托,同时保持观察和交互。很多人会把“委托后台模型”简单理解为把难题甩出去,但JoyAI-VL-Interaction的做法很精妙:前台模型在委托的同时并不离开,它继续观察现场、保持与用户的实时连接,等后台结果返回后再自然接回对话。以往的Agent调用,多是“暂停当前任务、等待结果返回”的串行逻辑,JoyAI-VL-Interaction则将AI的交互拆成两条并行轨道:一条负责在场感,一条负责能力边界,两者是分工协作关系。这才是交互与生成之间真正的结构性分野,也是多模态AI从单体全能走向协作在场的关键一步。

一个真正的AI伴侣,不应该在你每次想聊天时才出现。它应该像一个朋友,静静地陪着你,在该说话的时候说话。京东的这个思路,比单纯堆砌参数,更具前瞻性。

硬核拆解:全栈开源背后的技术底气

范式转换需要技术底气支撑。JoyAI-VL-Interaction的技术架构,有几处值得仔细看的“巧思”。

首先是视觉优先解耦架构。当前主流实时多模态系统将语音和视觉融合进一个大模型,追求“输入即理解、输出即表达”的端到端体验。JoyAI-VL-Interaction走了一条不同路线:视觉是第一驱动力,语音是可插拔的I/O。模型的自主决策核心完全由视觉触发。ASR/TTS作为外部模块负责语音转换,可以随时替换为用户自己的语音方案。

这种解耦是深思熟虑的,把“自主核心”和“可互换的外围”分开,使得部署者可以根据自己的语言、场景和偏好自由选择语音方案,而无需重建整个系统。

其次是AdaCodec预测编码,解决了长视频的算力瓶颈。一个需要持续在线观察的模型,必须面对一个残酷的现实:视频流是无限的。如果每一帧都花256个ViT token去编码,成本和延迟会随时间快速增长,几小时后系统就扛不住了。

AdaCodec借鉴视频压缩逻辑区分帧类型,画面大幅变化的关键帧使用完整256 Token编码,场景平稳的预测帧仅通过运动矢量、残差生成16个轻量化P-Token。模型算力开销跟随画面变化幅度浮动,而非随视频时长无限增长,普通硬件也能支撑全天不间断实时观测。

400万+时间对齐数据也很关键。交互能力的习得,关键是数据。JoyAI-VL-Interaction的训练数据超过400万条时间对齐的流式视频片段,覆盖主动告警与异常检测、时间对齐问答、持续计数与感知、实时解说与叙事、多轮闲聊,以及委托决策训练的六大能力家族。每一秒钟的视频都被标注了对应的动作(沉默、回应或委托),模型从这种“秒级对齐”中学会了交互的节奏感。

更有意思的是涌现能力。在购物应用导航场景中,模型能跟随用户在手机屏幕上的每一次滑动,实时引导到目标商品,但训练数据中从未包含任何App界面视频。在旅行解说场景中,模型被要求“每四秒解说一次”,它严格遵守了这个节奏,且内容扎实,但“定时动作”和“实时解说”这两种能力在训练数据中从未同时出现。模型在推理时把它们组合起来了。

评测结果引人注目:在监控预警、实时计数、实时翻译、时间感知、直播导览解说等58个真人盲评案例中,JoyAI-VL-Interaction对比豆包视频通话助手总体胜率77.6%,对比Gemini视频通话助手总体胜率87.9%。尤其监控预警场景,对两个基线均取得100%胜率。

开源视频模型打赢Gemini,京东AI加速跑

值得注意的是,JoyAI-VL-Interaction只是一个8B规模的模型,而竞品背后是远大于它的成熟产品,从这也能看出架构范式变化的意义。

而且,此次京东开源的不仅是模型权重,更是完整的技术栈:包括模型权重、交互数据集、训练方案和完整可部署系统。这意味着开发者和研究者都可以复现模型训练过程,微调适配自己的场景,替换组件构建定制系统,二次开发新的交互应用。

京东开源的不只是一个模型,而是一套让AI活在真实世界的基础设施。

场景落地:从对话框到物理世界

技术只有走进真实场景,才有意义。JoyAI-VL-Interaction的流式交互能力,天然适配那些需要持续在场、即时判断的真实世界任务。

例如直播购物场景,用户在手机上浏览商品时,模型能实时识别屏幕上的变化,给出穿搭建议、比价信息,甚至在你犹豫不决时主动推送关键参数对比。

又如安全监控、老人看护场景。传统的监控AI是事后查录像,JoyAI-VL-Interaction是实时预警:火苗出现时即刻告警,老人摔倒时瞬间响应,不需要任何人先开口问“有没有异常”。100%的监控告警胜率,正是这个场景的结构性优势。

体育赛事解说场景也是这样,世界杯进球、犯规、换人这些关键瞬间比人类解说员的反应更快。JoyAI-VL-Interaction的实时解说能力在测试中已经展现:它能在画面变化时即刻描述正在发生的事,而非等到被问才复盘。

为什么在流式交互模型上率先突破的,是京东?

因为京东深耕零售、物流、健康、工业等实体产业二十余年,覆盖仓储、配送、门店、直播、客服、售后等真实场景,沉淀海量真实动态视觉场景数据、标准化业务流程。京东,作为“全球最大的物理世界运营中心”,为多模态AI走向真实世界提供了天然的场景土壤。

开源视频模型打赢Gemini,京东AI加速跑

今年以来,京东在模型基建上的动作很密集:3月开源JoyAI-LLM Flash,4月开源JoyAI-Image-Edit,6月初开源长视频生成模型JoyAI-Echo,现在又开源JoyAI-VL-Interaction。从文本到图像到视频到实时交互,京东正在构建一个覆盖“生成+理解+交互”的完整模型矩阵。

京东不是在做一个孤立的AI模型,而是在为其庞大的物理世界操作系统,打造一个能够“看见并行动”的智能感知层。从仓库里的实时异常监控,到零售场景中的购物陪伴,再到物流履约中的视觉识别,这个模型与其背后的商业生态,形成了“技术-场景-数据”的正循环。

后记:从“对话”走向“在场”

管理学家克莱顿·克里斯坦森在《创新者的窘境》中提出过一个深刻洞察:颠覆性创新往往不是在现有维度上做得更好,而是在一个被忽视的新维度上建立全新价值。

JoyAI-VL-Interaction,就在于它没有在参数、精度上去和现有模型卷,而是选择了一个全新的范式:从“对话”走向“在场”,从而让一个8B模型在时间感知和主动交互上胜过了百倍于自己的大模型产品。

当然,京东的模型本身仍有拓展空间,这恰恰是其开源的要义。随着数据的积累和算法的迭代,“流式交互”有望成为下一代AI应用的标配能力。而京东选择在起步阶段就全部开源,极具战略意义。一个范式转换的早期,最需要的是让更多人参与进来。正如开源运动的先驱埃里克·雷蒙德所言:“有足够多的眼睛,就可让所有问题浮现。”把整个栈开放给社区,是在用最有效率的方式加速一个新范式的成熟。

也许不久之后,我们会发现:真正改变我们生活的AI,不是那个藏在对话框里无所不知的“智者”,而是那个默默陪在身边、懂得何时该开口的“伙伴”。

那个你下班回家疲惫不堪时,在你还没说任何话之前,就轻声说一句:“我看出来了,今天一定很辛苦吧。”

这种不需要你先问的在场感,才是AI真正走进人类生活的最后一步,而这一步,JoyAI-VL-Interaction已经迈出去了。

 

本文来自投稿,不代表创造权威IP 赋能创业者——IP百创立场,如若转载,请注明出处:创造权威IP 赋能创业者——IP百创

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 5小时前
下一篇 11分钟前

相关推荐

  • 中通供应链管理公司增资至7.3亿增幅约21%

    天眼查App显示,近日,中通供应链管理有限公司发生工商变更,注册资本由约6亿人民币增至约7.3亿人民币,增幅约21%。 该公司成立于2016年5月,法定代表人为赖建法,经营范围包括供应链管理服务、企业管理、普通货物仓储服务、国内货物运输代理等。股东信息显示,该公司由杭州驰运股权投资有限公司、赖建法、赖梅松等共同持股。 天眼查信息:https://www.ti…

    2025年12月17日
  • 阿里已申请多个通义相关商标

    #阿里已申请通义晓问商标# #阿里版GPT官宣内测# 据报道,4月7日,阿里云官方宣布,自研大模型“通义千问”开始邀请用户测试体验。据介绍,阿里达摩院2019年便已启动中文大模型研发。现阶段“通义千问”主要定向邀请企业用户进行体验测试,用户可通过通义千问官网申请。 天眼查App显示,阿里巴巴达摩院(杭州)科技有限公司已申请注册多个“通义万象”“通义晓语”“通…

    2023年4月7日
  • 人家大战618,它却翻车?这样的得物你还敢用吗?

    一年一度的618在5月20日这一天正式启幕,各大平台更是铆足了劲疯狂广告轰炸…… 除了各种线下硬广,微博热搜上的商推位,一两小时换一次,感觉快不够用了,电商平台这个618能不能赚不知道,但微博的下一季度财报一定会很好看。 此外,还有被消费者吐槽「毫无人性」APP开屏摇一摇就跳转电商APP的广告模式又死灰复燃,害的小柴只能把手机放在桌上玩。 小柴大有一种感觉,…

    2024年5月21日
  • AutoUX2024未来汽车与用户体验大会圆满落幕!

    由上海士研管理咨询、上海大数据联盟联合主办,江苏省汽车工程学会协办和泰国电动汽车协会支持的“AutoUX2024未来汽车与用户体验大会”于2024年4月18日在上海成功召开,并于4月19日圆满落幕。 本届会议围绕“体验引领,智创未来”的主题展开讨论,汇聚了政府协会、科研院校、传统车企、造车新势力、出行平台、智舱/智驾/网联、Tier1、AI、咨询、数字化解决…

    2024年4月25日
  • 东方精工等成立智能机器人公司注册资本1亿

    天眼查App显示,近日,东方元启智能机器人(广东)有限公司成立,法定代表人为邱业致,注册资本1亿人民币,经营范围含服务消费机器人制造、信息技术咨询服务、智能家庭消费设备制造、工业控制计算机及系统制造、互联网设备制造、工业机器人制造、智能基础制造装备制造、人工智能基础软件开发、人工智能应用软件开发、智能机器人的研发等。股东信息显示,该公司由乐聚智能(深圳)股份…

    2025年9月23日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

邮件:939297903@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信