监控画面里突然窜出火苗，直播中的爆款商品一闪而过，独居老人在房间意外摔倒，世界杯赛场上出现一脚绝杀……

现实里这些关键事件还很难被大模型处理，因为当前主流大模型多遵循轮次对话逻辑，必须接收用户指令才会启动视觉感知，面对转瞬即逝的场景天然存在结构性短板。

最近，京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction，这也是全球首个全栈开源的interaction模型和系统，就是为了解决上面的结构性矛盾而生。

这不仅仅是一个新模型，而是一次对多模态AI交互范式的重构。

范式之变：从”等你问”到“我看着办”

2026年的多模态AI赛道很热闹，但热闹之下有一个根本问题没解决：现有系统的优化目标仍然是对话轮次，即在你说了之后，尽可能快地回答，交互围绕对话组织，等待用户的轮次到来。本质上，这是“更快更自然的问答机器”，而非“世界的观察者”。

这就是“轮次对话”与“流式交互”之间的范式鸿沟，也是京东JoyAI-VL-Interaction要填补的空白。

所谓“流式交互”（Streaming Interaction），核心区别不在回答速度，而在决策权归属：轮次对话模型无法自己选择开口时刻，而流式交互模型每一秒钟都在做判断：此刻值得开口吗？还是应该继续沉默观察？还是这个问题超出了实时推理的能力，应该委托给后台大模型？

我把这种范式转换概括为“三大跃迁”，也是多模态AI从“工具”向“伙伴”跃迁的关键三步：

第一大跃迁，是主动判断。传统模型要等用户发起问题才开始处理画面，而JoyAI-VL-Interaction可以持续观察视频流，自主判断什么时候该说话，什么时候该沉默。用户设置“裁判出示红牌时提醒我”，模型就会持续值守画面并在事件发生时自动预警，而不是等用户再问“刚才发生了什么”。会说话很重要，会沉默也同样重要。一个好的AI助手，不应一直打扰用户，而应知道什么时候该出现，什么时候该安静。

第二大跃迁，是实时响应，而非事后总结。在摔倒检测的场景中，JoyAI-VL-Interaction在人倒下的瞬间就发出警报，而Gemini则不支持持续画面实时监控。这是结构性能力的差异：前者持续在线观察，后者只在被轮询时才“睁开眼睛”。

第三大跃迁，是适时智能体委托，同时保持观察和交互。很多人会把“委托后台模型”简单理解为把难题甩出去，但JoyAI-VL-Interaction的做法很精妙：前台模型在委托的同时并不离开，它继续观察现场、保持与用户的实时连接，等后台结果返回后再自然接回对话。以往的Agent调用，多是“暂停当前任务、等待结果返回”的串行逻辑，JoyAI-VL-Interaction则将AI的交互拆成两条并行轨道：一条负责在场感，一条负责能力边界，两者是分工协作关系。这才是交互与生成之间真正的结构性分野，也是多模态AI从单体全能走向协作在场的关键一步。

一个真正的AI伴侣，不应该在你每次想聊天时才出现。它应该像一个朋友，静静地陪着你，在该说话的时候说话。京东的这个思路，比单纯堆砌参数，更具前瞻性。

硬核拆解：全栈开源背后的技术底气

范式转换需要技术底气支撑。JoyAI-VL-Interaction的技术架构，有几处值得仔细看的“巧思”。

首先是视觉优先解耦架构。当前主流实时多模态系统将语音和视觉融合进一个大模型，追求“输入即理解、输出即表达”的端到端体验。JoyAI-VL-Interaction走了一条不同路线：视觉是第一驱动力，语音是可插拔的I/O。模型的自主决策核心完全由视觉触发。ASR/TTS作为外部模块负责语音转换，可以随时替换为用户自己的语音方案。

这种解耦是深思熟虑的，把“自主核心”和“可互换的外围”分开，使得部署者可以根据自己的语言、场景和偏好自由选择语音方案，而无需重建整个系统。

其次是AdaCodec预测编码，解决了长视频的算力瓶颈。一个需要持续在线观察的模型，必须面对一个残酷的现实：视频流是无限的。如果每一帧都花256个ViT token去编码，成本和延迟会随时间快速增长，几小时后系统就扛不住了。

AdaCodec借鉴视频压缩逻辑区分帧类型，画面大幅变化的关键帧使用完整256 Token编码，场景平稳的预测帧仅通过运动矢量、残差生成16个轻量化P-Token。模型算力开销跟随画面变化幅度浮动，而非随视频时长无限增长，普通硬件也能支撑全天不间断实时观测。

400万+时间对齐数据也很关键。交互能力的习得，关键是数据。JoyAI-VL-Interaction的训练数据超过400万条时间对齐的流式视频片段，覆盖主动告警与异常检测、时间对齐问答、持续计数与感知、实时解说与叙事、多轮闲聊，以及委托决策训练的六大能力家族。每一秒钟的视频都被标注了对应的动作（沉默、回应或委托），模型从这种“秒级对齐”中学会了交互的节奏感。

更有意思的是涌现能力。在购物应用导航场景中，模型能跟随用户在手机屏幕上的每一次滑动，实时引导到目标商品，但训练数据中从未包含任何App界面视频。在旅行解说场景中，模型被要求“每四秒解说一次”，它严格遵守了这个节奏，且内容扎实，但“定时动作”和“实时解说”这两种能力在训练数据中从未同时出现。模型在推理时把它们组合起来了。

评测结果引人注目：在监控预警、实时计数、实时翻译、时间感知、直播导览解说等58个真人盲评案例中，JoyAI-VL-Interaction对比豆包视频通话助手总体胜率77.6%，对比Gemini视频通话助手总体胜率87.9%。尤其监控预警场景，对两个基线均取得100%胜率。

值得注意的是，JoyAI-VL-Interaction只是一个8B规模的模型，而竞品背后是远大于它的成熟产品，从这也能看出架构范式变化的意义。

而且，此次京东开源的不仅是模型权重，更是完整的技术栈：包括模型权重、交互数据集、训练方案和完整可部署系统。这意味着开发者和研究者都可以复现模型训练过程，微调适配自己的场景，替换组件构建定制系统，二次开发新的交互应用。

京东开源的不只是一个模型，而是一套让AI活在真实世界的基础设施。

场景落地：从对话框到物理世界

技术只有走进真实场景，才有意义。JoyAI-VL-Interaction的流式交互能力，天然适配那些需要持续在场、即时判断的真实世界任务。

例如直播购物场景，用户在手机上浏览商品时，模型能实时识别屏幕上的变化，给出穿搭建议、比价信息，甚至在你犹豫不决时主动推送关键参数对比。

又如安全监控、老人看护场景。传统的监控AI是事后查录像，JoyAI-VL-Interaction是实时预警：火苗出现时即刻告警，老人摔倒时瞬间响应，不需要任何人先开口问“有没有异常”。100%的监控告警胜率，正是这个场景的结构性优势。

体育赛事解说场景也是这样，世界杯进球、犯规、换人这些关键瞬间比人类解说员的反应更快。JoyAI-VL-Interaction的实时解说能力在测试中已经展现：它能在画面变化时即刻描述正在发生的事，而非等到被问才复盘。

为什么在流式交互模型上率先突破的，是京东？

因为京东深耕零售、物流、健康、工业等实体产业二十余年，覆盖仓储、配送、门店、直播、客服、售后等真实场景，沉淀海量真实动态视觉场景数据、标准化业务流程。京东，作为“全球最大的物理世界运营中心”，为多模态AI走向真实世界提供了天然的场景土壤。

今年以来，京东在模型基建上的动作很密集：3月开源JoyAI-LLM Flash，4月开源JoyAI-Image-Edit，6月初开源长视频生成模型JoyAI-Echo，现在又开源JoyAI-VL-Interaction。从文本到图像到视频到实时交互，京东正在构建一个覆盖“生成+理解+交互”的完整模型矩阵。

京东不是在做一个孤立的AI模型，而是在为其庞大的物理世界操作系统，打造一个能够“看见并行动”的智能感知层。从仓库里的实时异常监控，到零售场景中的购物陪伴，再到物流履约中的视觉识别，这个模型与其背后的商业生态，形成了“技术-场景-数据”的正循环。

后记：从“对话”走向“在场”

管理学家克莱顿·克里斯坦森在《创新者的窘境》中提出过一个深刻洞察：颠覆性创新往往不是在现有维度上做得更好，而是在一个被忽视的新维度上建立全新价值。

JoyAI-VL-Interaction，就在于它没有在参数、精度上去和现有模型卷，而是选择了一个全新的范式：从“对话”走向“在场”，从而让一个8B模型在时间感知和主动交互上胜过了百倍于自己的大模型产品。

当然，京东的模型本身仍有拓展空间，这恰恰是其开源的要义。随着数据的积累和算法的迭代，“流式交互”有望成为下一代AI应用的标配能力。而京东选择在起步阶段就全部开源，极具战略意义。一个范式转换的早期，最需要的是让更多人参与进来。正如开源运动的先驱埃里克·雷蒙德所言：“有足够多的眼睛，就可让所有问题浮现。”把整个栈开放给社区，是在用最有效率的方式加速一个新范式的成熟。

也许不久之后，我们会发现：真正改变我们生活的AI，不是那个藏在对话框里无所不知的“智者”，而是那个默默陪在身边、懂得何时该开口的“伙伴”。

那个你下班回家疲惫不堪时，在你还没说任何话之前，就轻声说一句：“我看出来了，今天一定很辛苦吧。”

这种不需要你先问的在场感，才是AI真正走进人类生活的最后一步，而这一步，JoyAI-VL-Interaction已经迈出去了。

本文来自投稿，不代表创造权威IP 赋能创业者——IP百创立场，如若转载，请注明出处：创造权威IP 赋能创业者——IP百创