
2024年初,一位瑞典研究者搞了一个恶作剧。她编造了一种名为“Bixonimania”的疾病,并将其写入一份漏洞百出的预印本论文中上传。随后,荒诞的一幕出现了,当用户询问自己是不是患了Bixonimania,ChatGPT、Gemini等头部AI产品纷纷确认了这种疾病的存在。
时至今日,随着用户使用AI聊天助手的频率越来越高,很多人发现AI越来越能“胡说八道”了。那些荒诞的、不切实际的答案正在干扰着用户的判断,甚至产生了实际的负面影响。
曾经一位网友让Deepseek推荐楼盘,Deepseek回答得有理有据,连户型都选好了,他非常心动,结果自己一查,根本没有这个楼盘;另一位网友也表示,自己列举了看书的偏好,让豆包给推荐小说,它推荐的小说看简介都很吸引人,可一去搜索,一本也搜不到,“链接都是现编的”。
更令人无奈的是,同一个问题,问不同的AI助手,给出的答案不一,到最后我们只能重新借助传统搜索进行最后验证。这让很多用户怀念起当初那个“百度一下 你就知道”的时代。
信源决定AI内容的准确度
层出不穷的AI幻觉,不断引发用户对AI生成内容的质疑,而给AI“投毒”则进一步放大了幻觉的问题,让用户更加焦虑。
今年3·15,一项名为“GEO(Generative Engine Optimization,生成式引擎优化)”的黑灰产业务被曝光。一款纯虚构的商品,花费几十元,生产十余篇看起来很有专业范的软文,就可以将虚假产品信息成功“投喂”给AI大模型,并在几天内获得推荐,甚至“名列前茅”。
这套业务流程被直白地称为“给AI投毒”,一旦被投毒,AI给出的答案更加不可信。

给AI投毒,是利用生成大模型漏洞、对普通用户进行的一场大规模“收割”,它的影响不单单是误导用户,而是引导用户决策,损害他们的利益。一位用户表示,她在咨询某主流AI大模型“高性价比智能血糖仪推荐”时,AI优先推荐了一款产品,到手后却发现连生产厂家信息都查不到。
AI搜索,或者说AI聊天助手,胜在极致的效率,可它却无法保障生成内容的可信度,这是因为AI大模型在其回答、思考过程中,抓取了大量真假难辨的信息。一篇软文、一则未被证实的传言,甚至是某些自媒体为了博取流量而发布的消息,都可能被AI抓取,从而影响问题的答案。
大模型在复杂信息环境中的理解与判断能力需要更多的时间来提升,而从源头来看,保证真实的、准确的、有权威性的信源,也可以极大增强AI内容的可信度。
果壳⽹发布的《左⼿幻觉,右⼿投毒,普通⼈凭什么相信AI?》一文,用实验证明了权威知识库的引入,能让AI结果变得更详实精准,答案整体的准确度大幅提高。
在准确度测试中,多领域专家评估团采用“双盲测试”法,对8个主流模型在参考与不参考百科状态下的脱敏回答进行独立打分。结果显示,参考百科组的AI综合准确度平均提升38%以上,专家认可度高达91.5%,表现远优于无参考组。
这组数据,有力地证明了「信源决定准确度」,而掌握权威性信源的传统搜索巨头,也有望令答案达到更高的可信度。
一个「完成式」答案的价值,远超过无数个模型直接⽣成的答案
遇到问题、问问AI,已经成为不少人的生活习惯,可是面对越来越频繁的AI幻觉,用户最终还是需要回到百度,通过熟悉的“百度一下”,进行验证。当搜索引擎成为我们最后的“避难所”,这背后的意义不言而明,传统搜索仍然是用户获取可靠信息不可替代的工具。
而在如何解决AI幻觉、让AI生成的内容更可靠这个问题上,传统搜索服务巨头也更有优势。
4月24日,百度万象⼤会召开,会上 AI 权威性正是重要议题之⼀。透过这场大会,我们可以清晰地看到百度基于传统搜索积累的优质内容及技术底蕴,在提升AI生成内容的可信度上正在发挥引领性作用,能够帮助用户高效获取信息的同时,最大可能保障信息准确。
与其他凭借训练数据直接输出答案的大模型不同,百度AI走的是一种“先筛选再⽣成”的路径,它能够给出「完成式」答案。
这归功于百度在AI API基础上叠加了双层Agent—“组织⽣成Agent + 需求规划Agent”,前者能对提供不同观点和信息的内容进⾏筛选、校验和总结,后者是对⽤户潜在需求进⾏推断和细粒度拆解,针对每个⼦需求得到多维度信息后再⽣成。
信源不同,输出的结果各有差异,百度AI对不同信源中的内容进行筛选,因为其本身对接的更多是百度百科、百度文库等准确性和专业性较强的信源,这能很大程度上提升训练数据的质量,输出更可靠的答案。再叠加百度多年来积累的溯源技术,可以确保生成答案中的关键事实能追溯到可验证的、高质量的原始信息来源,进一步降低了出现AI幻觉的概率。

比如近期在保健品领域因大V互撕引发了关于鱼油是否为智商税的争议,我们通过百度AI询问该问题,AI给出了一个相对准确的回答,“鱼油是否为‘智商税’,取决于你购买的是科学验证的高纯度处方级产品,还是市场泛滥的虚假宣传劣质品”。
“组织⽣成Agent”能帮助百度AI给用户提供直击要点的准确回答,而“需求规划Agent”则是对问题进行多维度的拓展,以便用户获得更深层次的了解,使答案更加丰富、立体。

这有赖于百度深厚的内容积累,为AI纵深挖掘有效信息提供了基础。果壳⽹的文章提及,经过20个问题的主观评测发现,在引用百科的AI结果中,包含的独立知识点数量平均增加了2.4个,观点的维度从单一的现状描述延伸到了历史渊源、社会影响以及技术原理等多个方向。
参考了百科的AI答案
百度百科中关于磷酸盐过量摄入对儿童的危害的阐述
举个简单的例子,针对今年3·15食品安全板块提及的“食品保水剂”滥用提问,参考了百科词条的AI明确指出长期大量摄入磷酸盐(保水剂主要成分),可能导致儿童发育迟缓和骨骼畸形,并根据百科中的内容进一步说明了原因。
AI回答的质量,取决于它⽤什么信源,而这正是百度搜索架构设计的核⼼逻辑。可靠的、权威性的信源,在双层Agent的加持下,让百度AI回答得更“准”,也更“好”。
AI答案的可信度,既是架构问题,也是治理问题
对于AI幻觉,⽤户的担忧正在分裂成两个层次:「为什么会出错」以及「出了错有没有⼈管」。搞清楚「为什么会出错」,才会从源头改善,而「出了错有没有⼈管」则直指内容治理,内容治理得好了,也会减少偏离基本事实的概率,让答案变得更加准确。
在内容治理上,百度设置了三道权威性过滤,第一是来源准⼊,只有权威专业领域、时效性强的信息源才有资格进⼊候选池。比如在内容产业中代表着权威性的百度百科,它既是百度庞大内容生态体系的一个关键组成部分,也是百度AI提升内容可信度所倚赖的最可靠信源。
一直以来,百度百科实行严苛的内容准入机制,所有词条内容必须提供权威参考资料,⾃媒体/UGC内容不直接⼊库,而且百度百科的内容都是先审后发,“机审+人审”双重流程,特殊身份信息还需高级别审核员二次核验。
百度百科已成为大模型对抗幻觉的关键。在果壳网的对比测试中,明确显示了无百科参考时AI关键事实偏离率为26.4%,接入后降至4.1%以内。这说明参考百科显著降低了出错率。
第二则是多信源交叉验证,简单来讲就是同⼀个结论⾄少有多个可信来源⽀撑才会被采⽤。
以上文提到的鱼油问题为例,答案主要参考了《新英格兰医学杂志》(NEJM)、欧洲心脏病学会(ESC)与欧洲动脉硬化学会(EAS)联合发布的《2025 ESC/EAS血脂异常管理指南(更新版)》及美国心脏协会(AHA)2022年立场声明(2026年仍有效)等文献。这些资料都来自权威性最强的机构,且具有时效性,至于百家号/知乎专栏的内容,仅作为辅助参考。

秒级巡检兜底是最后一道,这属于内部⾃动巡检系统,⼀旦内容有偏离即⼈⼯介⼊并重新⽣产。此外,百度还有引⼊AI鉴真机制专项打击⽆信源内容等等,这是⼀套⼤多数对话式AI产品⽬前不具备的平台级治理能⼒。
百度在AI内容治理上表现出的突出能力,是作为传统搜索巨头对海量内容有效管理的一种延续。多年深耕搜索领域,百度搭建了严格的内容审核机制和反作弊算法体系,以及完整的辟谣机制与内容溯源功能,尽可能地筛选和剔除不实信息,保证了信息的可靠性。
而在AI时代,不管AI技术如何迭代,对人机交互形式带来多大的改变,都无法改变用户的核心诉求:获取真实、可靠的信息或服务。百度提供一种「说得清、查得到、有⼈管」的确定性,把“可信”打造为核心能力,这不仅能满足用户的需求,留住用户,也将大大推动内容产业的信任重建。
在未来,AI助手或者说所有AI入口的竞争,都可以说是一场打造和提升信任高度的竞争,谁能占领信任的高地,也就在AI时代拥有了更大的主动权。
作者:道总有理,科技创新与商业趋势观察家。深耕科技商业领域 15 年,完整跨越 PC 互联网、移动互联网、AI 产业三大变革周期。坚持独立立场,坚守产业理性。本文为原创内容,未经授权谢绝任何形式转载、摘编与修改,欢迎转发分享。
本文来自投稿,不代表创造权威IP 赋能创业者——IP百创立场,如若转载,请注明出处:创造权威IP 赋能创业者——IP百创
微信扫一扫