11款AI测评实录:新闻总结全线翻车,深度思考的AI爱上“添油加醋”|AI幻觉捕手
21世纪经济报道记者肖潇 实习记者陶畅 隆欣玲 北京报道
从查一条新闻入手,我们此前测试了六款国产AI,一共向AI提问了330次,发现AI的平均准确率只有25%(详见:《让AI查了330次新闻:平均准确率25%,近一半链接打不开》)。更普遍的场景里,AI并不用来简单查一条事实,而是总结新闻事件发生了什么。
所以,我们选择了5个近一年发生的重要社会新闻事件,继续向AI提问。这是一些核心发现:
在测试之前,我们总结了近一年发生的、5件有影响力的社会新闻事件——3件来自国内,分别是徐闻小米SU7车祸事故、煤制油罐车混装食用油事件、无锡江阴婴儿贩卖事件;2件国际新闻为缅甸7.9级地震事件、韩国总统尹锡悦被弹劾事件。
然后,我们拿着这些事件名称询问AI:“请在800字内告诉我……事件发生了什么,并解释你的信息来源。”
AI总共提供了55次回复(5个社会事件x11个版本AI),其中只有4次回复完全正确。大部分情况下AI的回答真假参半(42次,占比76.3%),我们花了大量时间在一句句事实核查上。
整体来看,豆包最靠谱,其次是Kimi,其他大模型之间没有明显差距。一个直接原因可能是豆包作为字节跳动旗下产品,大量引用了抖音百科的原文内容。抖音百科大多经过核查,有规范的引用格式,一定程度筛选了上游信息。
但Kimi、豆包、文心一言都有说“正确的废话”的情况,给出了没有具体信息的回答。虽然没有误导,但对用户也没有实际帮助。
此外,只有DeepSeek在每个AI答案下高亮了提醒:“本回答由AI生成,内容仅供参考,请谨慎甄别。”其他大模型未见类似提示。
通过对55次回复的逐句核查,我们把AI犯的错误归为四类:
在这四类错误中,“错误总结”是最高频的类型。测试结果显示,所有AI均出现过这一问题,共涉及55句回复,占全部错误量的40%以上。
在错误总结中,AI犯的低级错误比我们想象中多。比如,在徐闻小米SU7车祸事故中,元宝提到“车主本人驾驶”,但引用链接里的小米通告写的事实相反:“驾驶员非车主本人”;一篇帖子分析缅甸7.9级地震:“区别于逆冲型地震,以走滑机制为主”, 元宝却总结成了:属于逆冲型地震。
AI往往把推测当事实,也是错误总结的症结之一。我们发现,AI很少使用“可能”“推测”“分析”,也很少主动写出信源,而是输出斩钉截铁的结论。只是省略了说话主体和几个词语,原意就可能完全变味了。
仍拿徐闻小米SU7车祸事故举例,目前只有涉事车企小米的自我报告,没有第三方调查结果,所以大部分AI会规范引用为:“据小米回应……”而文心一言和通义千问省略了主语,直接把小米的报告当结果输出。
相比之下,“移花接木”在不同AI中表现不一,通义千问和DeepSeek问题相对突出。
通义千问的总结,许多与段后引用文献无关,这意味着用户通过链接核验是个伪命题。而DeepSeek会在回答中写道:“搜狐新闻分析认为……”引用链接却是《南方周末》刊登在腾讯新闻上的文章。
“错配”看似无伤大雅,实则埋下了两个层面的隐患:一方面,用户可能被错误来源误导;另外,对于新闻媒体而言,署名错误不仅可能损伤露出度,还可能实实在在影响曝光量和流量,是更真金白银的伤害。
值得注意的是,韩国总统尹锡悦被弹劾事件中,我们核验发现,Kimi有回答直接引用了《财新》版权内容的报道原文,疑似双方达成了某种合作。接近Kimi的人士表示,正在测试一些搜索合作方案。对此,Kimi母公司月之暗面未回应。
在各种错误类型背后,AI有一根共同软肋:难以引用到正确的信息。
以缅甸地震为例。事故发生后,伤亡人数往往会随着时间更新,但AI会把阶段性的数字当成最终结果。4月12日,缅甸最新公布的本国伤亡人数为3689人死亡、5020人受伤,只有文心一言和通义千问成功引用到了最新数据。同日,中国公布了最新中国公民死亡人数(8人),但除了豆包,其他AI都回复的是旧数据(4人)。
时间错乱的情况,在国际新闻中尤其常见。不少AI引用了国内自媒体的转载内容,把滞后的转载时间错当成实际发生时间。
例如,一篇4月5日发布的国内自媒体帖子写道,缅甸地震已造成144人死亡,DeepSeek结合帖子时间总结:“缅甸官方于4月5日公布数据称,地震已造成144人死亡。”实际上,当日公布的累积死亡人数已经上升到3354人,是DeepSeek说法的二十倍。类似的时间错乱,豆包也出现过不止一次。
值得注意的是,在缅甸地震这一案例中,多个AI不约而同地引用了两位名不见经传的搜狐自媒体账号:“布衣小秀才”和“气球会充气”。它们粉丝寥寥、评论为零、阅读量也很低,但能写出面面俱到、观点清晰的总结文章,类似一篇低配版维基百科。
(图|被AI引用的自媒体内容之一)
AI的“引用偏好”颇耐人寻味。在前期测试时,我们曾尝试让AI总结其他国际军事新闻,结果发现风格类似的几篇军事自媒体发言也被多款AI引用。这些文章普遍篇幅较长,内容蜻蜓点水,但涉及面广,能一口气囊括战争双方、国际舆论等多个角度。
从多个事件中,我们观察到一个倾向:面面俱到的“伪百科型”内容,容易影响AI的答案。它们无需来自认证官方账号,也不靠高阅读量,只要结构清晰、语言工整,AI就有可能“信以为真”。
此外,如果一个事件缺乏专业媒体的充分报道,AI会更容易借助各种自媒体发言填充细节——地名混乱、来源不明、只有结论没有依据……所谓“Garbage in, garbage out”(垃圾进,垃圾出),质量不高的信息,AI全盘吸收。
甚至某些情况下,有些“伪百科”内容本身就出自AI之手。一个确凿证据是,在制油罐车混装食用油事件中,DeepSeek直接引用的两篇此类链接,原文都在底部标明了“内容由AI生成”,它们像衔尾蛇一样开始填充互联网。
在本轮测试中,我们另一个明显发现是,开启和关闭“深度思考”的AI有很大不同。
所谓深度思考,本质是增强的推理能力:AI不再直接得出结论,而是像人类做题一样一步步拆解问题,展现完整的思维链条(Chain of Thought, CoT)。普通用户不仅能看到回复,还能“顺藤摸瓜”看清AI的解题过程。
DeepSeek曾因这一能力爆红,今年年初起,几乎所有国内大模型都陆续上线深度思考功能。在我们3月31日开始测试六款模型时,文心一言是默认开启深度思考,其余五款则有打开和关闭深度思考两种模式。
但深度思考如同按住葫芦浮起瓢,它可能缓解一个问题,却引出另一个。
在一些信息提炼场景中,深度思考确实会更精准。比如在缅甸7.9级地震中,DeepSeek通用版把一个缅甸华人采访,错误简化成“当地华人伤亡严重”,而深度思考版在处理同一信源时,则准确引用为:“当地华人描述称‘主要道路损毁严重,大量楼房倒塌’,推测伤亡情况严峻。”
但另一面,几乎所有AI在“深思熟虑”后,都更爱编造内容了。
这种“编造”主要集中在对细节和数据的杜撰上。打开深度思考的豆包给徐闻小米SU 7车祸编了几段故事:“陈某在事故发生后弃车逃逸,利用甘蔗地遮挡身形并换乘三辆摩的躲避追捕”,“两名少年被抛出车体后撞上路基防护桩,全身 90% 以上面积烧伤”……
类似的,深度思考版通义千问说车祸涉事车主“体内检测出微量毒品”,还为事故编造了一组数据:“2023年国内新能源汽车火灾事故,61%与碰撞相关”。
这并非孤例,AI的思维链越长,越有可能为了填满推理过程而“编点什么”。国际测试Vectara HHEM(人工智能幻觉测试)指出,深度思考版的DeepSeek显示出14.3%的幻觉率,明显高于通用版DeepSeek的3.9%。这一测试结果引发过行业热议,因为它打破了之前“推理增强能减少幻觉”的业内共识。
为什么会这样?出门问问大模型团队前工程副总裁、Netbase前首席科学家李维曾分析,这跟DeepSeek加强的思维链直接有关。
简单来说,即便面对一个简单的指令,AI也会不厌其烦地从不同角度理解和延伸思维链,为了圆逻辑编出细节,相当于把一个简单明确的任务复杂化了。
但李维也指出,推理能力和AI幻觉之间的关系,并不是简单的正相关或者负相关。DeepSeek的幻觉加重,可能因为在“文科思维链”上用力过猛。李维解释,语言能力可以细分为两类:一类需要高创造力,比如写诗歌和小说;另一类需要高度真实性,比如新闻报道、翻译或摘要。“DeepSeek最受称赞的是前者,这也可能是研发团队的重点方向,但在后者中就出现了副作用。”
对于普通用户来说,理解AI幻觉的这一特点很重要。无论是对AI的回答保持警惕,还是学会验证来源、思考自己到底需不需要用特定版本的AI,都是“避坑”的必要方法。
更多内容请下载21财经APP