兴中资讯

聚焦

AI搜索“翻车”,准确率仅六成还“[*]不认错”

时间:2025-03-15 22:41

  据外媒Techspot报道,哥伦比亚大学数字新闻研究中心对八款 AI 搜索引擎展开了一场全面研究,涉及 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。此次研究聚焦于各引擎的准确性,以及它们拒绝回答问题的频率。

  研究人员从 20 家新闻机构里,每家随机挑选 10 篇报道,这些报道在谷歌搜索时都能排到前三位。随后,研究人员用同样的查询方式对各 AI 搜索工具进行测试,主要评估它们是否能正确引用文章内容、新闻机构名称和原始链接。

  结果令人大跌眼镜。除了 Perplexity 及其付费版,其他 AI 搜索引擎的表现都不太理想。整体而言,AI 搜索引擎给出的答案,准确率仅 60%。更让人担忧的是,即便答案错误,AI 还表现得非常 “自信”,这让问题变得更加严重。

  这一研究用具体数据证实了人们长久以来的顾虑:大语言模型不仅容易出错,还会理直气壮地输出错误信息,面对质疑也不轻易 “低头”。就拿 ChatGPT 来说,就算它承认了错误,后续回答时仍可能继续编造内容。在大语言模型的机制里,似乎默认要 “有问必答”。像 ChatGPT Search 虽然回答了全部 200 个新闻查询,但 “完全正确” 的比例只有 28%,“完全错误” 率却高达 57% 。

  在这八款工具中,ChatGPT 还不是表现最差的。X 旗下的 Grok AI 表现堪称糟糕,其中 Grok-3 Search 的错误率竟然高达 94%。微软 Copilot 同样问题多多,200 次查询中有 104 次拒绝回答,剩下的 96 次里,“完全正确” 的仅有 16 次,“部分正确” 14 次 ,“完全错误” 多达 66 次,总体错误率接近 70%。