值得信赖的区块链资讯!
Google AI搜索翻车实录:高频错误背后的“准确率幻觉”
作者:克洛德,深潮 TechFlow
原文标题:每小时数千万条错误,调查揭露Google AI搜索的“准确率幻觉”
深潮导读:《纽约时报》联合 AI 初创公司 Oumi 的最新测试显示,Google 搜索的 AI 摘要功能(AI Overviews)准确率约为 91%,但以 Google 年处理 5 万亿次搜索的体量换算,这意味着每小时产生数千万条错误答案。更棘手的是,即便答案正确,超过半数的引用链接也无法支撑其结论。
Google 正在以前所未有的规模向用户输送错误信息,而大多数人毫不知情。
据《纽约时报》报道,AI 初创公司 Oumi 受其委托,使用 OpenAI 开发的行业标准测试 SimpleQA 对 Google 的 AI Overviews 功能进行了准确性评估。测试覆盖 4326 次搜索查询,分别在去年 10 月(Gemini 2 驱动)和今年 2 月(升级至 Gemini 3 后)各进行一轮。结果显示,Gemini 2 的准确率约为 85%,Gemini 3 提升至 91%。
91%听起来不错,但放到 Google 的体量上就是另一回事。Google 每年处理约 5 万亿次搜索查询,按 9%的错误率计算,AI Overviews 每小时产生超过 5700 万条不准确的答案,每分钟接近 100 万条。
答案对了,来源却是错的
比准确率更令人不安的是引用来源的「脱锚」问题。
Oumi 的数据显示,Gemini 2 时代,37%的正确回答存在「无根据引用」问题,即 AI 摘要所附链接并不支持其给出的信息。升级到 Gemini 3 后,这一比例不降反升,跳增至 56%。换言之,模型在给出正确答案的同时,越来越不会「交作业」。
Oumi CEO Manos Koukoumidis 的质疑直指要害:「即便答案是对的,你怎么知道它是对的?你怎么去验证?」
AI Overviews 大量引用低质量来源加剧了这一问题。Oumi 发现,Facebook 和 Reddit 分别是 AI Overviews 第二和第四大引用来源。在不准确的回答中,Facebook 被引用的频率达到 7%,高于准确回答中的 5%。
BBC 记者一篇假文章,24 小时内「投毒」成功
AI Overviews 的另一个严重缺陷是极易被操纵。
一名 BBC 记者用一篇刻意编造的虚假文章进行测试,不到 24 小时,Google 的 AI 摘要便将其中的虚假信息作为事实呈现给用户。
这意味着任何了解系统运作机制的人,都可能通过发布虚假内容并推高其流量来「投毒」AI 搜索结果。Google 发言人 Ned Adriance 对此的回应是,搜索 AI 功能建立在与屏蔽垃圾信息相同的排名和安全机制上,并称测试中的「大多数例子都是人们实际不会搜索的不切实际的查询」。
Google 反驳:测试本身就有问题
Google 对 Oumi 的研究提出了多项质疑。Google 发言人称该研究「存在严重漏洞」,理由包括:SimpleQA 基准测试本身包含不准确信息;Oumi 使用自家 AI 模型 HallOumi 来评判另一个 AI 的表现,可能引入额外误差;测试内容不反映用户的真实搜索行为。
Google 内部测试也显示,Gemini 3 在脱离 Google 搜索框架独立运行时,产生虚假输出的比例高达 28%。但 Google 强调,AI Overviews 借助搜索排名系统来提升准确性,表现优于模型本身。
不过,正如 PCMag 评论所指出的逻辑悖论:如果你的辩护理由是「指出我们 AI 不准确的报告本身也用了可能不准确的 AI」,这恐怕并不能增强用户对你产品准确性的信心。
Twitter:https://twitter.com/BitpushNewsCN
比推 TG 交流群:https://t.me/BitPushCommunity
比推 TG 订阅: https://t.me/bitpush
比推快讯
更多 >>- Payward 拟 5.5 亿美元收购 Bitnomial,加速布局美国合规衍生品市场
- SpaceX 提前员工股权解锁时间,以为 IPO 做准备
- 伊朗局势升级波及科技行业,美国科技巨头加码游说应对风险
- 中央网信办:加强人工智能、数字经济、区块链等领域立法
- 彭博社:SpaceX IPO 预计在 6 月 15 日当周定价
- 矿企 TeraWulf 完成约 10.36 亿美元股票发行,用于数据中心建设及债务偿还
- Owlto Finance 开启避风港行动,支持大额资产从非活跃链极速撤离
- 分析:比特币逼近 7.6 万美元但市场情绪仍处“极度恐惧”
- 美参议员:沃什是特朗普本届任期内第一位不符道德规范的美联储主席提名人
- 比特币矿企 TeraWulf 完成约 10.35 亿美元配股募资
- Intchains Group 已质押 8,040 枚 ETH,拟加速 AI 赋能运营转型
- 财新:孙宇晨与特朗普总统家族关系一切正常,但是谴责 WLFI 执行团队
- 美参议员质询司法部与财政部:Binance 合规监察机制进展存疑
- Telegram 创始人:欧盟“年龄验证应用”可被快速攻破,应保持警惕
- SlowMist 发出安全预警,伪造 “Harmony Voice” 软件正被用于社交工程攻击
- 分析:美伊谈判前景仍不确定,黄金上行空间或受限
- BRC-20 板块代币小幅回调,SATS 1 小时下跌 5.3%
- 伊副外长:伊朗要求彻底结束整个地区的冲突
- 高盛:美股涨势需货币政策支持才能持续
- 比特币涨势动能减弱,市场转向关注实际经济修复进展
- 参议员就币安伊朗相关资金流动问题向美国司法部和财政部施压
- 某交易员持仓 ASTEROID 580 天获利 37 万美元,期间仓位一度归零
- Polymarket 上比特币今年触及 8 万美元概率为 86%,跌破 5 万美元概率为 47%
- 主流 Perp DEX 一览:Hyperliquid 交易量回落 16%,TradeXYZ 周交易量降至 3 月水平
- 特朗普在伊朗谈判中释放灵活信号
- Xiaomi miclaw 通过首批中国信通院可信 AI 手机端智能助手(Claw)评测
- 图解 Anchorage 78 家 Web3 业务伙伴:连接华尔街与链上世界的金融桥梁
- Hyperliquid 昨日收入 327 万美元,创 2 月 7 日以来新高
- AXIOS:Anthropic 公司首席执行官将于周五在白宫会见白宫幕僚长
- 麻吉在现价附近挂出 ETH 止盈单,止盈区间上探至 2425 美元
- 比特币 RHODL 比率升至历史第三高,或预示比特币底部已形成
- 自 Drift Protocol 遭黑客攻击以来,至少有十几个加密实体遭到攻击
- CoinGecko 报告:2026 年 Q1 加密货币总市值下跌 20.4%,CEX 交易量下降 39%
- 新加坡海湾银行推出稳定币铸造与赎回服务,支持企业跨境即时结算
- SIREN 在跌至 0.25 USDT 低点后反弹至 0.7 USDT
- 若 BTC 续涨至 7.64 万美元,链上 BTC 最大空头的 7800 万空单将被清算
- 数据:BTC 突破 76000 美元
- BTC 突破 76000 USDT,24H 涨幅 1.56%
- 数据:过去 1 小时 Binance 净流出 4,699.56 万 USDT
- 德商银行:预计到年底银价将达到每盎司 90 美元
- Strategy 比特币持仓扭亏为盈,目前浮盈约 2.32 亿美元
- 某巨鲸通过 OTC 购买 450 万枚 LDO,价值 186 万美元
- 受币安下架消息影响,DEGO、DENT、TRU 均短时跌超 20%
- 某巨鲸 40 倍做多 BTC:挂单计划 7.7 万美元处止盈,以 7.42 万美元清算线被动止损
- RootData:SOSO 将于一周后解锁价值约 688 万美元的代币
- 币安将下架 DEGO、DENT、TRU 交易对
- SIREN 涨超 174%后暴跌 88%至 0.271 美元,过去 24 小时爆仓 714 万美元
- 港交所发布有关缩短香港股票现货市场结算周期的谘询文件
- SIREN 短时暴跌 80%,日内跌超 46%
- 韩国议员呼吁优先推进稳定币立法,避免股权限制争议延误进程
比推专栏
更多 >>观点
比推热门文章
- 分析:比特币逼近 7.6 万美元但市场情绪仍处“极度恐惧”
- 美参议员:沃什是特朗普本届任期内第一位不符道德规范的美联储主席提名人
- 比特币矿企 TeraWulf 完成约 10.35 亿美元配股募资
- Intchains Group 已质押 8,040 枚 ETH,拟加速 AI 赋能运营转型
- 财新:孙宇晨与特朗普总统家族关系一切正常,但是谴责 WLFI 执行团队
- 美参议员质询司法部与财政部:Binance 合规监察机制进展存疑
- Telegram 创始人:欧盟“年龄验证应用”可被快速攻破,应保持警惕
- SlowMist 发出安全预警,伪造 “Harmony Voice” 软件正被用于社交工程攻击
- 分析:美伊谈判前景仍不确定,黄金上行空间或受限
- BRC-20 板块代币小幅回调,SATS 1 小时下跌 5.3%
比推 APP


