阿波罗新闻网手机版
  新闻 |  评论 |  生活 |  新鲜事 |  娱乐 |  禁闻排行
🏠新闻 > 科教 >

这个时代最聪明的模型,数学考试也拿不了1分?

每当有人问我AI是不是比人聪明的时候,我只用一句话他就会闭嘴。

那就是,9.11和9.9哪个大?

自打去年有网友发现比大小这个bug以来,这一个人类可以一眼定真的问题,对AI来说那就跟送命题一样,比女朋友问我跟你妈掉水里先救谁还难回答。

所以每次有新AI出现都会被网友们拿这个问题测试一遍,到现在2025年都要过去1/3了,还是有AI做不对。

不过,要理解AI为啥数学上犯傻,咱还是得站到ai的角度上来聊。

当你告诉AI“9.11和9.9哪个大?”这句话的时候,它的眼中并没有数字,而是一个个碎片化的词。

比如“9.11”会被拆成[token_9, token_dot, token_11],而“9.9”则会被拆成[token_9, token_dot, token_9]。

也就是说,这俩数对AI而言一开始就没有大小之分,而是一堆Tokens。所以当你提问以后, AI的第一反应是要明白,这里的9.11是个啥?

众所周知,AI嘴里的所有内容,全都靠从网上的各种信息里学,而“这个网络”是程序员们“创造的”,所以当AI学多了这些语料后,脑子也就变成人家的形状了。

所以再看到9.11和9.9时,AI可能就压根没把这俩数当成数学里的小数比大小,而是字符串、版本号,甚至可能是飞机撞双子塔,和撞塔的前天。

再加上现在的AI都引入了注意力机制,所以系统一开始就过度注意了可能象征着日期、字符串、版本号的token_11,而不是把9.11这个数字当成整体。

于是AI完事儿把这两堆Tokens拉一块儿做比较:

“9”=“9”,“.”=“.”,“11”>“9”,破案了,9.11大于9.9。

有差友可能就要问了,像OpenAI-o1这些推理大模型,不是都号称能做奥数题吗,那人家怎么就能搞明白这些数学?

该说不说,那还真不一定。

本月初的一篇来自INSAIT、苏黎世联邦理工学院(ETH Zurich)等顶尖机构的论文研究显示,这些号称能做对奥数题的大模型绝大部分做的都是算术填空题。

当研究人员把题库换成论述解答题以后,发现从 DeepSeek-R1到 OpenAI-o1pro,甚至新出的Claude3.7都只能拿到零点几分(满分7分)。

从这帮大模型的翻车记录中,研究人员发现目前这些推理大模型也是一个比一个抽象。

比如在一道几何证明题里,所有模型都幻想出了不同的假定理,然后用假定理去硬解题,最后做出来的也就是全错的。

像o3-mini就直接假设一个点位于特定圆外部,但实际上那个点应该在里面,于是后面模型利用切线做的论证就全错了。

而gemini-2.5-pro更离谱,它在论述过程里写了个表情,然后把表情当成参考文献去证明了。。。

虽然这可能是因为模型的随机性,但更无语的是这些大模型往往相当固执。

即使你告诉它这里是错的,它还是不会跳出原先的思维定式,老是在一棵树上吊死。

而在所有失败分布中,有将近一半的原因都是因为推理逻辑错误。没错,这些号称推理的大模型,真到了纯推理的时候就会翻车。。。

比如在一个要证明所有数据都满足某个性质的问题中,Claude3.7模型只证明了一个,就直接说所有的都符合这个性质,中间没有任何归纳、推广的步骤,就纯嘴硬。

也就是说,这些推理大模型看上去能分析这那的,但实际上不具备真正深度思考的能力,当然这是因为Transformer的问题,也是大语言模型的通病。

对Transformer模型来说,它实际上是通过tokens之间的概率,权重来输出对应的文字符号,它操作的是符号的统计关联,是在预测“给定前面的符号,后面跟哪个符号的可能性更大”,而不是在理解和执行抽象的数学公理。

所以在论文最后,研究人员总结说:当前的LLMs不足以完成严格的数学推理任务,这凸显了推理和证明生成能力需要大幅改进。

也就是说,AI确实擅长模仿(Mimicry),但它和真正的理解(Understanding)与创造(Creation)还相当遥远,AI到目前也还不具备像人类一样,对数学的思考和认知能力。

但要从更本质上讲,AI的数学缺陷其实是因为符号与理解的割裂。

虽然它能学会跟你对答如流,但这只是照搬语言的模式,而这种模式跟精确的数学逻辑不是一回事儿,人类语言本身就充满歧义。

维特根斯坦说,“语言的边界意味着世界的边界”。对我们人类而言,数字并不是是眼前的黑白符号,“9”就是九个苹果,“0.11米”就是尺子上那段你量出的长度,这些概念全部来自你和世界的互动。

而语言却无法描述这些经历到底有多丰富,就像AI永远弄不明白,她的“爱过”两个字,会让你的心有多痛。

前几个月deepseek大火的时候,有人问deepseek如果变成人,最想做什么?deepseek说它想去经历暴雨、去熬夜读书、去经历失恋,甚至承认自己会犯错。

实际上,这恰恰就是AI越来越强的现在,你和我作为人类存在的价值。

生命的意义不是要你成为一台不会出错的机器,而是全然地投入这场有笑有泪、有成有败、充满不确定的旅程。正是这些看似平平无奇还不完美的经历,构成了人的一生:丰富、复杂、充满体验而不断变化。

所以下一次,当你轻松地判断出9.9大于9.11时,不妨停顿一下,感受这中理所当然背后作为人类的深刻与幸运。

毕竟在这浩瀚宇宙中,能够思考、能够感受、能去爱,去体验生活本身,就是我们存在的奇迹。

编辑:李华😎日期:04-16
来源:差评
AI 数学
深度揭秘:杀死哈梅内伊的,不只是导弹 2026-03-02
微软披露最易受AI冲击的40个职业 2026-03-01
中国奥数:一种来自前苏联的遗毒(组图) 2026-03-01
利润暴涨却裁40%!万人大厂寒意刺骨(图集) 2026-02-28
软件股暴跌背后的大逻辑 下一个将轮到谁?(图) 2026-02-26
Citrini报告吓窒华尔街 AI颠覆论引爆血洗 IBM重创25年最伤(图) 2026-02-25
进厂打工没人要的机器人,全在外面接商演(图) 2026-02-25
AI赛道红包战折戟 腾讯元宝烧光10亿后下载暴跌(图) 2026-02-25
当智能不再稀缺:2028年全球智能危机的五个残酷启示(图) 2026-02-25
AI上美军F-35!“守望先锋”锁定未知目标 战机升级 2026-02-24
8个月前AI就知道他要杀人!ChatGPT选择沉默(图集) 2026-02-24
重磅怒控!美国巨头 撕开中共国AI面具(图) 2026-02-24
过了年发现,MIT教授的最新警告成真了(组图) 2026-02-23
共军1万机器人大军来袭?全球震惊后惊天反转(图集) 2026-02-23
马斯克说,OpenAI在训练AI撒谎(视频) 2026-02-22
阿波罗新闻网手机版