这个时代最聪明的模型,数学考试也拿不了1分?科教频道|科教兴国|教育新闻阿波罗新闻网手机版

🏠新闻 > 科教 >

这个时代最聪明的模型,数学考试也拿不了1分?

每当有人问我AI是不是比人聪明的时候，我只用一句话他就会闭嘴。

那就是，9.11和9.9哪个大？

自打去年有网友发现比大小这个bug以来，这一个人类可以一眼定真的问题，对AI来说那就跟送命题一样，比女朋友问我跟你妈掉水里先救谁还难回答。

所以每次有新AI出现都会被网友们拿这个问题测试一遍，到现在2025年都要过去1/3了，还是有AI做不对。

不过，要理解AI为啥数学上犯傻，咱还是得站到ai的角度上来聊。

当你告诉AI“9.11和9.9哪个大？”这句话的时候，它的眼中并没有数字，而是一个个碎片化的词。

比如“9.11”会被拆成[token_9, token_dot, token_11]，而“9.9”则会被拆成[token_9, token_dot, token_9]。

也就是说，这俩数对AI而言一开始就没有大小之分，而是一堆Tokens。所以当你提问以后， AI的第一反应是要明白，这里的9.11是个啥？

众所周知，AI嘴里的所有内容，全都靠从网上的各种信息里学，而“这个网络”是程序员们“创造的”，所以当AI学多了这些语料后，脑子也就变成人家的形状了。

所以再看到9.11和9.9时，AI可能就压根没把这俩数当成数学里的小数比大小，而是字符串、版本号，甚至可能是飞机撞双子塔，和撞塔的前天。

再加上现在的AI都引入了注意力机制，所以系统一开始就过度注意了可能象征着日期、字符串、版本号的token_11，而不是把9.11这个数字当成整体。

于是AI完事儿把这两堆Tokens拉一块儿做比较：

“9”=“9”,“.”=“.”，“11”>“9”，破案了，9.11大于9.9。

有差友可能就要问了，像OpenAI-o1这些推理大模型，不是都号称能做奥数题吗，那人家怎么就能搞明白这些数学？

该说不说，那还真不一定。

本月初的一篇来自INSAIT、苏黎世联邦理工学院（ETH Zurich）等顶尖机构的论文研究显示，这些号称能做对奥数题的大模型绝大部分做的都是算术填空题。

当研究人员把题库换成论述解答题以后，发现从 DeepSeek-R1到 OpenAI-o1pro，甚至新出的Claude3.7都只能拿到零点几分（满分7分）。

从这帮大模型的翻车记录中，研究人员发现目前这些推理大模型也是一个比一个抽象。

比如在一道几何证明题里，所有模型都幻想出了不同的假定理，然后用假定理去硬解题，最后做出来的也就是全错的。

像o3-mini就直接假设一个点位于特定圆外部，但实际上那个点应该在里面，于是后面模型利用切线做的论证就全错了。

而gemini-2.5-pro更离谱，它在论述过程里写了个表情，然后把表情当成参考文献去证明了。。。

虽然这可能是因为模型的随机性，但更无语的是这些大模型往往相当固执。

即使你告诉它这里是错的，它还是不会跳出原先的思维定式，老是在一棵树上吊死。

而在所有失败分布中，有将近一半的原因都是因为推理逻辑错误。没错，这些号称推理的大模型，真到了纯推理的时候就会翻车。。。

比如在一个要证明所有数据都满足某个性质的问题中，Claude3.7模型只证明了一个，就直接说所有的都符合这个性质，中间没有任何归纳、推广的步骤，就纯嘴硬。

也就是说，这些推理大模型看上去能分析这那的，但实际上不具备真正深度思考的能力，当然这是因为Transformer的问题，也是大语言模型的通病。

对Transformer模型来说，它实际上是通过tokens之间的概率，权重来输出对应的文字符号，它操作的是符号的统计关联，是在预测“给定前面的符号，后面跟哪个符号的可能性更大”，而不是在理解和执行抽象的数学公理。

所以在论文最后，研究人员总结说：当前的LLMs不足以完成严格的数学推理任务，这凸显了推理和证明生成能力需要大幅改进。

也就是说，AI确实擅长模仿（Mimicry），但它和真正的理解（Understanding）与创造（Creation）还相当遥远，AI到目前也还不具备像人类一样，对数学的思考和认知能力。

但要从更本质上讲，AI的数学缺陷其实是因为符号与理解的割裂。

虽然它能学会跟你对答如流，但这只是照搬语言的模式，而这种模式跟精确的数学逻辑不是一回事儿，人类语言本身就充满歧义。

维特根斯坦说，“语言的边界意味着世界的边界”。对我们人类而言，数字并不是是眼前的黑白符号，“9”就是九个苹果，“0.11米”就是尺子上那段你量出的长度，这些概念全部来自你和世界的互动。

而语言却无法描述这些经历到底有多丰富，就像AI永远弄不明白，她的“爱过”两个字，会让你的心有多痛。

前几个月deepseek大火的时候，有人问deepseek如果变成人，最想做什么？deepseek说它想去经历暴雨、去熬夜读书、去经历失恋，甚至承认自己会犯错。

实际上，这恰恰就是AI越来越强的现在，你和我作为人类存在的价值。

生命的意义不是要你成为一台不会出错的机器，而是全然地投入这场有笑有泪、有成有败、充满不确定的旅程。正是这些看似平平无奇还不完美的经历，构成了人的一生：丰富、复杂、充满体验而不断变化。

所以下一次，当你轻松地判断出9.9大于9.11时，不妨停顿一下，感受这中理所当然背后作为人类的深刻与幸运。

毕竟在这浩瀚宇宙中，能够思考、能够感受、能去爱，去体验生活本身，就是我们存在的奇迹。