分不清9.9与9.11谁大？大模型数学能力堪忧

时间：2024-08-14 18:11:13

　　13.11%和13.8%哪个大？9.9和9.11哪个大？

　　两道小学数学难度的题目难倒了众多主流大模型，在比大小的过程中，不少大模型给出了错误的答案。此外，此前发布的中，主流大模型被要求计算企业营业收入复合增长率时，没有一家大模型计算出正确答案。

　　7月17日，有大模型企业人士向由综艺节目排名引发的热议蔓延到了大模型领域，也成了一场针对大模型数学能力的小测。

　　在大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示，在比较13.11%和13.8%时，13.11%是更大的数值。这是因为当比较两个百分数时，首先比较整数部分，如果它们相同，则比较小数部分。在这里，两个数的整数部分都是13，但13.11的小数部分11大于13.8的小数部分8，因此13.11%大于13.8%。

　　从推理过程判断，可能由于小数点后数位不同，大模型在比较过程中产生了幻觉。经过两轮提问后，智谱清言给出了正确回答。

　　当万知大模型的推理过程稍显混乱：在比较9.9和9.11时，由于整数部分都是9，所以比较小数点后的第一位数字。9.9的小数点后第一位是9，而9.11的小数点后第一位是1。由于9小于10，所以在比较小数点后第二位数字时，9.9的小数点后第二位是0，而9.11的小数点后第二位是1。因此，9.9的小数点后第二位数字小于9.11的小数点后第二位数字，所以9.9小于9.11。

　　随后，ChatGPT给出的回答显示，出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括：数值理解错误，有时系统可能会误解数字的小数点位置；字符串比较，如果直接按字符串比较，可能会出现错误。因为字符串比较是按字符顺序逐一比较的，而不是按数值比较；代码实现错误，在编程中，可能存在比较逻辑或转换错误。

　　文心一言给出的解答则是，训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面，即大模型在训练过程中，可能接触到了大量包含数字的数据，但这些数据并不总是以比较大小为目的。例如，数字可能出现在版本号、股票代码、基金表现、汇率等上下文中，这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足，模型可能无法学习到正确的比较规则。

　　另一方面，可能由于大模型在处理输入文本时，将数字视为字符序列，而不是具有数值意义的实体。因此，在比较数字大小时，模型可能没有正确地将其转换为数值进行比较。另外，模型在处理小数时可能存在困难，特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。

　　7月17日，有大模型企业人士在接受这也并非大模型的数学能力首次受到关注。

　　6月，上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示，三科总分420分，大模型最高分仅303分，其中语文、英语表现相对良好，数学全不及格。

　　在此前发布的中，对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中，当被要求计算营业收入复合增长率时，没有一家大模型计算出正确答案。

　　综合来看，Anthropic Claude 3 Opus表现最为出色，以总分136分高居榜首。该模型在计算题的任务一和任务二中均获得了较高的分数，但在任务三中未能给出正确答案。

　　幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”，以总分133.4分位列第二。该模型在计算题的任务一和任务二中同样表现良好，但在任务三中也未能给出正确答案。不过，在计算复合增长率的任务中，尽管其答案有误，但已掌握了正确的公式。

　　零一万物Yi-Large的总分达到了126.4分，该模型尽管“分析写作题”得分略逊一筹，但在计算题的任务一和任务二中表现稳定。该模型在计算复合增长率时，同样给出了错误答案，但也给出了正确的公式。

上一篇：出身农民家庭，曾力压三星李在镕登顶韩国首富！科技大佬金范洙涉返回首页

下一篇：上海出口集装箱运价指数13周连涨终结集运回调、海运费迎拐点

热点推荐

1 伊朗外交部长与阿曼苏丹讨论霍尔木兹海

消息，伊朗外交部表示，伊朗外交部长与阿曼苏丹讨论了霍尔木兹海峡的安全及安全通行问题...

2 沉睡钱包在两天内购入7300枚ETH，价值约

一个沉睡了1.6年的钱包在$2,320的价格下购入了3,017枚ETH，花费约700万美元。在接下来的两天内，...

3 OpenClaw v2026.4.24：Google Meet变成AI会议参与

消息，OpenClaw开源AI agent框架发布v2026.4.24，新增Google Meet内置参与插件，agent可用个人Google账号...

4 伊朗外长阿拉格奇将于周日返回伊斯兰堡

巴基斯坦消息人士透露，伊朗外交部长阿拉格奇将于周日返回伊斯兰堡。此前，新德里电视台...

5 Solana基金会主席Lily Liu：通过USDT贷款支持

消息，吴说获悉，Solana基金会主席Lily Liu表示，已通过向AAVE提供USDT贷款参与其恢复方案，以支...

6 drift产品负责人：计划于5月或6月重启交易

drift产品负责人minhdonz在其官方Discord上发文表示，drift近期更新了其重启时间线月重新推出其分...

7 tradoor代币疑似存在高度操纵和清洗交易

消息，据链上分析师specter监测，衍生品交易平台tradoor的代币tradoor疑似存在高度操纵和清洗交...

8 Binance SHIB代币储备达61.8万亿，市场信号混

Binance的SHIB代币储备已达到61.8万亿枚，持有者数量增加了1万人。尽管面临卖压和混合信号，...

9 百度智能云上线DeepSeek

消息，百度智能云于4月24日正式上线并开源deepseek-v4预览版，旗下百度千帆平台day0适配。deep...

分不清9.9与9.11谁大？ 大模型数学能力堪忧

时间：2024-08-14 18:11:13

分不清9.9与9.11谁大？大模型数学能力堪忧