分不清9.9与9.11谁大？大模型数学能力堪忧业内：或因相关问题非

　　13.11%和13.8%哪个大？9.9和9.11哪个大？

　　两道小学数学难度的题目难倒了众多主流大模型，在比大小的过程中，不少大模型给出了错误的答案。此外，此前发布的中，主流大模型被要求计算企业营业收入复合增长率时，没有一家大模型计算出正确答案。

　　7月17日，有大模型企业人士向有大模型企业人士在接受这也并非大模型的数学能力首次受到关注。

　　6月，上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示，三科总分420分，大模型最高分仅303分，其中语文、英语表现相对良好，数学全不及格。

　　在此前发布的中，对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中，当被要求计算营业收入复合增长率时，没有一家大模型计算出正确答案。

　　综合来看，Anthropic Claude 3 Opus表现最为出色，以总分136分高居榜首。该模型在计算题的任务一和任务二中均获得了较高的分数，但在任务三中未能给出正确答案。

　　幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”，以总分133.4分紧随其后。该模型在计算题的任务一和任务二中同样表现良好，但在任务三中也未能给出正确答案。不过，在计算复合增长率的任务中，尽管其答案有误，但已掌握了正确的公式。

　　零一万物Yi-Large的总分达到了126.4分，该模型尽管“分析写作题”得分略逊一筹，但在计算题的任务一和任务二中表现稳定，在计算题得分以29.4分领先。此外，该模型在计算复合增长率时，同样给出了错误答案，但也给出了正确的公式。

热点推荐

1 ETF资金流出：BTC和ETH近一周净流出超5,7

消息，Lookonchain更新数据显示，截至6月23日，ETF近1天净流出781枚BTC，价值约4859万美元近7天净流...

消息，德意志银行分析称，比特币跌破6万美元受美联储鹰派立场、ETF资金流出及AI领域资本虹...

OKX欧洲首席执行官Erald Ghoos表示，约80%的加密货币交易所无法在MICA法规下生存。欧洲证券及市...

消息，据据数据显示，近24小时SPCX永续合约爆仓金额超过7600万美元，在加密衍生品爆仓规模中...

消息，欧洲议会投票通过了数字欧元法律框架，旨在减少对美国信用卡和稳定币巨头的依赖。...

香港警方破获一宗跨境洗黑钱案件，涉案集团于2024年6月至9月期间利用43个香港银行账户处理...

消息，分析师指出，人工智能对内存的需求可能使内存制造商的股票上涨十倍。研究者Zeitgei...

消息，Gate近期进一步完善内部AI coding福利体系，持续加大对员工AI生产力工具的投入。公司支...

消息，谷歌正在支持一项面向离职员工创办人工智能初创企业的孵化计划，该项目为期12周，由...

消息，abcde联创杜均表示，加密领域回到了比特币白皮书里的支付叙事，将继续投资加密领域，...

分不清9.9与9.11谁大？大模型数学能力堪忧 业内：或因相关问题非