13.11%和13.8%哪个大?9.9和9.11哪个大?
两道小学数学难度的题目难倒了众多主流大模型,在比大小的过程中,不少大模型给出了错误的答案。此外,此前发布的中,主流大模型被要求计算企业营业收入复合增长率时,没有一家大模型计算出正确答案。
7月17日,有大模型企业人士向有大模型企业人士在接受这也并非大模型的数学能力首次受到关注。
6月,上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示,三科总分420分,大模型最高分仅303分,其中语文、英语表现相对良好,数学全不及格。
在此前发布的中,对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中,当被要求计算营业收入复合增长率时,没有一家大模型计算出正确答案。
综合来看,Anthropic Claude 3 Opus表现最为出色,以总分136分高居榜首。该模型在计算题的任务一和任务二中均获得了较高的分数,但在任务三中未能给出正确答案。
幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”,以总分133.4分紧随其后。该模型在计算题的任务一和任务二中同样表现良好,但在任务三中也未能给出正确答案。不过,在计算复合增长率的任务中,尽管其答案有误,但已掌握了正确的公式。
零一万物Yi-Large的总分达到了126.4分,该模型尽管“分析写作题”得分略逊一筹,但在计算题的任务一和任务二中表现稳定,在计算题得分以29.4分领先。此外,该模型在计算复合增长率时,同样给出了错误答案,但也给出了正确的公式。
消息,Lookonchain更新数据显示,截至6月23日,ETF近1天净流出781枚BTC,价值约4859万美元近7天净流...
2 德意志银行分析比特币跌破6万美元的原因消息,德意志银行分析称,比特币跌破6万美元受美联储鹰派立场、ETF资金流出及AI领域资本虹...
3 OKX欧洲首席执行官:约80%加密交易所无法OKX欧洲首席执行官Erald Ghoos表示,约80%的加密货币交易所无法在MICA法规下生存。欧洲证券及市...
4 近24小时SPCX永续合约爆仓金额超7600万美元消息,据据数据显示,近24小时SPCX永续合约爆仓金额超过7600万美元,在加密衍生品爆仓规模中...
5 欧洲议会投票通过数字欧元法律框架消息,欧洲议会投票通过了数字欧元法律框架,旨在减少对美国信用卡和稳定币巨头的依赖。...
6 香港警方破获2.3亿港元洗钱案,一名内地香港警方破获一宗跨境洗黑钱案件,涉案集团于2024年6月至9月期间利用43个香港银行账户处理...
7 AI需求可能使内存股上涨10倍,SK海力士超消息,分析师指出,人工智能对内存的需求可能使内存制造商的股票上涨十倍。研究者Zeitgei...
8 Gate:支持全员学习使用AI coding并提供报销消息,Gate近期进一步完善内部AI coding福利体系,持续加大对员工AI生产力工具的投入。公司支...
9 谷歌借助员工校友网络支持AI初创孵化计消息,谷歌正在支持一项面向离职员工创办人工智能初创企业的孵化计划,该项目为期12周,由...
10 杜均:将继续投资加密领域,区块链终将消息,abcde联创杜均表示,加密领域回到了比特币白皮书里的支付叙事,将继续投资加密领域,...
成都来彰科技 蜀ICP备2025134723号-1
资讯来源互联网,如有版权问题请联系管理员删除。