推荐
分不清9.9与9.11谁大?大模型数学能力堪忧 业内:或因相关问题非
时间:2024-08-10 21:34
13.11%和13.8%哪个大?9.9和9.11哪个大?
两道小学数学难度的题目难倒了众多主流大模型,在比大小的过程中,不少大模型给出了错误的答案。此外,此前发布的中,主流大模型被要求计算企业营业收入复合增长率时,没有一家大模型计算出正确答案。
7月17日,有大模型企业人士向有大模型企业人士在接受这也并非大模型的数学能力首次受到关注。
6月,上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示,三科总分420分,大模型最高分仅303分,其中语文、英语表现相对良好,数学全不及格。
在此前发布的中,对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中,当被要求计算营业收入复合增长率时,没有一家大模型计算出正确答案。
综合来看,Anthropic Claude 3 Opus表现最为出色,以总分136分高居榜首。该模型在计算题的任务一和任务二中均获得了较高的分数,但在任务三中未能给出正确答案。
幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”,以总分133.4分紧随其后。该模型在计算题的任务一和任务二中同样表现良好,但在任务三中也未能给出正确答案。不过,在计算复合增长率的任务中,尽管其答案有误,但已掌握了正确的公式。
零一万物Yi-Large的总分达到了126.4分,该模型尽管“分析写作题”得分略逊一筹,但在计算题的任务一和任务二中表现稳定,在计算题得分以29.4分领先。此外,该模型在计算复合增长率时,同样给出了错误答案,但也给出了正确的公式。