13.8%和13.11%哪个大？《歌手》排名引网友热议！一众大模型竟然

时间：2024-08-10 13:13:46

　　7月13日

　　最新一期的公布排名

　　孙楠得票13.8%

　　外国歌手香缇莫得票13.11%。

　　引发了网友对排名的质疑

　　随后，关于13.8和13.11大小比较的话题，

　　迅速冲上微博热搜！

　　其实，这个知识点

　　在小学四年级的课本中就有答案。

　　然而，这道小学生难度的数学题

　　也难倒了一众海内外AI大模型。

　　据第一财经、财联社等媒体测试，ChatGPT、Kimi、智谱清言、商汤商量、阶跃星辰等大部分大模型应用纷纷翻车，而文心一言、字节豆包等少部分大模型则守住了尊严。

　　值得注意的是，有产业界人士表示，据极目新闻，今年6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，本次评测采用全国新课标Ⅰ卷，其中，语文评卷显示，大模型的现代文阅读理解能力普遍较强，但不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题，虽有针对性，但缺乏修饰，几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于中的一些“潜台词”，大模型也无法完全理解。

　　大模型的英语整体表现良好，大模型写的英语作文普遍存在因超出字数限制被扣分的情况，而人类考生大多因为字数不够被扣分。

　　据第一财经，一位算法工程师认为，生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性，使得AI在文字创作上达到人类平均水平，而不过，上述问题也正在慢慢被解决，在思维能力上更核心的可能还是训练语料的问题。大语言模型主要通过互联网上的文本数据进行训练，而这些数据中数学问题和解决方案相对较少，导致模型在数学推理和问题解决技能上的训练机会有限。

　　值得一提的是，大模型的复杂推理能力尤为重要，这关乎可靠性和准确性，是大模型在金融、工业等场景落地需要的关键能力。

上一篇：创新药概念震荡反弹诺思格涨超10% 返回首页

下一篇：英唐智控：公司的MEMS微振镜可以应用于车载激光雷达、工业、机器

热点推荐

1 DTCC将Stellar纳入代币化证券网络

消息，DTCC宣布将Stellar纳入其代币化证券网络，DTCC的代币化服务将与Stellar公共区块链连接。...

2 微博：AI兴趣用户一年增长328% AI视频生产

消息，微博发布的《微博AI内容生态报告》显示，今年一季度，微博AI兴趣用户相比2024年第四季...

3 彭博社揭秘Anthropic文化面试细节

生成式人工智能巨头Anthropic正在实施极具争议的面试流程，严禁求职者使用人工智能工具作弊...

4 Bybit上线BEUSDT永续合约，支持最高10倍杠杆

消息，Bybit平台宣布全新上线BEUSDT永续合约，现已开放交易，支持最高10倍杠杆。用户可通过合...