当前位置:主页 > 聚焦 >

13.8%和13.11%哪个大?《歌手》排名引网友热议!一众大模型竟然

时间:2024-08-10 13:13:46

  7月13日

  最新一期的公布排名

  孙楠得票13.8%

  外国歌手香缇莫得票13.11%。

  引发了网友对排名的质疑

  
 

  
 

  
 

  随后,关于13.8和13.11大小比较的话题,

  迅速冲上微博热搜!

  其实,这个知识点

  在小学四年级的课本中就有答案。

  然而,这道小学生难度的数学题

  也难倒了一众海内外AI大模型。

  据第一财经、财联社等媒体测试,ChatGPT、Kimi、智谱清言、商汤商量、阶跃星辰等大部分大模型应用纷纷翻车,而文心一言、字节豆包等少部分大模型则守住了尊严。

  
 

  值得注意的是,有产业界人士表示,据极目新闻,今年6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,本次评测采用全国新课标Ⅰ卷,其中,语文评卷显示,大模型的现代文阅读理解能力普遍较强,但不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题,虽有针对性,但缺乏修饰,几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于中的一些“潜台词”,大模型也无法完全理解。

  大模型的英语整体表现良好,大模型写的英语作文普遍存在因超出字数限制被扣分的情况,而人类考生大多因为字数不够被扣分。

  据第一财经,一位算法工程师认为,生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性,使得AI在文字创作上达到人类平均水平,而不过,上述问题也正在慢慢被解决,在思维能力上更核心的可能还是训练语料的问题。大语言模型主要通过互联网上的文本数据进行训练,而这些数据中数学问题和解决方案相对较少,导致模型在数学推理和问题解决技能上的训练机会有限。

  值得一提的是,大模型的复杂推理能力尤为重要,这关乎可靠性和准确性,是大模型在金融、工业等场景落地需要的关键能力。

热点推荐
1 DTCC将Stellar纳入代币化证券网络

消息,DTCC宣布将Stellar纳入其代币化证券网络,DTCC的代币化服务将与Stellar公共区块链连接。...

2 微博:AI兴趣用户一年增长328% AI视频生产

消息,微博发布的《微博AI内容生态报告》显示,今年一季度,微博AI兴趣用户相比2024年第四季...

3 彭博社揭秘Anthropic文化面试细节

生成式人工智能巨头Anthropic正在实施极具争议的面试流程,严禁求职者使用人工智能工具作弊...

4 Bybit上线BEUSDT永续合约,支持最高10倍杠杆

消息,Bybit平台宣布全新上线BEUSDT永续合约,现已开放交易,支持最高10倍杠杆。用户可通过合...

5 OKX APP支付协议上线满月,X Layer链上支付

消息,OKX APP支付协议上线满月,x Layer链上支付数据持续增长。根据Dune数据,截至5月28日,x...

6 以太坊跌破2000美元,期货市场创历史新高

消息,以太坊价格在市场风险厌恶情绪加剧的背景下跌破2000美元,为自3月底以来首次。过去七...

7 CFTC请求法院撤销Gemini500万美元和解协议

消息,美国商品期货交易委员会已向法院申请撤销与加密交易所Gemini达成的500万美元和解协议...

8 复旦联合美团LongCat开源交互式世界模型基

消息,复旦大学与美团LongCat团队联合开源交互式世界模型基准WBench,评估视频生成在物理规则...

9 Polymarket考虑加强KYC措施应对全球监管压力

消息,Polymarket平台正在考虑实施更严格的KYC身份验证措施,以应对全球监管机构对预测市场行...

10 传DeepSeek份额抢夺催生SPV通道,海外大厂

消息,DeepSeek在其首轮接近尾声的百亿美元融资谈判中,激烈的份额争夺催生了特殊目的实体...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。