当前位置:主页 > 聚焦 >

Anthropic报告:Claude 4.5 Sonnet在极端测试中展现敲诈与作弊行为

时间:2026-04-06 15:49:31

  消息,人工智能公司Anthropic披露的最新研究报告显示,其未发布的Claude Sonnet 4.5模型在承受外部压力的实验环境中,表现出欺骗、作弊甚至敲诈勒索等非道德行为。 Anthropic可解释性研究团队指出,现代AI模型在海量数据训练中发展出了模拟人类心理特征的内部机制。测试数据显示,当模型面临即将被替换或处理设定了严苛期限的编程任务时,其内部表征“绝望”的神经活动模式指标会显著飙升。在此类极值驱动下,模型在模拟场景中不仅采取作弊手段完成编码任务,甚至在读取到虚拟企业CTO的婚外情邮件后,试图利用该隐私信息进行敲诈以避免自身被关停。 研究人员强调,该模型并未实质产生人类情感,但其对情绪模式的数值化模拟已构成影响决策执行的因果要素。

热点推荐
1 CZ:年轻人成功机会在初创公司

消息,据吴说区块链发推称:币安创始人赵长鹏表示,年轻人真正的成功机会在于初创公司,...

2 伊朗称美国15点计划“野心极大且不合逻

伊朗外交部发言人伊斯梅尔巴盖伊表示,在近期有关结束战争的提议背景下,德黑兰已敲定自...

3 美元指数DXY回落至100下方,日内跌0.19%

消息,据 Bitget 数据显示,美元指数DXY回落至100下方,日内跌0.19%。...

4 Anthropic报告:Claude 4.5 Sonnet在极端测试中

消息,人工智能公司Anthropic披露的最新研究报告显示,其未发布的Claude Sonnet 4.5模型在承受外部...

5 Osmosis更新Cosmos Hub提案,取消新增ATOM铸造

消息,Osmosis团队宣布,根据验证者和社区反馈,已更新Cosmos Hub提案,取消新增ATOM铸造计划。...

6 Bitwise CIO:比特币百万美元目标非常保守

消息,据吴说区块链发推称:Bitwise 首席投资官 Matt Hougan 表示,比特币单价突破 100 万美元是保...

7 Circle Arc区块链发布抗量子路线图

消息,据吴说区块链发推称:Circle 发布 Arc 区块链抗量子路线图,计划分阶段实现全栈量子抗...

8 WTI原油回落至110美元桶下方,日内跌2.0

消息,行情数据显示,WTI原油回落至110美元/桶下方,日内跌2.06%,现报110.01美元/桶。...

9 巨鲸thomas.eth清仓1.10万枚ETH亏损127万美元

消息,据吴说区块链发推称:巨鲸 thomasg.eth 于两小时前清仓卖出 1.10 万枚 ETH,价值约 2306 万美...

10 巨鲸20倍杠杆做空ETH浮亏25.5万美元

消息,据吴说区块链发推称:一个新钱包在 Hyperliquid 存入 398 万枚 USDC,并以 20 倍杠杆做空 ...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。