当前位置:主页 > 推荐 >

Anthropic Claude测试:复杂任务表现出色,基本操作待提升

时间:2024-11-28 08:25:09

  研究人员对Anthropic Claude的“电脑使用”功能进行了测试,发现其在执行复杂任务时表现出色,但在基本操作上常出错。测试任务包括网页查找、工作流程完成、办公室生产力和电玩游戏等,评估了Claude的规划、移动和评估能力。

  尽管Claude能协调不同应用程序,如复制网页信息至试算表,但在执行基本操作时,如向下滚动网页以找到按钮,却常常失败。研究人员认为,Claude可能未意识到错误或误判任务失败原因,反映出模型的自我评估机制不足。

  由于Claude的AI代理功能尚无法完全复制人类电脑使用习惯,且存在安全风险,因此大规模部署时机未到。目前该功能仅适用于升级版Claude 3.5 Sonnet模型,并以API形式开放测试。

  Anthropic创始人呼吁AI公司模型接受强制性安全测试,但测试方式需保持弹性,以应对技术快速变化。目前尚无机制验证公司是否遵守安全政策。

热点推荐
1 普京:俄罗斯将全力推动中东尽快实现和

俄罗斯总统普京于27日在圣彼得堡会见伊朗外交部长阿拉格齐时表示,俄罗斯将全力推动中东地...

2 Paystand推出USDB稳定币,推动B2B金融上链

Paystand宣布推出USDB,这是一种专为商业规模的业务金融设计的稳定币,涵盖应收账款、应付账...

3 ZEC最大空头:BTC空单增持至5.62枚,持仓规

消息,据HyperInsight监测,BTC空单在滚仓中增持5.62枚,约合409,277.03美元,持仓规模达到2,275,88...

4 加拿大政治加密捐款禁令获得关键投票支

加拿大提议的政治加密捐款禁令在周五通过国会关键投票,获得跨党派支持,接近成为法律。...

5 Polymarket:微策略公司宣布将于4月28日至

消息,预测市场显示,微策略公司宣布将在4月28日至5月4日期间购买超过1000枚比特币。...

6 美国批准对突尼斯军售,总额达9500万美元

消息,当地时间4月27日,美国国务院发布消息称,已批准向突尼斯政府进行一项对外军事销售...

7 鲸鱼从Gate.io提取72,264枚HYPE,价值约3060万

一名加密鲸鱼从中心化交易所Gate.io提取了72,264枚HYPE,按当前价格计算,价值约3060万美元,推...

8 普京会见伊朗外长阿拉格齐,透露收到哈

消息,俄罗斯总统普京在圣彼得堡会见到访的伊朗外交部长阿拉格齐。会晤期间,普京向阿拉...

9 AAVE与Consensys合作,提供3万枚ETH支持Rset

消息,AAVE表示,Consensys与其创始人Joseph Lubin已加入DEFI United,承诺最高提供30,000枚ETH资金支持...

10 KuCoin上线Pharos(PROS)交易对

消息,KuCoin宣布全球首发Pharos,该代币将于2026年4月28日08:00开放存款,14:00开始交易,29日10:...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。