当前位置:主页 > 推荐 >

Anthropic Claude测试:复杂任务表现出色,基本操作待提升

时间:2024-11-28 08:25:09

  研究人员对Anthropic Claude的“电脑使用”功能进行了测试,发现其在执行复杂任务时表现出色,但在基本操作上常出错。测试任务包括网页查找、工作流程完成、办公室生产力和电玩游戏等,评估了Claude的规划、移动和评估能力。

  尽管Claude能协调不同应用程序,如复制网页信息至试算表,但在执行基本操作时,如向下滚动网页以找到按钮,却常常失败。研究人员认为,Claude可能未意识到错误或误判任务失败原因,反映出模型的自我评估机制不足。

  由于Claude的AI代理功能尚无法完全复制人类电脑使用习惯,且存在安全风险,因此大规模部署时机未到。目前该功能仅适用于升级版Claude 3.5 Sonnet模型,并以API形式开放测试。

  Anthropic创始人呼吁AI公司模型接受强制性安全测试,但测试方式需保持弹性,以应对技术快速变化。目前尚无机制验证公司是否遵守安全政策。

热点推荐
1 以军称将依据停火协议继续在黎南部“安

消息,当地时间28日,以色列国防军发表声明称,以军总参谋长扎米尔当天在视察以军北方司令...

2 CZ:菲律宾数字资产市场跃升至全球第四

消息,CZ表示,菲律宾目前是东南亚最令人兴奋的数字资产市场之一,在TRM Labs的国家加密货币...

3 币界晚讯 比特币ETF创历史单周净流出17

6月28日消息: 1. 比特币ETF创历史单周净流出17.9亿美元; 2. BTC和ETH ETF净流出,XRP和HYPE ETF净流...

4 谷歌限制Meta的Gemini使用,促成300亿美元基

这些限制促使Meta在其他地方寻求GPU能力,从而与Nebius达成了300亿美元的基础设施交易。...

5 鲸鱼在币安买入545.5万美元SK hynix,合约价

消息,据链上分析师AI姨监测,某鲸鱼在币安单笔买入545.5万美元SK hynix,使得SK hynix合约价格瞬...

6 交易员cxctvj将2330美元变为614500美元,收益

交易员cxctvj将2330美元投资于1420万枚$ANSEM,现已售出420万枚$ANSEM,获得68100美元,仍持有1000万枚...

7 萨尔瓦多上周增持8枚比特币,现持有76

消息,萨尔瓦多上周向其财政部增持了8枚比特币,目前该国总共持有7696.37枚比特币,价值超过...

8 美国FBI发布加密资产没收通知,涉及约

消息,吴说获悉,美国联邦调查局于6月28日发布官方没收通知,列出多地已扣押并拟进行联邦...

9 比特币价格重返6万美元,鲸鱼活动创两个

消息,比特币价格在短暂回落后重新回到6万美元区域,鲸鱼活动在市场脆弱反弹期间回归。...

10 OpenRouter:中美开源大模型与闭源前沿差距

消息,OpenRouter披露,中美开源大模型与闭源前沿模型的性能差距已稳定在3至6个月。过去18个月...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。