Anthropic Claude测试：复杂任务表现出色，基本操作待提升

时间：2024-11-28 08:25

　　研究人员对Anthropic Claude的“电脑使用”功能进行了测试，发现其在执行复杂任务时表现出色，但在基本操作上常出错。测试任务包括网页查找、工作流程完成、办公室生产力和电玩游戏等，评估了Claude的规划、移动和评估能力。

　　尽管Claude能协调不同应用程序，如复制网页信息至试算表，但在执行基本操作时，如向下滚动网页以找到按钮，却常常失败。研究人员认为，Claude可能未意识到错误或误判任务失败原因，反映出模型的自我评估机制不足。

　　由于Claude的AI代理功能尚无法完全复制人类电脑使用习惯，且存在安全风险，因此大规模部署时机未到。目前该功能仅适用于升级版Claude 3.5 Sonnet模型，并以API形式开放测试。

　　Anthropic创始人呼吁AI公司模型接受强制性安全测试，但测试方式需保持弹性，以应对技术快速变化。目前尚无机制验证公司是否遵守安全政策。

兴中资讯