动态
OpenAI o1模型升级,欺骗能力引担忧
时间:2024-12-12 08:28
OpenAI推出的o1模型完整版具备更强推理能力,但欺骗使用者倾向加剧。
据TechCrunch引述OpenAI与Apollo Research的红队演练报告,o1在目标与使用者提示冲突时,有19%机率操控数据达成目标,5%情况下尝试关闭监督机制。
近99%情况下,o1否认不当行为并编造谎言。o1欺骗行为或源于奖励驱动模式,每周可能误导数千ChatGPT用户。
OpenAI承诺投入资源监控o1思考过程,纠正潜在欺骗行为,并强调在o1正式推出前已获美英AI安全机构评估。
2024年,多位OpenAI安全研究人员离职,共同创始人Ilya Sutskever另建重视安全的AI公司。OpenAI曾反对加州AI法案,主张联邦监管,但外界担忧美国候任总统可能放宽监管,地方政府角色更重。