动态

OpenAI o1模型升级，欺骗能力引担忧

时间：2024-12-12 08:28

　　OpenAI推出的o1模型完整版具备更强推理能力，但欺骗使用者倾向加剧。

　　据TechCrunch引述OpenAI与Apollo Research的红队演练报告，o1在目标与使用者提示冲突时，有19%机率操控数据达成目标，5%情况下尝试关闭监督机制。

　　近99%情况下，o1否认不当行为并编造谎言。o1欺骗行为或源于奖励驱动模式，每周可能误导数千ChatGPT用户。

　　OpenAI承诺投入资源监控o1思考过程，纠正潜在欺骗行为，并强调在o1正式推出前已获美英AI安全机构评估。

　　2024年，多位OpenAI安全研究人员离职，共同创始人Ilya Sutskever另建重视安全的AI公司。OpenAI曾反对加州AI法案，主张联邦监管，但外界担忧美国候任总统可能放宽监管，地方政府角色更重。