推荐
人工智能大语言模型在在认知障碍测试中表现不佳
时间:2024-12-23 16:50
《英国医学杂志》最新研究揭示,人工智能(AI)大语言模型在阿尔茨海默病早期检测中的表现令人关注。以色列哈达萨医疗中心的研究人员通过使用“蒙特利尔认知评估量表”对多款大语言模型进行了认知能力测试,结果却出乎意料:这些模型表现出了相当于轻度认知障碍的迹象。
这项测试涉及的人工智能模型包括OpenAI的GPT-4、GPT-4o,Anthropic的“克劳德3.5”,以及谷歌的“双子座1.0”和“双子座1.5”。结果表明,虽然这些模型在语言理解、注意力和抽象思维等任务上表现良好,但在需要较高视觉空间技能和执行功能的任务中则显得力不从心。特别是“双子座1.0”得分最低,远低于26分的认知正常标准。
尽管大语言模型在医学领域的潜力巨大,尤其在辅助诊断方面,但这项研究表明,人工智能要想在临床环境中全面替代人类医生仍面临巨大的挑战。需要注意的是,人工智能在某些任务中的缺陷,特别是在执行复杂的视觉抽象和空间分析时,显示了它尚未达到能替代医生的水平。
这项研究提醒我们,尽管AI正在快速发展,但在需要复杂判断和临床直觉的领域,它仍然无法完全取代人类专业能力。因此,未来的人工智能医疗应用应更加注重与医生的协作,而非完全替代。