业界
AI训练数据面临耗尽危机,开发人员需探索新路径
时间:2025-01-02 12:43
近年来,AI因神经网络规模扩大和海量数据训练而迅猛发展,ChatGPT等大型语言模型(LLM)便是明证。然而,《自然》等杂志指出,AI扩展正逼近极限。
据研究机构预测,到2028年,AI训练数据集或达公共在线年内将耗尽训练数据。同时,数据所有者收紧访问权限,加剧了数据共享危机。
开发人员需探索变通之道,如收集非公开数据、使用自有数据、专注专业数据集及“制造”数据等,但这些方法尚待验证。斯坦福大学研究表明,模型多次读取给定数据集与从唯一数据中学习效果相当。
因此,合成数据、专门数据集、多次读取及自我反思等因素结合,或将成为推动AI进一步飞跃的关键。