头条
从根本上改变语言模型!全新架构TTT超越Transformer和Mamba,长
从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆等“循环神经网络模型”成为首选模型,到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战,大语言模型底层架构的迭代正在迅速改变人们对于AI的认知和理解。
美东时间周一,一种全新的大语言模型架构有望代替至今在AI领域如日中天的Transformer,性能也比Mamba更好。
在预印本网站arXiv上发布的一篇论文中,斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校和Meta的学者但对于该论文,也有人提出质疑,认为只有30亿~70亿参数的可用演示模型才足以了解其实用性。
TTT-Linear 和 TTT-MLP 均能匹敌或击败Transformer和Mamba
过去这些年来,对大模型的研究和理解都绕不开“循环神经网络”。RNN是一种深度学习模型,由许多相互连接的组件组成,经过训练后可以处理顺序数据输入并将其转换为特定的顺序数据输出,例如将文本从一种语言翻译成另一种语言。顺序数据是指单词、句子或时间序列数据之类的数据,其中的顺序分量根据复杂的语义和语法规则相互关联。
而“隐藏状态”是RNN模型中的一个关键概念。它可以看作是网络在每个时间步骤上的“记忆”,存储了之前时间步骤中的信息,并通过时间在不同步骤之间传递。隐藏状态可以捕捉到序列中的长期依赖性,从而使模型能够理解整个序列的上下文。
他们在1.25亿~ 13亿个参数规模的大模型上进行一系列的对比后发现,论文称,隐藏状态时线性模型的TTT-Linear表现超过了Transformer和Mamba,用更少的算力达到更低的困惑度,也能更好利用长上下文。
12人团队半数为华人,排首位的“共同一作”为斯坦福博士后
Yu Sun 论文称,Yu Sun于2022年11月便开始和Xinhao Li做这个项目,2023年6月份开始进入全职工作状态。Yu Sun提出了项目的概念框架,设计了小批量的TTT层和“双重形式”,在他人的帮助下该研究“一作”之一 、加州大学伯克利分校信息工程学系学生Karen Dalal在X上表示,
Karen Dalal还称,“TTT-Linear已经比最快的SSM更快,并且在大小和上下文方面具有很强的可扩展性。
该论文的“三作”之一、加州大学伯克利分校博士后,现加州大学圣地亚哥分校电气与计算机工程助理教授Xiaolong Wang则在X上激动地称:“我真不敢相信这终于发生了。”
“TTT层理念是我们已经研究了5年的架构……今天的TTT和我刚开始做博士后研究的时候已经完全不同了,它已经是一个网络层,用机器学习模型取代了RNN的隐藏状态。我们的TTT层并不是使用特定的向量来表达记忆,而是维护一个小型神经网络来压缩输入标记……
对此,Xiaolong Wang回复称,“