斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构:「测试时间训练层(Test-Time-Training layers,TTT)」,这个模型通过对输入token进行梯度下降来压缩上下文。结果表明,TTT-Linear和TTT-MLP直接赶超或击败了最强的Transformer和Mamba!虽然目前TTT只应用于语言建模,但在未来,它也可以用在长视频上。(新智元)
斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构:「测试时间训练层(Test-Time-Training layers,TTT)」,这个模型通过对输入token进行梯度下降来压缩上下文。结果表明,TTT-Linear和TTT-MLP直接赶超或击败了最强的Transformer和Mamba!虽然目前TTT只应用于语言建模,但在未来,它也可以用在长视频上。(新智元)