有实际根基 ,高下咱们就能妨碍深度优化了。文学
为甚么 transformer 功能这么好?它给泛滥狂语言模子带来的高下高下文学习 (In-Context Learning) 能耐是从何而来?在家养智能规模里 ,transformer 已经成为深度学习中的文学主导模子 ,但人们对于它卓越功能的高下实际根基却不断钻研缺少 。
最近 ,文学来自 Google AI 、高下苏黎世联邦理工学院、文学Google DeepMind 钻研职员的高下新钻研试验为咱们揭开谜底 。在新钻研中,文学他们对于 transformer 妨碍了逆向工程 ,高下追寻到了一些优化措施 。文学论文《Uncovering mesa-optimization algorithms in Transformers》 :
论文链接:https://arxiv.org/abs/2309.05858
作者证实,高下最小化通用自回归损失会发生在 Transformer 的文学前向传递中运行的基于辅助梯度的优化算法 。这种天气最近被称为「mesa 优化(mesa-optimization)」。高下此外