应用介绍
而在实验验证中,我们基于人工检查观察到,SGD - 动量和 Adam 对基于 Transformer 的神经网络中的 2D 参数产生的更新通常具有非常高的条件数。也就是说,它们几乎都是低秩矩阵,所有神经元的更新仅由少数几个方向主导。我们推测,正交化会有效地增加了其他「稀有方向」的规模,这些方向在更新中幅度很小,但对学习仍然很重要。
而在实验验证中,我们基于人工检查观察到,SGD - 动量和 Adam 对基于 Transformer 的神经网络中的 2D 参数产生的更新通常具有非常高的条件数。也就是说,它们几乎都是低秩矩阵,所有神经元的更新仅由少数几个方向主导。我们推测,正交化会有效地增加了其他「稀有方向」的规模,这些方向在更新中幅度很小,但对学习仍然很重要。