您的位置: 善知识与道 > 简历

深度神经网络中的归一化技术

2019-06-06来源:善知识与道
深度神经网络中的归一化技术

为什么我们需要归一化?

归一化一直是深度学习研究的一个活跃领域。归一化技术可以大大减少机器学习模型的训练时间。让我们看看归一化的一些好处。

  1. 它对每个特征进行归一化,以便它们保持每个特征的贡献,因为某些特征具有比其他特征更高的数值。通过这种方式,我们的网络可以不带偏见(对于值很大的特征)。
  2. 它减少了内部协变量Shift。它是由于训练过程中网络参数的变化而引起的网络激活分布的变化。为了提高训练质量,我们寻求减少内部协变Shift
  3. 在论文中(https://arxiv.org/pdf/1805.11604.pdf),作者声称Batch Norm使损失表面更平滑(即它更严格地限制了梯度的大小)。
  4. 它使优化更快,因为归一化不允许权重爆炸并将它们限制在一定范围内。
  5. 归一化的一个意想不到的好处是它有助于网络的正则化(只是轻微的,不是显著的)。

从上面我们可以得出结论,正确归一化可能是让你的模型有效训练的关键因素,但这并不像听起来那么容易。让我先看一些问题。

  1. 归一化层在分布式训练中的表现如何呢?
  2. 您应该使用哪种归一化技术来完成CNN,RNN,风格转移等任务?
  3. 在训练中更改数据集的批量大小时会发生什么?
  4. 哪种归一化技术是网络计算和准确性的最佳平衡呢?

为了回答这些问题,让我们逐一深入研究每种归一化技术的细节。

批归一化

批归一化是一种归一化网络中确定大小的小批量激活的方法。对于每个特征,批归一化计算小批量中该特征的均值和方差。然后它减去均值并通过其小批量标准差来划分特征。

深度神经网络中的归一化技术

如果增加权重的大小能使网络表现得更好呢?

为了解决这个问题,我们可以分别添加γ和β作为scale和shift学习参数。这一切可以概括为:

深度神经网络中的归一化技术

ε是等式中的稳定常数

与批归一化相关的问题:

  1. 可变批量大小→如果批量大小为1,则方差将为0,这不允许batch norm工作。此外,如果我们的mini-batch小,那么它会变得太嘈杂,而且训练可能会影响。分布式训练也会出现问题。因为,如果您在不同的机器中进行计算,那么您必须采用相同的批量大小,否则对于不同的系统,γ和β将是不同的。
  2. 循环神经网络 →在RNN中,在RNN中,每个时间步的重复激活将有不同的统计数据。这意味着我们必须为每一个时间步设置一个单独的batch norm层。这使得机器学习模型更加复杂和占用空间,因为它迫使我们存储训练过程中每个时间步的统计信息。
深度神经网络中的归一化技术

权重归一化

我们为什么不直接对激活进行归一化,而对层的权重进行归一化呢?权重归一化确实是这样。

权重归一化将权重(ω)重新参数化为:

深度神经网络中的归一化技术

它将权重向量与其方向分开,这与具有方差的批归一化具有类似的效果。唯一的区别在于变化而不是方向。

至于平均值,论文的作者巧妙地将仅平均批归一化和权重归一化结合起来,即使在small mini-batches中也能获得所需的输出。这意味着他们减去了minibatch 的平均值,但没有除以方差。最后,他们使用权重归一化而不是除以方差。

注:由于大数定律,与方差相比,均值的噪声较小(这使得均值优于方差)。

权重归一化与仅平均批归一化相结合,可在CIFAR-10上获得最佳结果。

层归一化

层归一化对跨特征的输入进行归一化,而不是在批归一化中对跨batch维度的输入特征进行归一化。

mini-batch包含具有相同数量特征的多个示例。Mini-batches是矩阵(或张量),其中一个轴对应于批次,另一个轴(或多个轴)对应于特征尺寸。

深度神经网络中的归一化技术

i代表批次,j代表特征。xᵢ,ⱼ是输入数据的第i,第j个元素。

在RNN的情况下,层归一化比批归一化更好。

实例(or Contrast)归一化

层归一化和实例归一化彼此非常相似,但它们之间的区别在于实例归一化在每个训练示例中的每个通道上归一化,而不是在训练示例中跨输入特征进行归一化。与批归一化不同,实例归一化层也在测试时应用(由于mini-batch的非依赖性)。

深度神经网络中的归一化技术

在这里,X ∈ℝT×C×W×H为输入包含批次Ť图像的张量。X ₜᵢⱼₖ表示第tijk个元素,其中k和j跨空间维度(图像的高度和宽度),i为特征的信道(如果输入是一个RGB颜色通道图像),t是batch中图像的索引。

该技术最初设计用于风格转移,实例归一化试图解决的问题是网络应该与原始图像的对比度无关。

组归一化

顾名思义,组归一化针对每个训练样例对通道组进行标准化。我们可以说,Group Norm介于Instance Norm和Layer Norm之间。

当我们将所有通道放入一个组时,组归一化将成为层归一化。并且,当我们将每个通道放入不同的组时,它将成为实例归一化。

深度神经网络中的归一化技术

Sᵢ定义如下

深度神经网络中的归一化技术

这里,x是由层计算的特征,i是索引。在2D图像的情况下,i =(i N,i C,i H,i W)是以(N,C,H,W)顺序索引特征的4D向量,其中N是batch轴,C是通道轴,H和W是空间高度和宽度轴。G是组的数量,它是预定义的超参数。C / G是每组的通道数。⌊.⌋是floor操作,“ ⌊kC/(C / G)⌋=⌊iC/(C / G)⌋ ”表示索引i和k假设每组通道沿C轴按顺序存储,则它们位于同一组通道中。GN计算沿(H,W)轴和沿着一组C / G通道的μ和σ。

Batch-Instance归一化

实例归一化的问题在于它完全删除了样式信息。虽然,这有其自身的优点(例如在风格转移中),但在对比度很重要的条件下(如天气分类,天空的亮度很重要)可能会出现问题。Batch-Instance归一化试图通过了解应该为每个通道(C)使用多少样式信息来处理这种情况。

Batch-Instance归一化只是批归一化和实例归一化之间的插值。

深度神经网络中的归一化技术

ρ的值在0和1之间

Batch-Instance归一化的有趣方面是通过梯度下降来学习平衡参数ρ。

从Batch-Instance归一化,我们可以得出结论,模型可以学习使用梯度下降自适应地使用不同的归一化方法。

我们可以在需要时切换归一化技术吗?

答案是肯定的。

可切换归一化

可切换归一化方法从批归一化、实例归一化和层归一化出发,采用不同均值和方差统计量的加权平均。

在图像分类和对象检测等任务中,切换归一化可能优于批归一化。

实例归一化在较早的层中更常使用,中间优选批归一化,最后更常使用层归一化。batch sizes越小,就越倾向于层归一化和实例归一化。

本文由善知识与道整理,内容仅供参考,未经书面授权禁止转载!图片来源图虫创意,版权归原作者所有。

相关阅读

  • 深度神经网络中的归一化技术

    深度神经网络中的归一化技术

    归一化一直是深度学习研究的一个活跃领域。它对每个特征进行归一化,以便它们保持每个特征的贡献,因为某些特征具有比其他特征更高的数值。

    2019-06-06

  • 玩家怒!NVIDIA光线追踪技术“石沉大海”?

    玩家怒!NVIDIA光线追踪技术“石沉大海”?

    我相信不少玩家首推英伟达RTX2080Ti,自从前段时间发布以来,它便迅速成为科技圈热点之一。而这款显卡中所运用的两大黑科技:光线追踪技术...

    2019-03-25

  • 编辑荐书:不可不读的季度好书

    编辑荐书:不可不读的季度好书

    过去的几个月里,人民邮电出版社出版了多种好书,涉及了科技、教育、社科、艺术、少儿等多个领域。在这些图书中,经过层层选拔,我们评选出...

    2019-04-07

  • 自动驾驶中的障碍物行为预测

    自动驾驶中的障碍物行为预测

    1.简介在自动驾驶应用中,相比于耳熟能详的感知与规划控制,人们对障碍物行为预测稍显陌生。事实上障碍物的行为预测对于整个无人车安全、平...

    2019-07-16

  • 鬼影成像?为X射线激光实验提供关键信息!

    鬼影成像?为X射线激光实验提供关键信息!

    为了解释这些非凡光源的数据,研究人员需要对x射线脉冲如何与物质相互作用以及这些相互作用如何影响测量有一个坚实的了解。

    2019-07-16

  • 令人毛骨悚然的机器人变得更加人性化

    令人毛骨悚然的机器人变得更加人性化

    随着人工智能和机器人技术的进步,机器人变得越来越像人类,这有点令人毛骨悚然。许多人可能仍然认为机器人是科幻小说,但它们每天都在成为...

    2019-05-28