深度学习的57个名词解释及相关论文资料
扫描二维码
随时随地手机看文章
一、激活函数(AcTIvaTIon FuncTIon)
为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。常用的函数有sigmoid、tanh、ReLU(RecTIfied Linear Unit 线性修正单元)和以及这些函数的变体。
二、Adadelta
Adadelta 是基于梯度下降的学习算法,可以随时间调整每个参数的学习率,它比超参数(hyperparameter)更敏感而且可能会降低学习率。Adadelta 类似于 rmsprop,而且可被用来替代 vanilla SGD。
论文:Adadelta:一种自适应学习率方法
三、Adagrad
Adagrad 是一种自适应学习率算法,能够随时间跟踪平方梯度并自动适应每个参数的学习率。它可被用来替代vanillaSGD (#sgd),稀疏数据上更是特别有用,可以将更高的学习率分配给更新不频繁的参数。
论文:用于在线学习和随机优化的自适应次梯度方法
四、Adam
Adam 是类似于 rmsprop 的自适应学习率算法,它通过使用梯度的第一和第二时刻的运行平均值(running average)直接估计,并具有偏差校正功能。
论文:Adam:一种随机优化方法
五、仿射层(Affine Layer)
这是神经网络中的一个全连接层。仿射(Affine)的意思是前面一层中的每一个神经元都连接到当前层中的每一个神经元。在许多方面,这是神经网络的「标准」层。仿射层通常被加在卷积神经网络或循环神经网络做出最终预测前顶层。仿射层的一般形式为 y = f(Wx + b),其中 x 是层输入,w 是参数,b 是一个偏差矢量,f 是一个非线性激活函数。
六、注意机制(Attention Mechanism)
注意机制由人类视觉注意所启发,是一种关注图像中特定部分的能力。注意机制可被整合到语言处理和图像识别的架构中,以帮助网络学习在做出预测时应该「关注」什么。
七、Alexnet
Alexnet 是一种卷积神经网络架构的名字,这种架构曾在 2012 年 ILSVRC 挑战赛中以巨大优势获胜,它使导致人们重新关注对用于图像识别的卷积神经网络(CNN)。它由 5 个卷积层组成。其中一些后面跟随着最大池化(max-pooling)层和带有最终 1000 条路径的 softmax (1000-way softmax)的 3个全连接层。Alexnet 被引入到了使用深度卷积神经网络的 ImageNet 分类中。
八、自编码器(Autoencoder)
自编码器是一种神经网络模型,它的目标是预测输入自身,这通常通过网络中某个地方的「瓶颈(bottleneck)」实现。通过引入瓶颈,使得网络学习输入更低维度的表征,从而将输入压缩成一个好的表征。自编码器和 PCA 等降维技术相关,但因为它们的非线性本质,它们可以学习更为复杂的映射。目前已有一些范围涵盖较广的自编码器存在,包括降噪自编码器(Denoising Autoencoders)、变自编码器(VariationalAutoencoders)和序列自编码器(Sequence Autoencoders)。
降噪自编码器论文:
Stacked Denoising Autoencoders: Learning Useful Representationsin a Deep Network with a Local Denoising Criterion
变自编码器论文:
Auto-Encoding Variational Bayes
序列自编码器论文:
Semi-supervised Sequence Learning
九、平均池化(Average-Pooling)
平均池化是一种在卷积神经网络中用于图像识别的池化(Pooling)技术。它的原理是,在特征的局部区域上滑动窗口(如像素),然后再取窗口中所有值的平均值。它将输入表征压缩成一种更低维度的表征。
十、反向传播(Backpropagation)
反向传播是一种在神经网络中用来有效地计算梯度的算法,或称为前馈计算图(feedforwardcomputational graph)。它可以归结成从网络输出开始应用分化的链式法则,然后向后传播梯度。
论文:
Learning representations by back-propagating errors
十一、通过时间的反向传播BPTT:BackpropagationThrough Time