当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 基于图展开和参数共享的思想,我们可以设计各种循环神经网络。 计算循环网络(将 x值的输入序列映射到输出值 o 的对应序列) 训练损失的计算图。损失L 衡量每个 o与相应的训练目

基于图展开和参数共享的思想,我们可以设计各种循环神经网络

计算循环网络(将 x值的输入序列映射到输出值 o 的对应序列) 训练损失的计算图。损失L 衡量每个 o与相应的训练目标 v 的距离。当使用 softmax 输出时,我们假设 o 是未归一化的对数概率。损失 L 内部计算,并将其与目标 y 比较。RNN输入到隐藏的连接由权重矩阵 U参数化,隐藏到隐藏的循环连接由权重矩阵 W参数化以及隐藏到输出的连接由权矩阵 V 参数化。(左) 使用循环连接绘制的RNN和它的损失。(右) 同一网络被视为展开的计算图,其中每个节点现在与一个特定的时间实例相关联。

循环神经网络中一些重要的设计模式包括以下几种:

1. 每个时间步都有输出,并且隐藏单元之间有循环连接的循环网络,如上图所示。

2. 每个时间步都产生一个输出,只有当前时刻的输出到下个时刻的隐藏单元之间

有循环连接的循环网络。

3. 隐藏单元之间存在循环连接,但读取整个序列后产生单个输出的循环网络。

任何图灵可计算的函数都可以通过这样一个有限维的循环网络计算,在这个意义上上图的循环神经网络是万能的。RNN经过若干时间步后读取输出,这与由图灵机所用的时间步是渐近线性的,与输入长度也是渐近线性的 (Siegelmann and Sontag, 1991; Siegelmann, 1995; Siegelmann and Sontag, 1995;Hyotyniemi, 1996)。由图灵机计算的函数是离散的,所以这些结果都是函数的具体实现,而不是近似。RNN作为图灵机使用时,需要一个二进制序列作为输入,其输出必须离散化后提供二进制输出。利用单个有限大小的特定RNN计算在此设置下的所有函数是可能的(Siegelmann and Sontag (1995) 用了 886 个单元)。图灵机的 ‘‘输入’’ 是要计算函数的详细说明 (specification),所以模拟此图灵机的相同网络足以应付所有问题。用于证明的理论RNN可以通过激活和权重(由无限精度的有理数表示)来模拟无限堆栈。

现在我们研究上图中RNN的前向传播公式。这个图没有指定隐藏单元的激活函数。我们假设使用双曲正切激活函数。此外,图中没有明确指定何种形式的输出和损失函数。我们假定输出是离散的,如用于预测词或字符的RNN。一种代表离散变量的自然方式是把输出 o作为每个离散变量可能值的非标准化对数概率。然后,我们可以应用softmax 函数后续处理后,获得标准化后概率的输出向量 。RNN从特定的初始状态 h(0) 开始前向传播。从 t = 1 到 t = τ 的每个时间步,我们应用以下更新方程:

其中的参数的偏置向量 b和 c 连同权重矩阵 U、V 和 W,分别对应于输入到隐藏、隐藏到输出和隐藏到隐藏的连接。这个循环网络将一个输入序列映射到相同长度的输出序列。与 x序列配对的 y 的总损失就是所有时间步的损失之和。例如,L(t) 为给定的的负对数似然,则

其中, 需要读取模型输出向量的项。

关于各个参数计算这个损失函数的梯度是昂贵的操作。梯度计算涉及执行一次前向传播(如在上图展开图中从左到右的传播),接着是由右到左的反向传播。运行时间是 O(τ ),并且不能通过并行化来降低,因为前向传播图是固有循序的; 每个时间步只能一前一后地计算。前向传播中的各个状态必须保存,直到它们反向传播中被再次使用,因此内存代价也是 O(τ )。应用于展开图且代价为 O(τ ) 的反向传播算法称为通过时间反向传播 (back-propagaTIon through TIme, BPTT)。

此类RNN的唯一循环是从输出到隐藏层的反馈连接。在每个时间步 t,输入为,隐藏层激活为。(左) 回路原理图。(右) 展开的计算图。这样的RNN没有前面介绍的 RNN 那样强大(只能表示更小的函数集合)。上图中的RNN可以选择将其想要的关于过去的任何信息放入隐藏表示 ? 中并且将 ? 传播到未来。该图中RNN被训练为将特定输出值放入 o中,并且 o是允许传播到未来的唯一信息。此处没有从 h 前向传播的直接连接。之前的 h仅通过产生的预测间接地连接到当前。o通常缺乏过去的重要息,除非它非常高维且内容丰富。这使得该图中的RNN不那么强大,但是它更容易训练,因为每个时间步可以与其他时间步分离训练,允许训练期间更多的并行化。

关于时间展开的循环神经网络,在序列结束时具有单个输出。这样的网络可以用于概括序列并产生用于进一步处理的固定大小的表示。在结束处可能存在目标(如此处所示),或者通过更下游模块的反向传播来获得输出上的梯度。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭