当前位置:首页 > 芯闻号 > 极客网
[导读]计算机科学家团队近期开发出一种更敏捷更具弹性的机器学习模型,它们可以周期性忘记已知信息,而现有大语言模型不具备忘却能力。

计算机科学家团队近期开发出一种更敏捷更具弹性的机器学习模型,它们可以周期性忘记已知信息,而现有大语言模型不具备忘却能力。

实测表明,在很多情况下,“忘却法”的训练效率很高,忘却型模型表现也会更好。韩国基础科学研究院(Institute for Basic Science)的AI工程师Jea Kwon说,新研究意味着AI领域取得明显进步。

“忘却法”训练效率很高

今天的AI语言引擎大多都是人工神经网络驱动的。网络中的每一个“神经元”都是一个数学函数,它会从其它神经元接收信号,它会运算,然后通过多层神经元发送信号。

最开始时信息流或多或少都是随机的,当网络不断与训练数据匹配,神经元之间流动的信息会不断优化。例如,如果研究人员想训练一个双语翻译模型,它首先要收集海量双语文本,用文本训练模型,它会调整神经元之间的连接,将一种语言中的文本与另一种语言中的等效单词联系起来。

上述训练会耗费大量计算力。如果模型运行时不够出色,如果后来用户的需求变了,模型会很难匹配。

新模型研究人员Mikel Artetxe说:“假设你有一个模型,里面包含100种语言,有1种语言没有被覆盖。如果你想将这种语言添加进去,那就要重新训练。”

几年前,Artetxe和同事用1种语言训练神经网络,他们抹去神经网络所知的单词组成信息,也就是所谓的“Tokens”。Tokens存储在神经网络的第一层,它也叫“嵌入层”。对于其它层,不去理睬。抹去第1语言的Tokens之后,用第2种语言训练,第2种语言新的Tokens可以填充到嵌入层。

虽然模型包含大量不匹配信息,但仍然可以用第2种语言重新训练,也就是说模型可以学习、处理第2种语言。研究人员认为,虽然嵌入层存储了第2种语言的语汇特殊信息,但神经网络更底层存储了抽象信息,它涉及到人类语言的幕后概念,正是这些概念帮助模型学习第二种语言。

研究报告作者Yihong Chen认为:“我们生活在相同的世界,用不同语言的不同词汇来赋予相同事物以概念。所以在模型之中会有相同等级的推理,比如一个苹果,它是甜的,美味的,它不只是一个词汇。”

将新语言添加到已训练模型中,采用“忘却法”效率很高,尽管如此,还是需要重新训练,仍然需要海量数据和强大的处理能力。有没有更好的办法?当然有,不需要训练,直接抹去嵌入层,然后再训练,也就是在初步训练时周期性重置嵌入层。

Artetxe称:“如此一来,整个模型就能适应重置。如果你想扩展模型,让它适应另一种语言,过程会变得更容易。”

忘却型模型表现更好

研究人员用一种比较通用的大语言模型Roberta做实验,采用周期性忘却技术训练,将它与那些用标准、非忘却方法训练的模型作比较。结果发现,在处理第1种语言时,忘却型模型得分85.1分,传统标准模型得分86.1分。再用第2种语言训练,只用约500万Tokens(第一种语言用了700亿)训练,忘却型模型的精准度得分降至62.7分,标准模型降到53.3分。

再训练时如果研究人员施加计算限制,忘却型模型的表现会更好。例如,当研究人员将训练长度从125000步短到5000步,忘却型模型的平均得分约为57.8分,标准模型降到37.2分,几乎和猜测差不多。

因此研究人员得出结论:在学习语言时,忘却型模型表现更好一些。

魁北克深度学习研究中心Mila的研究人员Evgenii Nikishin认为:“因为模型在训练时不断忘却,然后再重新学习,所以后面再教网络一些新东西时会变得更容易些。”种种迹象显示,模型理解语言时会从更深层次着眼,不只是了解单个词汇的意思。

忘却法与人类大脑的运行模式有些相似。旧金山大学神经科学家Benjamin Levy认为:“存储大量详细信息时人类记忆是相当不精准的。但人类大脑可以记住经验要点,记住抽象信息,而且擅长推断。让AI像人类一样处理信息,比如让它具备忘却能力,AI也许会更有弹性。“

Yihong Chen认为,未来也许会出现制造语言模型的工厂,这样的工厂需要忘却型技术,它是一个基本模型,可以快速适应新领域。(小刀)

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭