当前位置:首页 > 物联网 > 智能应用
[导读]大型的语言模型(LMS),比如gpt-3、gpt-4,或者谷歌的伯特,已经成为人工智能(AI)如何理解和处理人类语言的一个重要组成部分。但是在这些模型背后隐藏着一个很容易被忽视的过程: 符号化 .本文将解释什么是符号化,为什么它如此重要,以及它是否可以避免。

大型的语言模型(LMS),比如gpt-3、gpt-4,或者谷歌的伯特,已经成为人工智能(AI)如何理解和处理人类语言的一个重要组成部分。但是在这些模型背后隐藏着一个很容易被忽视的过程: 符号化 .本文将解释什么是符号化,为什么它如此重要,以及它是否可以避免。

想象一下,你正在阅读一本书,而不是单词和句子,整个文本只是一堆没有空格或标点符号的大字母。什么都说不通!这就是计算机处理原始文本的方式。为了使机器能够理解语言,文本需要被分解成更小的、可消化的部分.

什么是符号化?

符号化 将文本分解成更小的块的过程,对模型来说更容易理解。这些块可以是:

· 语言 : 大多数自然语言单位(例如:,"我","我","快乐"。

· 子词 当模型不知道整个单词时,较小的单元会起作用。,"跑","宁"中的"跑"。

· 人物 ::在某些情况下,单独的字母或符号(例如:、"A"、"B"、"C")。

为什么我们需要代币?

我们来举个例子:

" 一只敏捷的棕色狐狸跳过了那只懒狗 ."

计算机把这句话看作是一长串字母: Thequickbrownfoxjumpsoverthelazydog .

如果我们不把它分解成更小的部件或者 代币 .以下是这个句子的符号化版本:

1.字级符号化 :

· ["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]

2.分字形化 :

· ["The", "qu", "ick", "bro", "wn", "fox", "jump", "s", "over", "the", "lazy", "dog"]

3.字符级符号化 :

· ["T", "h", "e", "q", "u", "i", "c", "k", "b", "r", "o", "w", "n", "f", "o", "x", "j", "u", "m", "p", "s", "o", "v", "e", "r", "t", "h", "e", "l", "a", "z", "y", "d", "o", "g"]

然后模型从这些标记中学习,了解模式和关系。没有令牌,机器就不知道一个词的起点和终点,也不知道一个词的哪一部分是重要的。

符号化如何在LLMS中运作

大型语言模型 不要像人类那样"理解"语言。相反,他们分析文本数据中的模式。符号化对这一点至关重要,因为它有助于将文本分解为一个易于模型处理的表单。

大多数LLMS采用特定的符号化方法:

字节对编码(BPE)

这个方法将字符或子词组合成常用的组。例如,"跑"可以分为"跑"和"宁。BPE对于捕捉子字形层次的模式很有用。

字句

伯特等模型都采用了这种标记化方法。它的工作原理与BPE相似,但基于它们在上下文中的频率和意义构建标记。

句子部分

这是一种更通用的符号化方法,可以处理没有明确的单词边界的语言,如汉语或日语。

符号化如何在LLMS中运作

文本分解的方式可以显著地影响LRAM的性能。让我们来分析一下为什么符号化是必要的一些关键原因:

高效加工

语言模型需要处理大量的文本。标记化将文本减少为可管理的片段,使模型更容易处理大型数据集,而不会使内存耗尽或不堪重负。

处理未知词

有时候,模特会遇到以前没见过的词。如果模型只懂得整个单词,遇到一些不寻常的东西,比如" supercalifragilisticexpialidocious ,"它可能不知道该怎么做。子词符号化可以帮助将这个词分解成更小的部分,如"超级"、"卡利"和"弗拉格",这样模型就有可能理解它。

多种语言和复杂文本

不同的语言以独特的方式构成单词。符号化有助于用不同的字母来分解语言中的单词,比如阿拉伯语或汉语,甚至处理复杂的事情,比如社交媒体上的标签(#后后文)。

符号化如何帮助

让我们来看看符号化是如何帮助模型处理一个复杂单词的句子的。

想象一个语言模型给出了这句话:

" 人工智能正在以前所未有的速度改变工业 ."

没有符号化,模型可能难以理解整个句子。但是,当被标记为:

有符号的版本(子词) :

· ["Artificial", "intelligence", "is", "transform", "ing", "industr", "ies", "at", "an", "unprecedented", "rate"]

现在,尽管"转换"和"产业"可能是个棘手的词,但模型将它们分解为更简单的部分("转换"、"ING"、"INSTR"、"IES")。这使模型更容易向它们学习。

符号化的挑战

虽然符号化是必要的,但它并不完美。有一些挑战:

没有空格的语言

有些语言,如汉语或泰语,在单词之间没有空格。这使得符号化变得困难,因为模型必须决定一个词的结尾和另一个词的开头。

含糊不清的话

当一个词有多重含义时,符号化会很困难。例如,"铅"一词可能是指金属或负责人。符号化过程不能总是仅仅根据符号来确定正确的意义。

罕见的话

LMS经常遇到罕见的词汇或发明的术语,特别是在互联网上。如果一个单词不在模型的词汇表中,那么符号化过程可能会将其划分为笨拙或无用的符号。

我们能避免符号化吗?

考虑到它的重要性,下一个问题是,是否可以避免符号化。

理论上,可以通过在字符级别直接工作来构建不依赖于符号化的模型(即:,把每一个角色都当作象征)。但这种办法有缺点:

较高的计算费用

使用字符需要更多的计算。模型需要处理数百个字符,而不是仅仅处理一个句子的几个令牌。这大大增加了模型的内存和处理时间。

失去意义

人物本身并不总是有意义。例如,"苹果"中的字母"A"和"猫"中的"A"是一样的,但这两个词有完全不同的含义。没有标记来引导模型,人工智能就很难掌握上下文。

也就是说,一些实验模型正试图远离符号化。但是现在,符号化仍然是LLMS处理语言的最有效的方法。

结论

符号化看起来似乎是一个简单的任务,但它对于大的语言模型理解和处理人类语言是至关重要的。没有它,LLMS将很难理解文本,处理不同的语言,或处理罕见的单词。虽然一些研究正在寻找替代符号化的方法,但目前,它是LLMS工作方式的重要组成部分。

下一次你使用语言模型时,不管是回答问题、翻译课文还是写诗,记住:一切都是通过符号化实现的,它将单词分解成部分,这样人工智能就能更好地理解和回应。

主要措施

· 符号化是将文本分解成更小、更容易处理的片段的过程。 代币 .

· 符号可以是单词、子单词或单个字符。

· 符号化对于模型有效处理文本、处理未知单词和跨语言工作至关重要。

· 虽然存在替代品,但标记化仍然是 现代LLMS .


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭