符号化在LLMS中的作用有关系吗

[导读]大型的语言模型(LMS),比如gpt-3、gpt-4,或者谷歌的伯特,已经成为人工智能(AI)如何理解和处理人类语言的一个重要组成部分。但是在这些模型背后隐藏着一个很容易被忽视的过程: 符号化 .本文将解释什么是符号化,为什么它如此重要,以及它是否可以避免。

大型的语言模型(LMS),比如gpt-3、gpt-4,或者谷歌的伯特,已经成为人工智能(AI)如何理解和处理人类语言的一个重要组成部分。但是在这些模型背后隐藏着一个很容易被忽视的过程: 符号化 .本文将解释什么是符号化,为什么它如此重要,以及它是否可以避免。

想象一下,你正在阅读一本书,而不是单词和句子,整个文本只是一堆没有空格或标点符号的大字母。什么都说不通!这就是计算机处理原始文本的方式。为了使机器能够理解语言,文本需要被分解成更小的、可消化的部分.

什么是符号化?

符号化将文本分解成更小的块的过程,对模型来说更容易理解。这些块可以是:

· 语言 : 大多数自然语言单位(例如:,"我","我","快乐"。

· 子词当模型不知道整个单词时,较小的单元会起作用。,"跑","宁"中的"跑"。

· 人物 ::在某些情况下,单独的字母或符号(例如:、"A"、"B"、"C")。

为什么我们需要代币?

我们来举个例子:

" 一只敏捷的棕色狐狸跳过了那只懒狗 ."

计算机把这句话看作是一长串字母: Thequickbrownfoxjumpsoverthelazydog .

如果我们不把它分解成更小的部件或者代币 .以下是这个句子的符号化版本:

1.字级符号化 :

· ["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]

2.分字形化 :

· ["The", "qu", "ick", "bro", "wn", "fox", "jump", "s", "over", "the", "lazy", "dog"]

3.字符级符号化 :

· ["T", "h", "e", "q", "u", "i", "c", "k", "b", "r", "o", "w", "n", "f", "o", "x", "j", "u", "m", "p", "s", "o", "v", "e", "r", "t", "h", "e", "l", "a", "z", "y", "d", "o", "g"]

然后模型从这些标记中学习,了解模式和关系。没有令牌,机器就不知道一个词的起点和终点,也不知道一个词的哪一部分是重要的。

符号化如何在LLMS中运作

大型语言模型不要像人类那样"理解"语言。相反,他们分析文本数据中的模式。符号化对这一点至关重要,因为它有助于将文本分解为一个易于模型处理的表单。

大多数LLMS采用特定的符号化方法:

字节对编码(BPE)

这个方法将字符或子词组合成常用的组。例如,"跑"可以分为"跑"和"宁。BPE对于捕捉子字形层次的模式很有用。

字句

伯特等模型都采用了这种标记化方法。它的工作原理与BPE相似,但基于它们在上下文中的频率和意义构建标记。

句子部分

这是一种更通用的符号化方法,可以处理没有明确的单词边界的语言,如汉语或日语。

符号化如何在LLMS中运作

文本分解的方式可以显著地影响LRAM的性能。让我们来分析一下为什么符号化是必要的一些关键原因:

高效加工

语言模型需要处理大量的文本。标记化将文本减少为可管理的片段,使模型更容易处理大型数据集,而不会使内存耗尽或不堪重负。

处理未知词

有时候,模特会遇到以前没见过的词。如果模型只懂得整个单词,遇到一些不寻常的东西,比如" supercalifragilisticexpialidocious ,"它可能不知道该怎么做。子词符号化可以帮助将这个词分解成更小的部分,如"超级"、"卡利"和"弗拉格",这样模型就有可能理解它。

多种语言和复杂文本

不同的语言以独特的方式构成单词。符号化有助于用不同的字母来分解语言中的单词,比如阿拉伯语或汉语,甚至处理复杂的事情,比如社交媒体上的标签(#后后文)。

符号化如何帮助

让我们来看看符号化是如何帮助模型处理一个复杂单词的句子的。

想象一个语言模型给出了这句话:

" 人工智能正在以前所未有的速度改变工业 ."

没有符号化,模型可能难以理解整个句子。但是,当被标记为:

有符号的版本(子词) :

· ["Artificial", "intelligence", "is", "transform", "ing", "industr", "ies", "at", "an", "unprecedented", "rate"]

现在,尽管"转换"和"产业"可能是个棘手的词,但模型将它们分解为更简单的部分("转换"、"ING"、"INSTR"、"IES")。这使模型更容易向它们学习。

符号化的挑战

虽然符号化是必要的,但它并不完美。有一些挑战:

没有空格的语言

有些语言,如汉语或泰语,在单词之间没有空格。这使得符号化变得困难,因为模型必须决定一个词的结尾和另一个词的开头。

含糊不清的话

当一个词有多重含义时,符号化会很困难。例如,"铅"一词可能是指金属或负责人。符号化过程不能总是仅仅根据符号来确定正确的意义。

罕见的话

LMS经常遇到罕见的词汇或发明的术语,特别是在互联网上。如果一个单词不在模型的词汇表中,那么符号化过程可能会将其划分为笨拙或无用的符号。

我们能避免符号化吗?

考虑到它的重要性,下一个问题是,是否可以避免符号化。

理论上,可以通过在字符级别直接工作来构建不依赖于符号化的模型(即:,把每一个角色都当作象征)。但这种办法有缺点:

较高的计算费用

使用字符需要更多的计算。模型需要处理数百个字符,而不是仅仅处理一个句子的几个令牌。这大大增加了模型的内存和处理时间。

失去意义

人物本身并不总是有意义。例如,"苹果"中的字母"A"和"猫"中的"A"是一样的,但这两个词有完全不同的含义。没有标记来引导模型,人工智能就很难掌握上下文。

也就是说,一些实验模型正试图远离符号化。但是现在,符号化仍然是LLMS处理语言的最有效的方法。

结论

符号化看起来似乎是一个简单的任务,但它对于大的语言模型理解和处理人类语言是至关重要的。没有它,LLMS将很难理解文本,处理不同的语言,或处理罕见的单词。虽然一些研究正在寻找替代符号化的方法,但目前,它是LLMS工作方式的重要组成部分。

下一次你使用语言模型时,不管是回答问题、翻译课文还是写诗,记住:一切都是通过符号化实现的,它将单词分解成部分,这样人工智能就能更好地理解和回应。

主要措施

· 符号化是将文本分解成更小、更容易处理的片段的过程。代币 .

· 符号可以是单词、子单词或单个字符。

· 符号化对于模型有效处理文本、处理未知单词和跨语言工作至关重要。

· 虽然存在替代品,但标记化仍然是现代LLMS .

符号化在LLMS中的作用有关系吗

阿维塔、赛力斯已入股！华为引望可能成“中国博世”

Trianz与AWS达成战略合作协议，彻底改变云采用和管理方式

人工智能驱动工具SODA V将颠覆汽车市场，使汽车开发时间和成本降低90%

从容应对未知风险----解密亚马逊云科技的韧性之道

中国游戏市场开始复苏！腾讯、网易等巨头缩减在日本投资

独立自主！华为董事：致力打造不依赖西方的技术

华为张平安：数字世界话语权最终由生态繁荣决定！

中国通信服务公布2024年中期业绩

NVI技术创新联盟成立！自主生态将带动产业链高速发展

软通动力与长三角投资达成战略合作共谋数字生态新发展

海南区6家凯悦系酒店与岚图达成战略合作，共同推动新能源出行体验

安岚携手妮可•巴菲特开启疗愈之旅在秋日红叶的浪漫中疗愈身心

不惧美国封锁！华为：我们给大家提供系统、存储等

尼尔森IQ深耕中国四十载，共绘未来新篇章

第二十二届跨盈年度B2B营销高管峰会2025聚焦"营销竞取，打破市场内卷实现认知进化"

恒久动力驰骋天地美孚1号携手周冠宇邀您纵擎驰骋，劲享驾趣体验

美通社母公司Cision发布CisionOne平台，进军亚太地区媒体监测市场

移远通信推出大模型解决方案，重塑千行百业智能边界

高途公布2024年第二季度未经审计业绩

华为发布AI百校计划：培养AI人才每年获最高100万支持