符号化在LLMS中的作用有关系吗
扫描二维码
随时随地手机看文章
大型的语言模型(LMS),比如gpt-3、gpt-4,或者谷歌的伯特,已经成为人工智能(AI)如何理解和处理人类语言的一个重要组成部分。但是在这些模型背后隐藏着一个很容易被忽视的过程: 符号化 .本文将解释什么是符号化,为什么它如此重要,以及它是否可以避免。
想象一下,你正在阅读一本书,而不是单词和句子,整个文本只是一堆没有空格或标点符号的大字母。什么都说不通!这就是计算机处理原始文本的方式。为了使机器能够理解语言,文本需要被分解成更小的、可消化的部分.
什么是符号化?
符号化 将文本分解成更小的块的过程,对模型来说更容易理解。这些块可以是:
· 语言 : 大多数自然语言单位(例如:,"我","我","快乐"。
· 子词 当模型不知道整个单词时,较小的单元会起作用。,"跑","宁"中的"跑"。
· 人物 ::在某些情况下,单独的字母或符号(例如:、"A"、"B"、"C")。
为什么我们需要代币?
我们来举个例子:
" 一只敏捷的棕色狐狸跳过了那只懒狗 ."
计算机把这句话看作是一长串字母: Thequickbrownfoxjumpsoverthelazydog .
如果我们不把它分解成更小的部件或者 代币 .以下是这个句子的符号化版本:
1.字级符号化 :
· ["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog"]
2.分字形化 :
· ["The", "qu", "ick", "bro", "wn", "fox", "jump", "s", "over", "the", "lazy", "dog"]
3.字符级符号化 :
· ["T", "h", "e", "q", "u", "i", "c", "k", "b", "r", "o", "w", "n", "f", "o", "x", "j", "u", "m", "p", "s", "o", "v", "e", "r", "t", "h", "e", "l", "a", "z", "y", "d", "o", "g"]
然后模型从这些标记中学习,了解模式和关系。没有令牌,机器就不知道一个词的起点和终点,也不知道一个词的哪一部分是重要的。
符号化如何在LLMS中运作
大型语言模型 不要像人类那样"理解"语言。相反,他们分析文本数据中的模式。符号化对这一点至关重要,因为它有助于将文本分解为一个易于模型处理的表单。
大多数LLMS采用特定的符号化方法:
字节对编码(BPE)
这个方法将字符或子词组合成常用的组。例如,"跑"可以分为"跑"和"宁。BPE对于捕捉子字形层次的模式很有用。
字句
伯特等模型都采用了这种标记化方法。它的工作原理与BPE相似,但基于它们在上下文中的频率和意义构建标记。
句子部分
这是一种更通用的符号化方法,可以处理没有明确的单词边界的语言,如汉语或日语。
符号化如何在LLMS中运作
文本分解的方式可以显著地影响LRAM的性能。让我们来分析一下为什么符号化是必要的一些关键原因:
高效加工
语言模型需要处理大量的文本。标记化将文本减少为可管理的片段,使模型更容易处理大型数据集,而不会使内存耗尽或不堪重负。
处理未知词
有时候,模特会遇到以前没见过的词。如果模型只懂得整个单词,遇到一些不寻常的东西,比如" supercalifragilisticexpialidocious ,"它可能不知道该怎么做。子词符号化可以帮助将这个词分解成更小的部分,如"超级"、"卡利"和"弗拉格",这样模型就有可能理解它。
多种语言和复杂文本
不同的语言以独特的方式构成单词。符号化有助于用不同的字母来分解语言中的单词,比如阿拉伯语或汉语,甚至处理复杂的事情,比如社交媒体上的标签(#后后文)。
符号化如何帮助
让我们来看看符号化是如何帮助模型处理一个复杂单词的句子的。
想象一个语言模型给出了这句话:
" 人工智能正在以前所未有的速度改变工业 ."
没有符号化,模型可能难以理解整个句子。但是,当被标记为:
有符号的版本(子词) :
· ["Artificial", "intelligence", "is", "transform", "ing", "industr", "ies", "at", "an", "unprecedented", "rate"]
现在,尽管"转换"和"产业"可能是个棘手的词,但模型将它们分解为更简单的部分("转换"、"ING"、"INSTR"、"IES")。这使模型更容易向它们学习。
符号化的挑战
虽然符号化是必要的,但它并不完美。有一些挑战:
没有空格的语言
有些语言,如汉语或泰语,在单词之间没有空格。这使得符号化变得困难,因为模型必须决定一个词的结尾和另一个词的开头。
含糊不清的话
当一个词有多重含义时,符号化会很困难。例如,"铅"一词可能是指金属或负责人。符号化过程不能总是仅仅根据符号来确定正确的意义。
罕见的话
LMS经常遇到罕见的词汇或发明的术语,特别是在互联网上。如果一个单词不在模型的词汇表中,那么符号化过程可能会将其划分为笨拙或无用的符号。
我们能避免符号化吗?
考虑到它的重要性,下一个问题是,是否可以避免符号化。
理论上,可以通过在字符级别直接工作来构建不依赖于符号化的模型(即:,把每一个角色都当作象征)。但这种办法有缺点:
较高的计算费用
使用字符需要更多的计算。模型需要处理数百个字符,而不是仅仅处理一个句子的几个令牌。这大大增加了模型的内存和处理时间。
失去意义
人物本身并不总是有意义。例如,"苹果"中的字母"A"和"猫"中的"A"是一样的,但这两个词有完全不同的含义。没有标记来引导模型,人工智能就很难掌握上下文。
也就是说,一些实验模型正试图远离符号化。但是现在,符号化仍然是LLMS处理语言的最有效的方法。
结论
符号化看起来似乎是一个简单的任务,但它对于大的语言模型理解和处理人类语言是至关重要的。没有它,LLMS将很难理解文本,处理不同的语言,或处理罕见的单词。虽然一些研究正在寻找替代符号化的方法,但目前,它是LLMS工作方式的重要组成部分。
下一次你使用语言模型时,不管是回答问题、翻译课文还是写诗,记住:一切都是通过符号化实现的,它将单词分解成部分,这样人工智能就能更好地理解和回应。
主要措施
· 符号化是将文本分解成更小、更容易处理的片段的过程。 代币 .
· 符号可以是单词、子单词或单个字符。
· 符号化对于模型有效处理文本、处理未知单词和跨语言工作至关重要。
· 虽然存在替代品,但标记化仍然是 现代LLMS .