当前位置:首页 > 物联网 > 智能应用
[导读]大型语言模型 改变了自然语言处理(NLP) 通过生成类人的文本,回答复杂的问题,分析大量的信息,以令人印象深刻的准确性。从客户服务到医学研究,他们能够处理各种各样的询问并做出详细的答复,这使他们在许多领域都具有无价之宝。然而,随着LLMS用于处理更多的数据,它们在管理长文档和高效检索最相关的信息方面遇到挑战。

大型语言模型 改变了自然语言处理(NLP) 通过生成类人的文本,回答复杂的问题,分析大量的信息,以令人印象深刻的准确性。从客户服务到医学研究,他们能够处理各种各样的询问并做出详细的答复,这使他们在许多领域都具有无价之宝。然而,随着LLMS用于处理更多的数据,它们在管理长文档和高效检索最相关的信息方面遇到挑战。

尽管LLMS善于处理和生成类人的文本,但他们有一个有限的"上下文窗口"。"这意味着他们一次只能在内存中保存一定数量的信息,这就很难管理很长的文档。对于LLMS来说,快速从大型数据集中找到最相关的信息也是一个挑战。除此之外,LLMS还接受固定数据培训,因此随着新信息的出现,它们可能会变得过时。为了保持准确和有用,它们需要定期更新。

回收增加的一代 (RAG) (打开新窗口)应对这些挑战。该工作流中有许多组件,如查询、嵌入、索引等。今天,让我们来探索分块策略。

通过将文档分成较小的、有意义的段并将它们嵌入到向量数据库中,Raga系统只能为每个查询搜索和检索最相关的块。这种方法使LLMS能够侧重于具体信息,提高响应的准确性和效率。

在本文中,我们将更深入地探讨分块及其不同的策略,以及它们在优化中的作用。

什么是块?

"块"是指将大数据源分解成更小、更容易处理的数据块或"块"。"这些块存储在向量数据库中,可以根据相似性进行快速有效的搜索。当用户提交查询时,向量数据库会找到最相关的块并将它们发送到语言模型。这样,模型只能侧重于最相关的信息,使其响应更快、更准确。

通过缩小需要查看的数据范围,块可以帮助语言模型更流畅地处理大型数据集,并提供精确的答案。

对于需要快速、准确答案的应用程序--比如客户支持或合法文档搜索--分块是提高性能和可靠性的一个基本策略。

下面是在破布中使用的一些主要的分块策略:

· 固定尺寸的块块

· 递归分块

· 语义分块

· 不间断分块

现在,让我们深入探讨每个分块策略的细节。

1.固定尺寸的块块

固定大小的分块包括将数据划分为平均尺寸的部分,这样就更容易处理大型文档。

有时候,开发人员会在块之间添加一些重叠,其中一个段的一小部分在下一个段的开头被重复。这种重叠方法帮助模型在每个块的边界之间保留上下文,确保关键信息不会在边缘丢失。这一战略对于需要连续信息流的任务特别有用,因为它使模型能够更准确地解释文本和理解各部分之间的关系,从而使答复更加连贯一致,更符合实际情况。

上面的例子是 固定尺寸的块块 ,其中每一块都用一种独特的颜色来表示。绿色部分表示块之间的重叠部分,确保模型在处理下一个块时能够访问相关上下文。

这种重叠提高了模型处理和理解全文的能力,从而在任务(如摘要或翻译)中产生了更好的性能,在这些任务中,保持跨块边界的信息流是至关重要的。

2.递归分块

递归分块法是一种方法,系统地将广泛的文本划分为较小的、可管理的部分,方法是反复地将其分解为亚块。这一方法对于复杂或层次化的文档尤为有效,确保每个部分保持连贯性和完整的上下文。这个过程一直持续到文本达到适合有效处理的规模为止。

例如,考虑需要由具有有限上下文窗口的语言模型处理的冗长文档。递归分块将首先将文档划分为主要部分。如果这些部分仍然太大,该方法将把它们进一步划分为子部分,并继续这个过程,直到每个块都符合模型的处理能力。这种分层分解保存了原始文档的逻辑流和上下文,使模型能够更有效地处理长文本。

实际上,递归分块可以使用各种策略实现,例如根据文档的结构和任务的具体要求,根据标题、段落或句子进行分块。

在图中,文本被分成四个块,每个块以不同的颜色显示,使用递归块。文本被分解成更小的、可管理的部分,每个块最多包含80个单词。数据块之间没有重叠。颜色编码有助于显示内容如何被分割成逻辑部分,使模型更容易处理和理解长文本,而不丢失重要的上下文。

在理解了基于长度的两个分块策略之后,现在是时候来理解一个分块策略了,它更侧重于文本的意义/上下文。

3.语义分块

语义分块是指根据内容的意义或上下文将文本划分为块。这种方法通常使用 机器学习 (打开新窗口) 或 自然语言处理 (NLP) (打开新窗口) 识别文本中具有类似含义的章节的技术,例如句子嵌入,或 语义结构 .

在插图中,每个块由不同的颜色表示-蓝色的人工智能和黄色的提示工程。这些块是分开的,因为它们包含了不同的概念。这种方法保证模型能够清楚地理解每个主题,而不把它们混在一起。

在这些策略中,不间断分块是一种强大的策略。在此策略中,我们利用LLMS(如GTP)作为分块过程中的代理。而不是手动决定如何划分内容,LLS主动组织或划分信息的理解输入。在任务上下文的影响下,LLS确定了将内容分解为可管理的片段的最佳方法。

插图显示了一个分块代理将一个大的文本分解为更小的,有意义的片段。这个代理由AI提供动力,它帮助他更好地理解文本,并将其划分为有意义的块。我们称之为 不间断分块 与简单地将文本切成相等的部分相比,这是一种更聪明的处理文本的方法。

分块策略比较

为了更容易理解不同的分块方法,下表比较了固定大小的分块、递归分块、语义分块和非固定分块。它突出了每个方法如何工作,何时使用,以及它们的局限性。

重庆式描述方法最好的限制

固定尺寸的块块将文本分成大小相等的块,而不考虑内容。根据固定的字词或字数限制所创建的块。简单的结构化文本,其中上下文的连续性不那么重要。可能失去上下文或句子/思想分裂。

递归分块不断地将文本分成较小的块,直到它达到可管理的大小。分层分裂,如果太大的话进一步分解。长文件、复杂文件或分层文件(例如:技术手册)。如果章节过于宽泛,可能仍会失去上下文。

语义分块根据意义或相关的主题将文本分成几块.使用NLP技术,如句子嵌入组相关内容。对背景敏感的任务,其中一致性和专题连续性至关重要。需要NLP技术;更复杂的实现。

不间断分块利用人工智能模型(如GTP)将内容自主地划分为有意义的部分。基于模型的理解和特定任务上下文的i驱动分割。内容结构不同的复杂任务,AI可以优化分割。可能是不可预测的,需要调整。

结论

要提高LLMS,就必须有大规模的策略和抹布。分组有助于将复杂的数据简化为更小、更易于管理的部分,从而促进更有效的处理,而LLMS则通过将实时数据检索纳入生成工作流来改进。总体而言,这些方法使LLMS能够通过将有组织的数据与活跃的当前信息合并起来,提供更精确、更符合上下文的答复。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭