如何缩放RAG并构建更精确的LLMS

[导读]恢复增强一代 RAG已经成为一种主要的模式,以消除幻觉和其他影响大型语言模型内容生成的不准确。然而,RAP需要围绕它的正确的数据体系结构来有效和高效地扩展。数据流方法为向LLMS提供大量不断丰富、可信的数据以产生准确结果的最佳架构奠定了基础。这种方法还允许数据和应用程序团队独立工作和规模化,以加快创新。

恢复增强一代 RAG已经成为一种主要的模式,以消除幻觉和其他影响大型语言模型内容生成的不准确。然而,RAP需要围绕它的正确的数据体系结构来有效和高效地扩展。数据流方法为向LLMS提供大量不断丰富、可信的数据以产生准确结果的最佳架构奠定了基础。这种方法还允许数据和应用程序团队独立工作和规模化,以加快创新。

基础性LMS,如GTPT和LMA,接受了大量数据的培训,通常能够对广泛的主题做出合理的回应,但确实产生了错误的内容。正如福雷斯特最近指出的那样,公共LLMS"经常产生不相关或完全错误的结果",因为他们的培训数据侧重于公开的互联网数据。此外,这些基本LMS完全无视锁定在客户数据库、企业资源规划系统、企业维基和其他内部数据源中的企业数据。必须利用这些隐藏数据来提高准确性,并释放实际业务价值。

RAG允许数据团队将提示与特定领域的公司数据实时化。有了这个额外的上下文,LLS更有可能在数据中识别正确的模式,并提供正确的、相关的响应。这对于流行的企业使用案例(如语义搜索、内容生成或复制)至关重要,在这些案例中,输出必须基于准确的、最新的信息才能是可信的。

为什么不仅仅训练一个关于公司特定数据的LLM呢?

目前生成性人工智能的最佳做法往往要求通过培训大量数据上的十亿节点变压器来创建基础模型,使这种方法对大多数组织来说成本过高。比如说,他说超过1亿美元去训练GTP-4。研究和工业界已开始为小型语言模型和较便宜的培训方法提供有希望的结果,但这些还没有被推广和商品化。对现有模式进行微调是另一种资源密集程度较低的方法,将来也可能成为一种好的选择,但这一方法仍然需要大量的专门知识才能正确。LLMS的好处之一是,他们使对AI的访问民主化,但不得不雇佣一个博士团队来微调一个模型,这在很大程度上否定了这种好处。

RAG是当今最好的选择,但它的实施方式必须能够提供准确和最新的信息,并以一种可以跨应用程序和团队进行扩展的管理方式。为了了解为什么事件驱动的体系结构最适合于此,我们可以看看四个热奈应用程序开发模式。

1.数据增强

应用程序必须能够提取相关的上下文信息,通常是通过使用向量数据库来查找语义相似的信息,通常编码在半结构化或非结构化文本中。这意味着从不同的操作库中收集数据,并将其"分块"到可管理的部分,从而保留其含义。然后将这些信息块嵌入到向量数据库中,在那里它们可以与提示符耦合。

事件驱动的体系结构在这里是有益的,因为它是一种有效的方法,可以实时集成来自整个企业的不同数据源,提供可靠和可信的信息。相比之下,使用级联批处理操作的更为传统的ETL(提取、转换、负载)管道不太适合使用,因为当信息到达LLP时,它通常会失效。事件驱动的体系结构确保在对操作数据存储进行更改时,这些更改会被转移到将用于上下文化提示的向量存储中。将这些数据组织成流数据产品也有助于可重用性,因此这些数据转换可以被看作是可组合的组件,可以支持多个使用LLP的应用程序的数据增强。

2. Inference

推断涉及到工程提示和先前步骤中准备的数据和处理来自LOM的响应。当用户发出提示时,应用程序从向量数据库或对等服务中收集相关上下文,以生成尽可能好的提示。

像Tg-1这样的应用程序通常需要几秒钟的时间来响应,这是分布式系统中的永恒。使用事件驱动的方法意味着这种通信可以在服务和团队之间异步进行。有了事件驱动的体系结构,服务可以按照功能专业进行分解,这使应用程序开发团队和数据团队能够分别工作,以实现其性能和准确性目标。

此外,通过提供分解的、专门的服务而不是单一的服务,这些应用程序可以独立地部署和扩展。这有助于减少进入市场的时间,因为新的推理步骤是消费者群体,并且组织可以模板基础结构快速实例化这些。

3. Workflows

推理代理和推理步骤通常被链接到序列中,其中下一个LLM调用基于以前的响应。这在复杂任务的自动化中是有用的,在这些复杂任务中,单个LRAM调用将不足以完成流程。将代理分解为调用链的另一个原因是,当我们提出多个更简单的问题时,如今流行的LLMS往往会返回更好的结果,尽管这种情况正在发生变化。

下面的示例工作流说明,通过数据流平台,Web开发团队可以独立于后端系统工程师工作,允许每个团队根据自己的需要进行规模化。数据流平台能够实现技术、团队和系统的脱钩。