了解推理时间计算

[导读]在机器学习和人工智能领域，推断是将经过训练的模型应用于现实世界数据以生成预测或决策的阶段。在模型接受了训练之后，可以在计算上进行密集且耗时，推理过程允许模型进行预测，以提供可行的结果。

在机器学习和人工智能领域，推断是将经过训练的模型应用于现实世界数据以生成预测或决策的阶段。在模型接受了训练之后，可以在计算上进行密集且耗时，推理过程允许模型进行预测，以提供可行的结果。

推理时间计算

推理时间计算是指使用训练有素的模型进行此类预测所需的计算能力量。训练模型涉及处理大型数据集以学习模式和关系，但推断是该模型用于对新的，看不见的数据进行预测的过程。在现实世界中，此阶段至关重要，例如图像识别，自然语言处理，自动驾驶汽车等。

虽然训练时间和准确性通常是ML模型开发过程中的重点，但推理时间和效率同样重要，尤其是在将模型部署到大规模生产环境中时。推断期间模型的性能会影响实时用户体验和功耗等各个现实世界方面。例如，在自动驾驶用例中，响应速度非常缓慢的模型可能无法使用。

自适应推理时间计算

尽管通过增加的预训练来扩展模型大小一直是改善模型性能的主要方法，但自适应推理时间计算使LLM在推理时在推理时间越来越多地思考，并使用各种策略来改善其初始响应。 LLM可以根据任务的感知难度自适应分配计算来更有效。

自适应推理时间计算是我们对LLM性能的看法，从固定的计算配额转变为更具动态和有效的方法的范式转变。自适应技术无需生成预定数量的响应或使用固定的计算配额进行搜索，而是根据任务的难度和自身感知到的改进能力，使模型可以随时调整其计算支出。例如，LLM可能会决定为一个充满挑战的数学问题生成更多样本，在该问题中，它正在努力寻找解决方案，同时迅速返回单个，自信的响应以进行简单的事实查询。这种适应性可以导致性能和效率的显着提高，从而使LLM可以在最小化浪费的计算时更有效地解决问题。

推论指标

有几种传统的指标来评估LLM TTFT，TBT，TPOT和归一化延迟的性能。尽管这些指标在某些方面很有用，但它们无法提供实时体验的完整图片，有时可能会产生误导。

是时候首先令牌(ttft)

该度量标准衡量请求到达的时间与第一个输出令牌的生成之间的延迟。它包括调度延迟，这取决于系统负载等因素和迅速处理时间，这受到迅速长度的影响。 TTFT的关键限制在于，它不能说明提示的长度。按及时长度归一化TTFT也不是理想的，因为它也将调度延迟归一化，因此对较短的输入请求的惩罚不成比例。

令牌之间的时间(TBT)

该度量代表了在解码阶段中每个后续代币产生的延迟，直接影响了感知的响应速度。优化TBT对于流体用户体验很重要，尤其是在诸如聊天之类的实时应用程序中。然而，TBT无法揭示令牌生成过程中摊位的幅度和时间。高尾巴TBT可以在生成过程的开始时表明一个摊位，这会大大破坏用户体验，但是此信息并非仅由TBT捕获。此外，TBT不考虑非统一的代币生成策略，例如投机解码，其中可以在单个迭代中生成多个令牌。

每个输出令牌(TPOT)的时间

该度量与TBT相似，代表在解码阶段生成输出令牌所需的平均时间。通过通过生成的解码令牌数量将总解码时间归一化来计算。 TPOT的主要问题是，它通过平均所有令牌上的延迟来掩盖令牌生成中的烦恼和失速。一个长的摊位可以显着影响用户体验，但是由于令牌数量的标准化，其对TPOT的影响在数值上很小。

归一化延迟

该度量计算请求的总执行时间，包括调度延迟，及时处理和解码时间，然后通过解码令牌数量进行归一化。在提供吞吐量的总体度量的同时，归一化延迟可能会掩盖重要细节，例如调度延迟。两个计划延迟截然不同的系统具有非常相似的归一化延迟值。像TPOT一样，标准化的延迟也可以掩盖令牌生成中的抖动和摊位。

流动性指数

TTFT，TBT和TPOT(TPOT)等传统指标无法完全捕获LLM交互中的实时用户体验，因为它们无法充分说明令牌生成速度的变化。为了解决这个问题，将流动性指数引入了一种新型度量标准，旨在反映LLM在诸如CHAT之类的实时应用中的细微差别。流动性指数的灵感来自实时系统中基于截止日期的评估，并在LLM中处理流媒体令牌的产生，例如定期任务。它通过根据所需的TTFT和TBT值为每个令牌生成的截止日期设置截止日期来起作用。更高的流动性索引表明一个更光滑，更一致的令牌生成过程，与实时应用程序中的用户期望更好。

影响推理时间的因素

几个因素会影响模型的推理时间。这些包括模型的复杂性，用于计算的硬件以及输入数据的性质。优化推理时间对于大规模部署机器学习模型至关重要。几种技术可以帮助减少模型进行预测所需的时间。

· 模型复杂性：更大，更复杂的模型通常需要更多时间来做出预测。例如，与更简单的模型(如决策树或线性回归)相比，具有数百万参数的深神经网络可能需要更长的时间来处理数据。

· 硬件：该模型运行的硬件平台显着影响推理时间。传统的CPU可能比专门的硬件(如GPU或TPU(张量处理单元))慢，该硬件已针对并行处理进行了优化，尤其是对于深度学习任务。

· 批处理大小：一次处理多个输入(一种称为批处理推断的方法)通常可以更快。但是，最佳批量尺寸取决于所使用的特定模型和硬件。批量太大可能会使系统不知所措，而批量太小可能不足以使硬件资源不足。

· 数据预处理：将输入数据传递给模型之前花费的时间也有助于整体推理时间。例如，诸如令牌化之类的任务可能会增加大量开销。

· 模型量化和修剪：通过量化，IE，降低模型权重的精度和修剪的精确度，IE，即删除模型的不必要部分，可以帮助减少记忆足迹和推理时间，从而优化模型。这些技术对于在资源约束设备上部署模型特别有用。

· 软件优化：专门的库和框架，例如Tensorrt，ONNX运行时或LITERT可以通过优化基础计算图来显着加快推理过程。此外，可以使用优化的精度算术降低，例如16位浮点而不是32位，以加快计算而无需牺牲太多准确性。

· 模型并行性：对于极大的模型，将工作负载跨多个设备拆分可以帮助减少推理时间，从而可以更快地处理。

· 边缘计算：对于涉及移动设备或物联网的应用程序，直接在边缘部署模型，即本地设备而不是依靠云服务，可以减少往返的通信时间，从而更快地推断。 EDGE计算允许实时决策无需将数据发送到远程服务器。

结论

推理时间计算是机器学习模型部署的关键因素，尤其是在性能，效率和用户体验至关重要的现实世界应用中。减少推理时间会导致更快，更具成本效益和可扩展的AI系统。随着AI技术的继续发展，硬件加速度，模型优化和有效的软件框架等技术将在确保推理尽可能快速和资源效率方面发挥越来越重要的作用。优化推理时间可以更好地体验用户体验，降低运营成本以及有效扩展AI系统的能力。