智谱推出四个全新端侧模型携英特尔按下AI普及加速键

随着AI的发展，端侧AI模型越来越受到广大客户及厂商的关注，业界领先的大模型公司智谱于近日推出了四个全新的端侧模型，加速AI前沿技术路径与创新应用场景探索，推动AI大模型普惠化发展。

四个模型中，GLM-Edge-4B-chat、GLM-Edge-1.5B-chat为端侧大语言模型，GLM-Edge-V-5B、GLM-Edge-V-2B为端侧多模态模型，这四个模型分别具有4.3B/1.5B/4.8B/2B参数量。两个端侧的大语言模型适合意图理解、智能对话、文本创作、知识库问答等，两个端侧的多模态模型适用于视觉理解、创意描述、本地搜索、图片问答等。这四个模型即将在Github、Huggingface、模搭等多个开源社区上发布。

为了确保这些新模型能够在实际应用中发挥卓越性能，英特尔与智谱紧密合作，利用最新的英特尔酷睿Ultra处理器（第二代）硬件平台和OpenVINO^TM AI推理加速软件对模型的性能进行优化。通过与英特尔的紧密合作，智谱的新模型在计算效率、推理速度和能效比等方面得到了显著提升。

英特尔酷睿Ultra处理器集成了专门的AI加速器，显著提升AI和机器学习任务的处理能力。OpenVINO^TM是由英特尔发起的AI推理优化部署软件框架，旨在优化和加速深度学习模型在各种英特尔硬件上的推理性能，提供高效的模型优化和跨平台部署能力，使得开发者能够在CPU、GPU、NPU 等多种硬件上实现卓越的AI推理性能。

在强大的硬件基础上，OpenVINO采用多种优化策略对智谱模型进行优化。INT4低精度模型量化；基于kvcache的stateful模型优化；基于模型图融合优化，包括SDPA GQA，RoPE fusion等等。

通过这些优化，英特尔在基于酷睿Ultra第二代处理器的AIPC上做到了对相关模型的Day 0（第零日）支持并取得了很好的性能（如下图）：