未来的数据取决于transformer模型与大数据转换

[导读]去年,我们目睹了大型AI的爆炸性崛起,产生了全球性的热情,使人工智能看起来像是所有问题的解决方案。今年,随着大肆宣传的减弱,大型模型进入了更深层次,目的是重塑各个行业的基本逻辑。在大数据处理领域,大型模型与传统ETL(提取、转换、负载)流程之间的冲突引发了新的争论。

去年,我们目睹了大型AI的爆炸性崛起,产生了全球性的热情,使人工智能看起来像是所有问题的解决方案。今年,随着大肆宣传的减弱,大型模型进入了更深层次,目的是重塑各个行业的基本逻辑。在大数据处理领域,大型模型与传统ETL(提取、转换、负载)流程之间的冲突引发了新的争论。

大型模型特点是"transformer",而ETL依靠的是"转换"过程--类似的名称代表了截然不同的范式。一些声音大胆预言: "ETL将在未来完全被替换,因为大型模型可以处理所有数据!" 这是否意味着几十年来支持数据处理的ETL框架的结束?还是仅仅是一个被误解的预言?这场冲突的背后是对科技未来的更深刻的思考。

大数据处理(ETL)会消失吗?

随着大型模型的迅速发展,一些人开始推测传统的大数据处理方法,包括ETL,是否仍然有必要。无可否认,能够自主学习规则并从大量数据集中发现模式的大型模型给人留下了深刻印象。不过,我的答案很明确: 他不会消失的。大型模型仍未能应对若干核心数据挑战:

1. 效率问题

尽管大型模型在特定任务中表现出色,但却要付出巨大的计算成本。训练大型transformer模型可能需要数周时间,耗费大量能源和财政资源。相比之下,ETL依赖于预先定义的规则和逻辑,是高效的,资源轻,擅长处理结构化数据。

对于日常企业数据任务,许多操作仍然是由规则驱动的,例如:

· 数据清理 :使用明确的规则或正则表达式消除异常。

· 格式转换 *使格式标准化,以便利数据传输和跨系统整合。

· 集合和统计 :每日、每周或每月分类、聚合和计算数据。

这些任务可以由ETL工具快速处理,而不需要大型模型的复杂推理能力。

2. 自然语言含糊不清

大型模型在自然语言处理但也暴露了固有的挑战--人类语言的含糊和含糊。例如:

· 单个输入查询可能会根据上下文产生不同的解释,无法保证准确性。

· 数据质量的差异可能导致模型产生与实际需求不一致的结果。

相反,ETL是确定性的,根据预先定义的规则处理数据,以产生可预测的、标准化的输出。在金融和医疗等高需求领域,ETL的可靠性和精确性仍然是至关重要的优势。

3. 强适应结构化数据

大型模型善于从非结构化数据中提取见解(例如:,文本,图像,视频),但经常与结构化数据任务斗争。例如:

· 传统的ETL有效地处理关系数据库,处理连接和组BYS等复杂的操作。

· 大型模型要求数据在处理之前转换成特定的格式,从而引入了冗余和延迟。

在结构性数据主导的情况下(例如:表,JSON),ETL仍然是最佳选择。

4. 解释和顺从

大型模型常被称为"黑匣子"。"即使数据处理工作完成,其内部工作和决策机制仍不透明:

· 无法解释的结果 :在金融和医疗等监管行业,大型模型的预测可能因缺乏透明度而无法使用。

· 遵守方面的挑战 :许多行业需要对数据流和处理逻辑进行全面审计。大型模型及其复杂的数据管道和决策机制构成了重大的审计挑战。

相比之下,ECL提供了高度透明的流程,记录了每一个数据处理步骤并进行了审计,确保遵守公司和行业标准。

5. 数据质量和输入标准化

大型模型对数据质量高度敏感。噪音、异常或非标准化投入会严重影响其性能:

· 数据噪音 :大型模型无法自动识别错误数据,可能将其用作"学习材料",并产生有偏见的预测。

· 缺乏标准化 :将未经清理的原始数据输入大型模型可能会导致不一致和值缺失,这就需要像ETL这样的预处理工具。

ECL确保数据在输入大型模型之前得到清理、复制和标准化,保持高数据质量。

尽管大型模型在许多领域都很出色,但它们的复杂性、对高质量数据的依赖、硬件的需求以及实际的局限性,确保了它们不能完全取代ETL。ETL作为一种确定性、高效和透明的工具,将继续与大型模型共存,为数据处理提供双重保障。

共同国家小组GPU:与ETL平行的。大型模型

虽然ETL无法替换,但大型模型在数据处理中的兴起是一个必然趋势。几十年来,计算机系统都以CIP为中心,其他组件都被认为是外围设备。GPS主要用于游戏,但今天, 数据处理依赖于CPU和GPS的协同作用。这种范式的转变反映了英特尔和英伟达公司股票趋势所反映的更广泛的变化。

从单中心到多中心计算

历史上,数据处理架构从"以CIP为中心"演变为"CPU+GPU(甚至NPU)协作。"由于计算性能要求的变化,这种转变对数据处理工具的选择产生了深刻影响。

在以CIP为中心的时代,早期ETL流程严重依赖CPU逻辑进行数据清理、格式化和聚合等操作。这些任务非常适合CPU的顺序处理能力。

然而,复杂数据格式(音频、视频、文本)的上升和指数存储的增长揭示了CPU能力的局限性。GPS拥有无与伦比的并行处理能力,此后在数据密集型任务中占据了中心地位,比如培训大型transformer模型。

从传统ETL到大型模型

传统ETL流程,优化为"以CIP为中心"的计算,擅长处理基于规则的结构化数据任务。实例包括:

· 数据验证和清理。

· 格式标准化。

· 集合和报告。

相比之下,大型模型则需要GPU功率来进行高尺寸矩阵计算和大规模参数优化:

· 预处理:实时标准化和数据分割。

· 模型培训:涉及浮点操作的繁重计算机任务。

· 输入服务:针对低延迟和高吞吐量的优化批处理。

这反映了一种转变神经推理的逻辑计算扩大数据处理,包括推理和知识提取。

为大型模型准备新一代ETL架构

大型模型的兴起凸显了传统数据处理效率低下的问题,这就需要一个更先进、更统一的体系结构。

当前数据处理中的痛苦点

1. 复杂的 , 支离破碎的过程 :数据清理、注释和预处理仍然是高度手动和孤立的。

2. 可重用性低 :团队经常重新创建数据管道,导致效率低下。

3. 质量不一致 :缺乏标准化工具导致数据质量不同。

4. 高成本 :每个团队的单独开发和维护增加了成本。

解决方案:Ai增强ETL工具

未来的ETL工具将嵌入人工智能功能,将传统的优势与现代智能融合在一起:

· 嵌入式发电 *对文本、图像和音频矢量化的内置支持。

· 法学院硕士 :非结构化数据的自动化结构化。

· 动态清洗规则 :优化数据清理战略。

· 非结构化数据处理支持键盘提取、OCR和语音对文本。

· 自动增强 :智能数据生成和增强。

终极趋势:transformer+变换

随着技术的不断进步,大型模型和传统ETL工艺正在逐步收敛。预计下一代ETL架构将把大型模型的智能与ETL的效率相融合,创建一个能够处理不同数据类型的综合框架。

硬件:数据处理单元的集成

数据处理的基础正在从以CIP为中心的系统转向涉及CPU和GPS的协作方法:

· 基本任务的中央业务单位 :CPU擅长基础操作,如初步数据清理、集成和基于规则的处理,如提取、转换和加载结构化数据。

· 高级分析通用数据表 :拥有强大的并行计算能力,GPS处理大型模型训练和预处理数据的推理任务。

这一趋势不仅反映在技术创新上,而且也反映在产业动态上:英特尔正在推进Cpui-AI协作的人工智能加速器,而NVIDIA正在将GPU应用扩展到传统的ETL场景中。CPU和GPS之间的协同作用为下一代数据处理提供了更高的效率和智能支持。

软件:数据处理架构集成

随着ETL和大型模型功能日益交织在一起,数据处理正在演变成一个多功能的协作平台,在这个平台上ETL充当大型模型的数据准备工具。

大型模型在培训期间需要高质量的输入数据,ETL提供初步处理,以创造理想的条件:

· 噪音清除及清洁 :消除噪音数据,以提高数据集的质量。

· 格式化和标准化：将不同的数据格式转换为适合大型模型的统一结构。

· 数据增强：通过预处理和基于规则的增强来扩展数据的规模和多样性。

ai增强的ETL架构的出现

ETL工具的未来在于嵌入人工智能的能力，以实现更智能的数据处理：

1.嵌入能力

· 集成用于生成嵌入的模块，以支持基于向量的数据处理。

· 为文本、图像和音频生成高维表示;在下游任务中使用预先训练好的模型进行语义嵌入。

· 直接在ETL工作流中执行嵌入计算，减少了对外部推理服务的依赖。

2. LLM Knowledge Extraction

· 利用大型语言模型(LLMS)有效地处理非结构化数据,提取实体和事件等结构化信息。

· 完成和推断复杂领域,如填补缺失的价值或预测未来趋势。

· 在数据集成过程中启用多语言数据转换和语义对齐。

3.非结构化数据识别和键盘提取

· 支持视频、图像和音频数据,使自动键盘提取用于注释或培训数据集。

· 从图像中提取特征(例如:,目标检测,OCR),并执行音频到文本转换,情绪分析等。

4.动态清洁规则

· 根据数据上下文动态调整清理和增强策略,以提高效率和相关性。

· 实时检测异常并生成自适应清洗规则。

· 优化特定领域的清理策略(例如:(金融、保健)。

5.自动数据增加和生成

· 通过人工智能模型(例如。,同义词替换,数据反向转换,对抗性样本生成)。

· 扩展低样本场景的数据集,并支持跨语言或跨域数据生成。

AI增强ETL是一个从传统ETL的转变飞跃,提供嵌入生成、基于LLM的知识提取、非结构化数据处理和动态规则生成,以显著提高数据处理的效率、灵活性和智能。

案例研究:阿帕奇--一个新一代的AI-增强ETL架构

例如,开源阿帕奇座位该项目正在通过支持创新数据格式和先进的处理能力,打破传统的ETL限制,展示数据处理的未来:

· 对非结构化数据的本土支持 :Seatunel引擎支持文本、视频和音频处理,以满足不同的模型培训需求。

· 矢量化数据支持 :能够与深度学习和大模型推理任务无缝兼容。

· 嵌入大型模型特征支持嵌入式生成和LLP转换,将传统ETL与AI推理工作流连接起来。

· "对任何"转换 ::从任何来源转换数据(例如:,数据库,双日志,PDF,SaaS,视频)到任何目标格式,提供无与伦比的多功能性。

像Seatunel这样的工具说明了现代数据处理如何演变成一个AI+大数据全堆协作系统,成为企业AI和数据策略的核心。

结论

大型模型transformer和大数据转换不是竞争对手,而是盟友。数据处理的未来在于ETL和大型模型的深入整合,具体说明如下:

1. 协作数据处理股 :利用Cpu-GSP的协同作用,进行结构化和非结构化数据处理。

2. 动态数据处理架构 :将人工智能嵌入到ETL中,用于嵌入生成、LLS知识提取和智能决策。

3. 下一代工具 :像阿帕奇赛恩涅尔这样的开源解决方案突出了这一趋势,使"对任何"数据转换和重新定义ETL边界成为可能。

大型模型和ETL的收敛将推动数据处理进入一个智能、标准化和开放的新时代。通过满足企业需求,这种演变将推动企业创新和智能决策,成为数据驱动型企业未来的核心引擎。

未来的数据取决于transformer模型与大数据转换

阿维塔、赛力斯已入股！华为引望可能成“中国博世”

Trianz与AWS达成战略合作协议，彻底改变云采用和管理方式

人工智能驱动工具SODA V将颠覆汽车市场，使汽车开发时间和成本降低90%

从容应对未知风险----解密亚马逊云科技的韧性之道

中国游戏市场开始复苏！腾讯、网易等巨头缩减在日本投资

独立自主！华为董事：致力打造不依赖西方的技术

华为张平安：数字世界话语权最终由生态繁荣决定！

中国通信服务公布2024年中期业绩

NVI技术创新联盟成立！自主生态将带动产业链高速发展

软通动力与长三角投资达成战略合作共谋数字生态新发展

海南区6家凯悦系酒店与岚图达成战略合作，共同推动新能源出行体验

安岚携手妮可•巴菲特开启疗愈之旅在秋日红叶的浪漫中疗愈身心

不惧美国封锁！华为：我们给大家提供系统、存储等

尼尔森IQ深耕中国四十载，共绘未来新篇章

第二十二届跨盈年度B2B营销高管峰会2025聚焦"营销竞取，打破市场内卷实现认知进化"

恒久动力驰骋天地美孚1号携手周冠宇邀您纵擎驰骋，劲享驾趣体验

美通社母公司Cision发布CisionOne平台，进军亚太地区媒体监测市场

移远通信推出大模型解决方案，重塑千行百业智能边界

高途公布2024年第二季度未经审计业绩

华为发布AI百校计划：培养AI人才每年获最高100万支持