当前位置:首页 > 物联网 > 智能应用
[导读]去年,我们目睹了大型AI的爆炸性崛起,产生了全球性的热情,使人工智能看起来像是所有问题的解决方案。今年,随着大肆宣传的减弱,大型模型进入了更深层次,目的是重塑各个行业的基本逻辑。在大数据处理领域,大型模型与传统ETL(提取、转换、负载)流程之间的冲突引发了新的争论。

去年,我们目睹了大型AI的爆炸性崛起,产生了全球性的热情,使人工智能看起来像是所有问题的解决方案。今年,随着大肆宣传的减弱,大型模型进入了更深层次,目的是重塑各个行业的基本逻辑。在大数据处理领域,大型模型与传统ETL(提取、转换、负载)流程之间的冲突引发了新的争论。

大型模型 特点是"transformer",而ETL依靠的是"转换"过程--类似的名称代表了截然不同的范式。一些声音大胆预言: "ETL将在未来完全被替换,因为大型模型可以处理所有数据!" 这是否意味着几十年来支持数据处理的ETL框架的结束?还是仅仅是一个被误解的预言?这场冲突的背后是对科技未来的更深刻的思考。

大数据处理(ETL)会消失吗?

随着大型模型的迅速发展,一些人开始推测传统的大数据处理方法,包括ETL,是否仍然有必要。无可否认,能够自主学习规则并从大量数据集中发现模式的大型模型给人留下了深刻印象。不过,我的答案很明确: 他不会消失的。 大型模型仍未能应对若干核心数据挑战:

1. 效率问题

尽管大型模型在特定任务中表现出色,但却要付出巨大的计算成本。训练大型transformer模型可能需要数周时间,耗费大量能源和财政资源。相比之下,ETL依赖于预先定义的规则和逻辑,是高效的,资源轻,擅长处理结构化数据。

对于日常企业数据任务,许多操作仍然是由规则驱动的,例如:

· 数据清理 :使用明确的规则或正则表达式消除异常。

· 格式转换 *使格式标准化,以便利数据传输和跨系统整合。

· 集合和统计 :每日、每周或每月分类、聚合和计算数据。

这些任务可以由ETL工具快速处理,而不需要大型模型的复杂推理能力。

2. 自然语言含糊不清

大型模型在 自然语言处理 但也暴露了固有的挑战--人类语言的含糊和含糊。例如:

· 单个输入查询可能会根据上下文产生不同的解释,无法保证准确性。

· 数据质量的差异可能导致模型产生与实际需求不一致的结果。

相反,ETL是确定性的,根据预先定义的规则处理数据,以产生可预测的、标准化的输出。在金融和医疗等高需求领域,ETL的可靠性和精确性仍然是至关重要的优势。

3. 强适应结构化数据

大型模型善于从非结构化数据中提取见解(例如:,文本,图像,视频),但经常与结构化数据任务斗争。例如:

· 传统的ETL有效地处理关系数据库,处理连接和组BYS等复杂的操作。

· 大型模型要求数据在处理之前转换成特定的格式,从而引入了冗余和延迟。

在结构性数据主导的情况下(例如:表,JSON),ETL仍然是最佳选择。

4. 解释和顺从

大型模型常被称为"黑匣子"。"即使数据处理工作完成,其内部工作和决策机制仍不透明:

· 无法解释的结果 :在金融和医疗等监管行业,大型模型的预测可能因缺乏透明度而无法使用。

· 遵守方面的挑战 :许多行业需要对数据流和处理逻辑进行全面审计。大型模型及其复杂的数据管道和决策机制构成了重大的审计挑战。

相比之下,ECL提供了高度透明的流程,记录了每一个数据处理步骤并进行了审计,确保遵守公司和行业标准。

5. 数据质量和输入标准化

大型模型对数据质量高度敏感。噪音、异常或非标准化投入会严重影响其性能:

· 数据噪音 :大型模型无法自动识别错误数据,可能将其用作"学习材料",并产生有偏见的预测。

· 缺乏标准化 :将未经清理的原始数据输入大型模型可能会导致不一致和值缺失,这就需要像ETL这样的预处理工具。

ECL确保数据在输入大型模型之前得到清理、复制和标准化,保持高数据质量。

尽管大型模型在许多领域都很出色,但它们的复杂性、对高质量数据的依赖、硬件的需求以及实际的局限性,确保了它们不能完全取代ETL。ETL作为一种确定性、高效和透明的工具,将继续与大型模型共存,为数据处理提供双重保障。

共同国家小组GPU:与ETL平行的。大型模型

虽然ETL无法替换,但大型模型在数据处理中的兴起是一个必然趋势。几十年来,计算机系统都以CIP为中心,其他组件都被认为是外围设备。GPS主要用于游戏,但今天, 数据处理依赖于CPU和GPS的协同作用。 这种范式的转变反映了英特尔和英伟达公司股票趋势所反映的更广泛的变化。

从单中心到多中心计算

历史上,数据处理架构从"以CIP为中心"演变为"CPU+GPU(甚至NPU)协作。"由于计算性能要求的变化,这种转变对数据处理工具的选择产生了深刻影响。

在以CIP为中心的时代,早期ETL流程严重依赖CPU逻辑进行数据清理、格式化和聚合等操作。这些任务非常适合CPU的顺序处理能力。

然而,复杂数据格式(音频、视频、文本)的上升和指数存储的增长揭示了CPU能力的局限性。GPS拥有无与伦比的并行处理能力,此后在数据密集型任务中占据了中心地位,比如培训大型transformer模型。

从传统ETL到大型模型

传统ETL流程,优化为"以CIP为中心"的计算,擅长处理基于规则的结构化数据任务。实例包括:

· 数据验证和清理。

· 格式标准化。

· 集合和报告。

相比之下,大型模型则需要GPU功率来进行高尺寸矩阵计算和大规模参数优化:

· 预处理:实时标准化和数据分割。

· 模型培训:涉及浮点操作的繁重计算机任务。

· 输入服务:针对低延迟和高吞吐量的优化批处理。

这反映了一种转变 神经推理的逻辑计算 扩大数据处理,包括 推理和知识提取。

为大型模型准备新一代ETL架构

大型模型的兴起凸显了传统数据处理效率低下的问题,这就需要一个更先进、更统一的体系结构。

当前数据处理中的痛苦点

1. 复杂的 , 支离破碎的过程 :数据清理、注释和预处理仍然是高度手动和孤立的。

2. 可重用性低 :团队经常重新创建数据管道,导致效率低下。

3. 质量不一致 :缺乏标准化工具导致数据质量不同。

4. 高成本 :每个团队的单独开发和维护增加了成本。

解决方案:Ai增强ETL工具

未来的ETL工具将嵌入人工智能功能,将传统的优势与现代智能融合在一起:

· 嵌入式发电 *对文本、图像和音频矢量化的内置支持。

· 法学院硕士 :非结构化数据的自动化结构化。

· 动态清洗规则 :优化数据清理战略。

· 非结构化数据处理 支持键盘提取、OCR和语音对文本。

· 自动增强 :智能数据生成和增强。

终极趋势:transformer+变换

随着技术的不断进步,大型模型和传统ETL工艺正在逐步收敛。预计下一代ETL架构将把大型模型的智能与ETL的效率相融合,创建一个能够处理不同数据类型的综合框架。

硬件:数据处理单元的集成

数据处理的基础正在从以CIP为中心的系统转向涉及CPU和GPS的协作方法:

· 基本任务的中央业务单位 :CPU擅长基础操作,如初步数据清理、集成和基于规则的处理,如提取、转换和加载结构化数据。

· 高级分析通用数据表 :拥有强大的并行计算能力,GPS处理大型模型训练和预处理数据的推理任务。

这一趋势不仅反映在技术创新上,而且也反映在产业动态上:英特尔正在推进Cpui-AI协作的人工智能加速器,而NVIDIA正在将GPU应用扩展到传统的ETL场景中。CPU和GPS之间的协同作用为下一代数据处理提供了更高的效率和智能支持。

软件:数据处理架构集成

随着ETL和大型模型功能日益交织在一起,数据处理正在演变成一个多功能的协作平台,在这个平台上ETL充当大型模型的数据准备工具。

大型模型在培训期间需要高质量的输入数据,ETL提供初步处理,以创造理想的条件:

· 噪音清除及清洁 :消除噪音数据,以提高数据集的质量。

· 格式化和标准化:将不同的数据格式转换为适合大型模型的统一结构。

· 数据增强:通过预处理和基于规则的增强来扩展数据的规模和多样性。

ai增强的ETL架构的出现

ETL工具的未来在于嵌入人工智能的能力,以实现更智能的数据处理:

1.嵌入能力

· 集成用于生成嵌入的模块,以支持基于向量的数据处理。

· 为文本、图像和音频生成高维表示;在下游任务中使用预先训练好的模型进行语义嵌入。

· 直接在ETL工作流中执行嵌入计算,减少了对外部推理服务的依赖。

2. LLM Knowledge Extraction

· 利用大型语言模型(LLMS)有效地处理非结构化数据,提取实体和事件等结构化信息。

· 完成和推断复杂领域,如填补缺失的价值或预测未来趋势。

· 在数据集成过程中启用多语言数据转换和语义对齐。

3.非结构化数据识别和键盘提取

· 支持视频、图像和音频数据,使自动键盘提取用于注释或培训数据集。

· 从图像中提取特征(例如:,目标检测,OCR),并执行音频到文本转换,情绪分析等。

4.动态清洁规则

· 根据数据上下文动态调整清理和增强策略,以提高效率和相关性。

· 实时检测异常并生成自适应清洗规则。

· 优化特定领域的清理策略(例如:(金融、保健)。

5.自动数据增加和生成

· 通过人工智能模型(例如。,同义词替换,数据反向转换,对抗性样本生成)。

· 扩展低样本场景的数据集,并支持跨语言或跨域数据生成。

AI增强ETL是一个从传统ETL的转变飞跃,提供嵌入生成、基于LLM的知识提取、非结构化数据处理和动态规则生成,以显著提高数据处理的效率、灵活性和智能。

案例研究:阿帕奇--一个新一代的AI-增强ETL架构

例如,开源 阿帕奇座位 该项目正在通过支持创新数据格式和先进的处理能力,打破传统的ETL限制,展示数据处理的未来:

· 对非结构化数据的本土支持 :Seatunel引擎支持文本、视频和音频处理,以满足不同的模型培训需求。

· 矢量化数据支持 :能够与深度学习和大模型推理任务无缝兼容。

· 嵌入大型模型特征 支持嵌入式生成和LLP转换,将传统ETL与AI推理工作流连接起来。

· "对任何"转换 ::从任何来源转换数据(例如:,数据库,双日志,PDF,SaaS,视频)到任何目标格式,提供无与伦比的多功能性。

像Seatunel这样的工具说明了现代数据处理如何演变成一个AI+大数据全堆协作系统,成为企业AI和数据策略的核心。

结论

大型模型transformer和大数据转换不是竞争对手,而是盟友。数据处理的未来在于ETL和大型模型的深入整合,具体说明如下:

1. 协作数据处理股 :利用Cpu-GSP的协同作用,进行结构化和非结构化数据处理。

2. 动态数据处理架构 :将人工智能嵌入到ETL中,用于嵌入生成、LLS知识提取和智能决策。

3. 下一代工具 :像阿帕奇赛恩涅尔这样的开源解决方案突出了这一趋势,使"对任何"数据转换和重新定义ETL边界成为可能。

大型模型和ETL的收敛将推动数据处理进入一个智能、标准化和开放的新时代。通过满足企业需求,这种演变将推动企业创新和智能决策,成为数据驱动型企业未来的核心引擎。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭