数据整合第二部分,什么是数据集成体系结构模式?
扫描二维码
随时随地手机看文章
在本节中,我们将探究集成模式的数组,每个模式都是为了提供无缝集成解决方案而定制的。这些模式作为结构化的框架,促进了不同系统之间的联系和数据交换。它们大致分为三类:
1. 实时数据集成
2. 近实时数据集成
3. 批数据集成
1.实时数据集成
在各个行业,实时数据摄入是一个关键要素。让我们来探究一下它的实际应用实例:
· 社交媒体资料显示最新的帖子、趋势和活动。
· 智能家居使用实时数据来自动化任务。
· 银行利用实时数据监测交易和投资。
· 运输公司利用实时数据优化运输路线。
· 在线零售商使用实时数据个性化购物体验。
了解实时数据摄取机制和架构对于为组织选择最佳方法至关重要。
实际上,有许多实时数据集成架构可供选择。其中最常用的架构包括:
1. 流线型建筑
2. 事件驱动集成架构
3. 兰布达建筑
4. 卡帕建筑
这些架构都提供了其独特的优势和用例,满足了特定的需求和操作需求。
A. 基于流的数据集成架构
在基于流的体系结构中,数据流在到达时会不断被吸收。像阿帕奇卡夫卡这样的工具被用于实时数据的收集、处理和分发。
该架构非常适合处理高速、大容量数据,同时确保数据质量和低延迟的洞察力。
以阿帕奇卡夫卡为动力的基于流程的架构使数据处理发生了革命性的变化。它涉及到持续的数据摄取、实时收集、处理和分发。这种方法有助于实时数据处理,处理大量数据,并优先考虑数据质量和低延迟洞察力。
下图展示了流数据集成体系结构中涉及的各个组件。
b. 事件驱动集成架构
一种 事件驱动体系结构 是一种高度可伸缩和高效的现代应用程序和微型服务方法。这个体系结构响应系统中的特定事件或触发器,在事件发生时吸收数据,使系统能够对变化作出快速反应。这样可以有效地处理来自各种来源的大量数据。
C. 集成架构
该体系结构采用了混合方法,巧妙地融合了批处理和实时数据摄入的优势。它由两个平行数据管道组成,每个管道具有不同的目的。批处理层熟练处理历史数据的处理,而速度层快速处理实时数据。这种体系结构设计确保低延迟的洞察力,即使在广泛的分布式系统中也能保持数据的准确性和一致性。
D.发展 卡帕数据集成体系结构
KPAPA体系结构是为实时数据处理而专门设计的一个简化的LDAB体系结构。它使用一个单独的流处理引擎,如阿帕奇弗林克或阿帕奇卡夫卡流,以管理历史和实时数据,简化数据摄入管道。这种方法最大限度地减少复杂性和维护费用,同时提供快速和准确的见解。
2.近实时数据集成
在几乎实时的数据集成中,数据在生成后不久即得到处理和提供,这对于需要及时更新数据的应用程序至关重要。用于近实时数据整合的模式有几种,其中一些突出说明如下:
A.更改数据采集-数据集成
更改数据捕捉( 疾病控制中心 )是一种捕捉源系统数据中发生的更改并将这些更改传播到目标系统的方法。
B.数据复制-数据集成体系结构
通过数据复制集成架构,两个数据库可以无缝有效地复制基于特定需求的数据。这个架构确保目标数据库与源数据库保持同步,为两个系统提供最新和一致的数据。因此,复制过程是平稳的,可以在两个数据库之间进行有效的数据传输和同步。
C.数据虚拟化-数据集成体系结构
在数据虚拟化中,虚拟层将不同的数据源集成到一个统一视图中。它消除了数据复制,基于数据位置性和性能等因素动态地将查询路由到源系统,并提供了一个统一的元数据层。虚拟层简化了数据管理,提高了查询性能,并便利了数据治理和高级集成场景。它赋予各组织有效利用其数据资产并释放其全部潜力的权力。
3.批处理程序:数据集成
批数据集成涉及到在批处理中合并和传递消息或记录集合,以最大限度地减少网络流量和开销。批处理在一段时间内收集数据,然后成批处理。当处理大量数据量或处理需要大量资源时,这种方法特别有益。此外,这个模式使主数据的复制能够为分析目的复制存储。这一过程的优点是传播精炼结果。传统的批处理数据集成模式是:
传统ETL架构- 数据集成架构
该架构设计坚持传统的提取、转换和负载(ETL)过程。在这个架构中,有几个组成部分:
· 摘录: 数据来自各种来源系统。
· 转换: 数据进行转换过程,将其转换为所需的格式。
· 负荷: 然后将转换后的数据加载到指定的目标系统,如数据仓库。
递增批处理- 数据集成架构
这个体系结构通过只关注来自前批处理周期的新数据或修改数据来优化处理。与全批处理相比,这种方法提高了效率,并减轻了系统资源的负担。
微批量加工- 数据集成架构
在微批处理中,小批数据按定期、频繁的间隔进行处理。它实现了传统的批处理和实时处理之间的平衡。与传统的批处理技术相比,这种方法大大降低了延迟,提供了显著的优势。
按规定批处理- 数据集成架构
在这种分区批处理方法中,大量的数据集从战略上分为较小的、可管理的分区。然后,这些分区可以被有效地独立处理,经常利用并行的力量。这种方法通过大大缩短处理时间提供了令人信服的优势,使其成为处理大规模数据的一个有吸引力的选择。
结论
以下是本文的要点:
· 在整合来自不同源系统的数据时,必须有一个强有力的数据治理框架。
· 数据集成模式的选择应以体积、速度和准确性等用例为基础。
· 数据集成风格有三种类型,我们应该根据不同的参数选择合适的模型。