数据整合第一部分,数据集成
扫描二维码
随时随地手机看文章
什么是数据治理?
数据治理 是一个由具有不同角色和责任的个人协作制定的框架。该框架旨在建立有助于各组织实现其目标的流程、政策、程序、标准和衡量标准。这些目标包括为业务运作提供可靠数据、建立问责制和权威性、开发评估业绩的准确分析方法、遵守监管要求、保护数据、确保数据隐私以及支持数据管理生命周期。
创造一个 数据治理委员会 或者指导委员会是整合数据治理程序和框架的第一步。一个组织的 治理框架 应分发给所有工作人员和管理人员,使每个人都了解正在发生的变化。
成功地管理数据和分析应用所需的基本概念。它们是:
· 注重企业价值观和本组织的目标
· 关于谁负责数据和谁负责决策的协议
· 一种强调模式 数据整理 和 数据血统 数据治理
· 透明的决策,包括道德原则
· 核心治理构成部分包括数据安全和风险管理
· 不断提供培训,监测培训的效果并提出反馈意见
· 将工作场所转变为协作文化,利用数据治理鼓励广泛参与
什么是数据集成?
数据集成 是将来自多种来源的数据合并和统一成一种统一、连贯的格式,供各种用户使用的过程,例如:业务、分析和决策目的。
数据整合进程由四个主要关键组成部分组成:
1.源系统
数据库、文件系统、物联网设备、媒体大陆和云数据存储等源系统提供了必须集成的原始信息。这些源系统的异质性导致数据可以结构化、半结构化或非结构化 .
1. 数据库 :设计中央或分布式存储库是为了存储、组织和管理结构化数据。例子包括关系数据库管理系统,如mysql、后格SQL和甲骨文。数据通常存储在具有预先定义模式的表中,以确保一致性和查询方便。
2. 文件系统 :在磁盘驱动器或其他存储介质上组织和存储文件和目录的分层结构。共同的文件系统包括(窗口)、(APOS)和(Linux)ext4。数据可以是任何类型,包括结构化、半结构化或非结构化。
3. 物联网设备 *物理装置(传感器、执行器等)嵌入电子、软件和网络连接。卫星技术设备收集、处理和传输数据,使实时监测和控制成为可能。可对由移动通信技术设备生成的数据进行结构化处理(例如:,传感器读数),半结构(如。,设备配置),或非结构化(例如。,录像)。
4. 媒体储存库: 用于管理和存储各种媒体文件的平台或系统。实例包括内容管理系统和数字资产管理系统。媒体存储库中的数据可以包括图像、视频、音频文件和文档。
5.云数据存储:提供在线数据按需存储和管理的服务。流行的云数据存储平台包括亚马逊S3、微软Azure Blob存储和谷歌云存储。云存储中的数据可以在任何地方通过互联网连接进行访问和处理。
2. 数据采集
数据采集包括从源系统中提取和收集信息。根据源系统的性质和具体要求,可以采用不同的方法。这些方法包括批处理过程、利用ETL(提取、转换、加载)、ELT(提取、加载、转换)技术、API(应用程序编程接口)、流处理、虚拟化、数据复制和数据共享等技术的流处理方法。
1. 批量处理 :批处理程序通常用于结构化数据。在这种方法中,数据是在一段时间内积累并大量处理的。这种方法有利于大型数据集,并确保数据的一致性和完整性。
2. 应用程序编程接口 ::API是应用程序和数据源之间的通信渠道。它们允许对数据的控制和安全访问。API通常用于与第三方系统集成并支持数据交换。
3. S 特雷明 *流处理涉及连续的数据摄取和处理。它通常用于实时数据源,如传感器网络、社交媒体和金融市场。流媒体技术能够根据最新数据进行即时分析和决策。
4. 虚拟化 :数据虚拟化提供数据的逻辑视图,而无需实际移动或复制。它能够无缝访问来自多个来源的数据,无论其位置或格式如何。虚拟化通常用于数据集成和减少数据仓。
5. 数据复制: 数据复制涉及将数据从一个系统复制到另一个系统。它提高了数据的可用性和冗余性。复制可以是同步的,即实时复制数据,也可以是异步的,即定期复制数据。
6. 数据共享: 数据共享涉及允许授权用户或系统访问数据。它促进协作,使人们能够从多个角度提出见解,并支持知情决策。数据共享可以通过数据门户、数据湖和联合数据库等各种机制实现。
3.数据存储
在数据采集之后,将数据存储在存储库中对于有效的访问和管理至关重要。各种各样的 数据存储 可根据具体需要选择各种选择。这些备选办法包括:
1. 数据库管理系统 关系数据库管理系统是设计用来组织、存储和检索结构化格式数据的软件系统。这些系统提供了数据安全、数据完整性和事务管理等先进功能。受欢迎的rbm的例子包括mysql、甲骨文和后格列SQL。Nosql数据库,如蒙戈德数据库和卡珊德拉数据库,旨在存储和管理半结构化数据。它们提供了灵活性和可伸缩性,使它们适合处理大量数据,这些数据可能需要更好地适应于关系模型。
2. 云存储服务 :云存储服务提供可扩展和成本效益高的云存储解决方案。它们提供从因特网连接的任何地方按需获取数据的机会。受欢迎的云存储服务包括亚马逊S3、微软AZERE存储和谷歌云存储。
3. 数据湖 :数据湖是原始和非结构化数据的大型存储库,其格式为本地格式。它们经常被用于大数据分析和机器学习。数据池可以使用HDAOOP分布式文件系统或云存储服务实现。
4. 三角洲湖泊 :三角洲湖是一种支持酸性事务和架构演化的数据湖。它们为数据工程和分析工作量提供了一个可靠和可伸缩的数据存储解决方案。
5. 云数据仓库 云数据仓库是为商业智能和分析设计的云基数据存储解决方案。它们为大量结构化数据提供快速查询性能和可伸缩性。例如亚马逊红移,谷歌大查询和雪花。
6. 大数据文件 大数据文件是存储在单个文件中的大量数据集合。它们经常用于数据分析和处理任务。常见的大数据文件格式包括拼花,阿帕奇阿沃,阿帕奇奥克。
7. 房地内储存域网(SAN) :SAS是专为数据存储设计的专用高速网络。它们提供快速的数据传输速度,并为多个服务器提供集中存储。SAN通常用于具有大存储需求的企业环境。
8. 网络附加存储器 :NAS设备是指连接到网络并为多个客户机提供共享存储空间的文件级存储系统。它们通常用于中小型企业,便于从各种设备获取数据。
选择正确的数据存储选项取决于数据大小、数据类型、性能要求、安全需求和成本考虑等因素。各组织可结合使用这些存储选项来满足其具体的数据管理需求。
5. 消费
这是数据集成生命周期的最后阶段,集成数据由各种应用程序、数据分析员、业务分析员、数据科学家、AI/ML模型和业务流程使用。数据可以各种形式和通过各种渠道消费,包括:
1. 业务系统 :综合数据可由使用API(应用程序编程接口)的操作系统使用,以支持日常业务和决策。例如,客户关系管理系统可以使用客户互动、采购和偏好的数据,以提供个性化的体验和有针对性的营销活动。
2. 分析学 :综合数据可用于分析应用和数据勘探、分析和报告工具。数据分析师和业务分析师使用这些工具来识别趋势、模式和数据的真知灼见,这有助于为业务决策和战略提供信息。
3. 数据共享 :综合数据可通过数据共享平台和机制与合作伙伴、供应商和监管机构等外部利益攸关方共享。数据共享使各组织能够协作和交流信息,从而改进决策和创新。
4. 卡夫卡 卡夫卡是一个分布式流处理平台,可用于消耗和处理实时数据。集成数据可以流到卡夫卡,在那里可以被需要实时数据处理能力的应用程序和服务使用。
5. AI/ML :人工智能和机器学习模型可以使用集成数据进行训练和推理。AI/ML模型利用数据来学习模式和做出预测,这些模型可用于图像识别、自然语言处理和欺诈检测等任务。
综合数据的使用使企业能够做出明智的决定,优化业务,改善客户体验,推动创新。通过提供统一一致的数据视图,各组织可以释放其数据资产的全部潜力,并获得竞争优势。