大数据的这些用途也行会超乎你的想象!
扫描二维码
随时随地手机看文章
2011年,时任商业智能开发商Pentaho公司首席技术官的James Dixon创造了“数据湖”这一术语。他将数据湖与当时流行的数据集市的典型信息孤岛进行了对比:如果将数据集市视为销售瓶装水的商店(经过清洁和包装处理以便于饮用),那么数据湖就是处于更自然状态的大片水体。数据湖的内容从一个源头流入,填满湖泊。采用数据湖,用户可以来检查、潜入或采集样本。
从那时起,数据湖技术不断发展,现在正在与数据仓库争夺大数据存储和分析的市场份额。各种工具和产品支持数据湖中更快的SQL查询,而全球三个主要云计算提供商都提供了数据湖存储和分析。甚至还推出了将治理、安全性和分析与成本更低的存储结合起来的数据湖屋的概念。本文将深入探讨数据湖是什么、如何使用数据湖以及如何确保数据湖不会成为数据沼泽。
数据湖vs数据仓库
问题不在于是否需要数据湖或数据仓库。很可能两者都需要,但其目的不同,也可以将它们组合起来。首先了解数据湖和数据仓库之间的主要区别:
数据源:数据湖的典型数据源包括日志文件、来自点击流的数据、社交媒体帖子以及来自互联网连接设备的数据。数据仓库通常存储从事务数据库、业务线应用程序和操作数据库中提取的数据以供分析。
模式策略:数据湖的数据库模式通常在分析时应用,称之为读模式。企业数据仓库的数据库模式通常在创建数据存储之前设计,并在数据导入时应用于数据,这称之为写模式。
存储基础设施:数据仓库通常采用大量价格高昂的内存和SSD硬盘,以便快速提供查询结果。数据湖通常在计算机集群上使用价格较低的机械硬盘进行存储。数据仓库和数据湖都使用大规模并行处理(MPP)来加速SQL查询。
技术驱动倍增数据价值 · 场景化应用解决“痛点”
2020年4月中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,数据已然被定义为继土地、劳动力、资本、技术之后的生产要素。2021年3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出推进要素市场化配置改革,发展技术和数据要素市场,健全要素市场运行机制,完善交易规则和服务体系。
2022年政府工作报告指出,“促进数字经济发展。加强数字中国建设整体布局。”数据显示,2020年,我国数字经济总量跃居世界第二,数字经济规模达到39.2万亿元,占GDP比重达38.6%,增速达9.7%。不可否认,以数字经济为代表的新经济新动能正在加速孕育形成。
“如果说建设数据交易的第三方市场是数据要素流通和交易产业1.0的话,我们已经走到了2.0。基于多源多模态数据融合认知计算技术赋能行业场景的智能决策平台,在具体的应用场景中也可以融合其它数据智能技术解决企业、产业的应用痛点问题,有了这些价值应用,数据要素流通和交易才能打通了‘任督二脉’,疏通这些数字经济场景中的‘毛细血管’才是这个产业的机会点。”武汉东湖大数据交易中心股份有限公司负责人杜小军说。
能科数智科技有限公司总经理助理付思思说:“我们依托于先进的工业软件以及电力电子信息技术,助力区域优化升级和产业链的完善,这一块也为客户提供了以工业互联网为核心的数字化、网络化、智能化的解决方案。”
据悉,能科数智是北京能科科技股份有限公司在贵州成立的子公司,主要致力于工业互联网领域的开拓。目前,公司拥有工业建模和大数据分析、数据管理、应用开发及边缘层处理等多项核心技术,可实现全流程的数字孪生,为工业企业数字化转型升级、助力我省工业高质量发展提供新动能。