当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 随着大数据上升为国家战略,大数据产业发展对经济社会的价值和影响得到广泛认可,大数据技术逐渐渗透到各行各业,成为重要的生产要素和战略资产。数据量的增长,手动完成任务与自动化产生的生产力差距越来越大

随着大数据上升为国家战略,大数据产业发展对经济社会的价值和影响得到广泛认可,大数据技术逐渐渗透到各行各业,成为重要的生产要素和战略资产。数据量的增长,手动完成任务与自动化产生的生产力差距越来越大,这使得以人工智能和机器学习为基础的自动化趋势越来越有市场。机器学习可以帮助缩小这一差距吗?数据管理和数据转换之间有重要的区别。数据转换是数据集成过程中的第一步,其目标是将异类数据转换为通用的全局模式,组织可以提前制定该模式。自动脚本通常用于将美元转换成欧元,或将英镑转换成公斤。尽管大数据分析技术取得了惊人的进步,但我们在很大程度上仍需要手动来完成重要任务,例如数据转换和数据管理。

坦率地说,数据转换和数据管理问题颇具挑战性。各行各业的公司都渴望将机器学习与他们的数据库结合使用,以获得竞争优势。但是,数据不干净、数据未集成、不可比较和不匹配的数据问题层出不穷,使公司的大数据计划陷入困境。

许多从事机器学习的数据科学家花费了90%的时间来查找、集成、修复和清理其输入数据。 人们似乎没有意识到数据科学家不再是数据科学家,而是成为了数据集成商。不过也有一个好消息,机器学习本身可以帮助机器学习。这个想法是利用算法的预测能力来模拟人类数据处理。这不是100%完美的解决方案,但它可以帮助缓解工作强度,让数据科学家转向真正的创新工作。您可以在任何你能买到的地方购买ML,通过使用ML来来帮助您完成ETL的转换部分。

转换和管理数据

虽然它们在某些方面是相似的,但是数据管理和数据转换之间有重要的区别。数据转换是数据集成过程中的第一步,其目标是将异类数据转换为通用的全局模式,组织可以提前制定该模式。自动脚本通常用于将美元转换成欧元,或将英镑转换成公斤。

转换阶段之后,分析人员开始管理和分析数据。第一步通常涉及运行“match/merge”函数来创建与相同实体对应的记录集群,例如将不同但拼写相似的名称分组在一起。像“编辑距离”这样的概念可以用来确定两个不同实体之间的距离。然后使用更多的规则来比较各种实体,以确定给定记录的最佳值。公司可以声明最后一项是最好的,或者使用一组值中的公共值,这样就可以产生最佳数据。

几十年来,这种通用的两步过程已在许多数据仓库中使用,并且在现代的数据湖中继续使用。但是,ETL和数据管理在很大程度上未能跟上今天的数据量以及企业面临的挑战规模。

例如,这需要预先定义一个全局模式,这阻碍了许多ETL的进行,这些工作试图集成更多的数据源。在有些时候,程序员无法跟上必须设置的数据转换规则的数量。如果您有10个数据源,您还可以这样做,但是,如果您有10,000个,那就不太可能了。显然,这需要一种不同的方法。

在小型企业中,您可能可以提前创建全局数据模式,然后在整个组织中强制使用它,从而省去了昂贵的ETL和数据管理项目的成本,一起放在数据仓库中。但是,在大型组织中,这种自上而下的方法不可避免地会失败。

即使大型企业中的业务部门彼此非常相似,它们记录数据的方式也会有微小的差异。这些微小差异需要加以考虑,然后才能对其进行有意义的分析,这只是企业数据性质的反映。因此业务灵活性需要一定程度的独立性,这意味着每个业务部门都建立自己的数据中心。

例如,以丰田汽车欧洲公司(Toyota Motor Europe)为例,该公司在每个业务国家都有独立的客户支持组织。该公司希望为250个数据库中的所有实体创建一个主记录,其中包含40种不同语言的3000万条记录。

丰田汽车欧洲公司面临的问题是,ETL和数据管理项目的规模是巨大的,如果按照传统方式进行,将消耗大量的资源。该公司决定使用Tamr来帮助解决机器学习的挑战,而不是数据转换和使用数据管理过程。ETL最大的问题是已经预先定义了全局模式,如何大规模地做到这一点是个问题。需要使用机器学习进行自下向上的匹配、自下而上地构造目标模式,从规模上看,这是唯一可行的方式。

机器学习仍然需要大量的数据和处理能力,您通常需要一个最优秀的员工来帮助指导软件获得正确的数据分析结果与决策见解。不同的供应商之间该如何选择。不同国家或地区的供应商提供的解决方案不同,而且出于一些宏观因素,会出现不同的选择。出于安全考虑,这些数据问题不能完全外包给其他公司,所以不要指望完全用机器学习来处理数据,人在其中的作用还是非常重要的。人与机器学习合作才能够使您的数据集成和管理效率最大化。

来源:爱极客

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭