大佬深入浅出工业大数据,论工业大数据之数据准备
扫描二维码
随时随地手机看文章
在下述的内容中,小编将会对工业大数据的相关消息予以报道,如果工业大数据是您想要了解的焦点之一,不妨和小编共同阅读这篇文章哦。
一、浅谈对工业大数据的认识
工业大数据技术是使工业大数据所包含的价值得以挖掘和展示的一系列技术和方法,包括数据规划、采集、预处理、存储、分析挖掘、可视化和智能控制。 工业大数据应用是将工业大数据系列技术和方法整合应用到特定工业大数据集,获取有价值信息的过程。 工业大数据技术研究和突破的本质目标是从复杂的数据集中发现新的模式和知识,挖掘有价值的新信息,从而促进制造企业的产品创新,提高管理水平和效率,拓展新的商业模式。
工业大数据的本质是以数据的形式呈现的“信息”或“知识”,而不是无关的数据。 “信息”和“知识”的本质相似,但不同的是:“知识”在时间和空间上具有更强的通用性和连续性。
工业大数据的核心价值是知识的再利用。大数据的好处是:获取知识成本低、范围广、质量高。智能使知识在人机之间共享,促进知识价值的实现;互联网使知识的价值翻倍。知识价值的提升,会让人们更值得花更多的精力去发现价值,形成大数据工作的良性循环,提升知识工作的价值。数据分析是获取知识的过程。但获得的知识取决于业务需求。在需要进行数据分析的地方,首要任务和工作重点是理清业务需求的上下文和逻辑,将业务需求转化为易于分析的数学问题。而不是仅仅使用一堆数据来随机分析它。
二、工业大数据之数据准备
1. 数据抽取
数据抽取是指从不同的数据源中抽取数据的过程。针对大数据的复杂性,提出了一种SAT数据提取模型。模型分为三层:数据分离层对数据进行分离,实现数据的分布。分析层实现数据的并发处理;转换层完成数据的转换和打包。提取方法和模型设计合理,但没有考虑数据的安全性。针对关系数据无法有效转化为图数据的问题,基于一对一、一对多、多对多的数据迁移算法,基于节点合并——将原始关系数据库中数据的多重关系作为一个节点,然后整合关系信息,最后利用图数据库的功能完成数据的转换。这种方法合理有效,但效率不高,而且关系表中的外键不完整,算法有待改进。除了上述方法,元数据知识模型还可以用于从XML文件中提取数据;可以构建LC增量抽取模型,将异构环境下的数据库事务文件与全表进行比较,提高数据抽取的效率和性能。与其他数据提取方法相比,LC增量提取相对稳定,效率更高。但是在提取数据的过程中,需要用到工具来解析事务日志文件,操作比较繁琐。
2.数据清洗
数据清洗,顾名思义,就是检查数据的质量,剔除“脏”数据。数据清洗前,应分析数据集的特征,并根据特征制定相应的清洗规则。
FBS方法是一种常用的数据清洗方法。主要思想是通过测量每个属性的相似性来清理数据。对于FBS法消除水平置信度低的问题,可以采用专门的指标来提高效率。除了置信度问题,Accuracy也是一个重要指标。针对数据清洗精度低的问题,将主动学习应用于数据清洗,并结合众包来保证清洗精度。目前数据清洗主要是通过改进算法来完成的,比如重复数据的检测和消除算法,数据库管理的数据清洗算法,增量数据的清洗算法等。
经由小编的介绍,不知道你对工业大数据是否充满了兴趣?如果你想对工业大数据有更多的了解,不妨尝试度娘更多信息或者在我们的网站里进行搜索哦。