基于科技情报Hadoop平台的系统研究
扫描二维码
随时随地手机看文章
引 言
大数据拥有数据量巨大;数据类型多样;数据中富含价值; 在尽可能短的时间内挖掘出数据的真实性等典型特征[1]。
数据挖掘技术 [2](Data Mining)可在大型数据库中自动发现有用信息,具有聚类分析,预测建模,关联分析,异常检测等功能,既可以独立运行,也可以联合操作。聚类分析实用的技术包括 K 均值、凝聚层次聚类、dbscan、簇评估等,主要目的在于通过基于原型、密度、图像等的聚类,发现其间关系。预测建模更多的是一种可视化角度分析方法,利用分类、回归等方法建立模型以解决问题。数据挖掘技术分为统计方法、机器学习方法、神经网络方法和数据库方法。
计算机机器人专业博士邓侃 [3] 表示,大数据不是忽悠, 关键要能够发现其中的价值,而数据挖掘的算法、云计算和并行计算就是发现数据价值的工具。
科技情报服务平台维护的公益类科技服务平台,是为顺应情报系统的网络化、智能化、集成化和决策化的未来发展要求而构建的自动化情报收集与服务体系,可从每日涌现在互联网上的海量信息中快速、准确地获取有用信息,并完成对情报资料的自动筛选、分类、分析工作,为政府部门、科研人员和企业提供具有前瞻性、时效性和专业化的情报服务。它采用知识管理的理念和技术对科技信息资源进行深度挖掘和战略优化,通过强化科技信息的智能采集和深度加工、发布和共享机制,构建科技情报创新服务体系。
1 数据挖掘简介
数据挖掘的主要任务是关联分析、聚类分析、分类、预测、时序模式和偏差分析等[4]。
(1) 关联 分 析(AssociationAnalysis)。 关联 规 则由 RakeshApwal 等人率先提出。两个或两个以上变量取值之间存在的规律称为关联,使得所挖掘的规则更符合需求。
(2) 聚类分析(Clustering)。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。
(3) 分类(Classification)。分类即找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。
(4) 预测(Predication)。预测是利用历史数据找出变化规律,建立模型,并由此模型预测未来数据的种类及特征。
(5) 时序模式(Time-SeriesPattern)。时序模式是指通过时间序列搜索出重复发生概率较高的模式。
(6) 偏差分析(Deviation)。在偏差中包括很多有价值的知识,数据库中的数据存在诸多异常情况,而发现数据库中数据存在的异常情况非常重要。
2 科技信息采集与存储系统
使用垂直搜索技术在互联网扩大信息搜集途径,实现了科技信息的采集与存储[5]。智能情报加工系统运用信息抽取、机器学习、自然语言理解、信息检索等技术对文本进行处理, 实现对海量信息的数据挖掘,完成数据的自动分类、聚类、去除重复信息、发现关联规则、自动文摘的生成等。科技信息发布与共享平台通过将门户型科技信息发布平台作为情报发布、信息共享、交流互动的窗口与载体,可提供情报简报的自动生成、定题服务等功能。
该平台是集情报收集、存储、处理和分析于一体的新一代综合性信息系统。其主要功能是协助情报人员制定情报计划, 系统地收集信息,并对收集到的信息进行分析和加工,生成情报产品并提交给用户,为用户提供公益情报服务。
3 科技信息采集与存储体系
科技信息采集与存储体系的主要功能在于可完成情报信息分类体系规划与情报信息源规划。采用垂直网站抓取技术, 通过设置关键词、数据源、重要程度等抓取策略,自动发现互联网相关内容,并对页面进行抓取。通过索引技术对抓取到的文档进行全文索引,为用户提供全局文档信息搜索结果; 搜索结果以知识树的方式展现,并实现对抓取内容的管理。
抓取器由 URL 搜索引擎、页面抓取引擎 [6](页面抓取器) 组成,用以实现 URL 发现。抓取器需要对页面中的目录页面、 列表页面等非描述性内容页面进行剔除。URL 搜索引擎首先 对全互联网相关内容的 URL 进行搜索,并执行去重检测,以 保证相同页面只被抓取一次。 页面抓取引擎抓取页面后,对其内容进行分析,剔除其中 的非正文内容页面。抓取器内含定时抓取策略,可按一定时间 周期和抓取策略进行循环抓取,以确保我们能够及时获取互 联网更新的内容。
4 数据聚类算法
聚类,即一些给定的元素或者对象分散存储在数据库中, 根据我们感兴趣的对象属性对其进行聚集,同类对象之间相似度高,不同类之间差异较大。其最大的特点是事先不确定类别。这其中最经典的算法非 KMeans 算法[7] 莫属,而这也是最常用的聚类算法。在给定 K 值和 K 个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,待所有点分配完毕后,根据类簇内的所有点重新计算该类簇的中心点(取平均值),然后迭代进行分配点和更新类簇中心点的步骤,直至类簇中心点变化微小,或达到指定的迭代次数为止。KMeans 算法虽然思想比较简单,但合理确定 K 值和 K 个初始类簇的中心点对于聚类效果而言有很大影响。
5 信息抓取管理平台
信息抓取管理平台 是控制抓取的后台工具,分为 关键词抓取 和 深度抓取 。
关键词抓取 [8] 是指在互联网上抓取具有特定关键词的网页,每 24 小时抓取一次,于夜晚进行,以保证抓取网页与互联网上的信息同步更新。
深度抓取 [9] 是指一次性获取某个网站的全部信息,以快速积累初始数据。深度抓取是一次性的抓取,不会更新。
5.1 关键内容抓取
根据北京科技信息网的需求,确定数据搜索内容包括科技政策科技动态等频道内容。抓取器通过设定依内容抓取的策略,对全网内容进行抓取。并通过后端的内容聚 合进行内容的后处理,以便实现关键内容的抓取。如图 1 所示, 当标签位置为“普通抓取”时,可实现对关键内容的抓取
5.2 深度抓取
北京市科技信息网 对一些特定网站设定了全站内容抓取,对全站内容进行一次性内容获取,并实时对其更新的内容进行监控,同步抓取。如图 2 所示,当标签位置为 深度抓取时,可以实现对全站内容的抓取。
图 2 控制台的深度抓取界面
5.3 工作状况的实时监控与回溯查询
实时监控终端对引擎运行的各项指标进行实时监控,以随时掌握引擎的运行状态。 回溯查询平台 可查看已抓取的网页和网页去噪情况。回溯查询平台界面如图 3 所示。
图 3 回溯查询平台界面
6 分词功能介绍
分词程序主要包含 4 大模块,分别为数据输入模块、基本前向后向分词、数量词识别以及歧义消解模块。
7 去重功能介绍
该模块可对网页进行去重操作[10]。
8 分类功能介绍
实现中文信息自动分门别类 [11] 是一项及其复杂的工作。本系统根据中文智能分词技术[12] 实现了分类功能,即根据文本内容的特点分别归类。通过人工对其进行简单的 训练 后, 可对文本进行高速智能的自动分类。分类可实现多层的树状结构,允许一篇文档同时属于多个分类。分类过程主要包括文本预处理,抽取特征项,分类算法等。
9 结 语
系统拥有的网络化情报自动采集、智能加工、发布共享体系架构等功能使得该体系能够利用先进的科技信息采集工具, 实现异构信息资源的采集、转变、整理、合成,以统一的模版格式实现科技情报信息资源服务,去除科技信息资源种类、架构等无关信息,实现用户的透明操作;采用统一的信息采集、加工处理、管理平台,实现采集、加工处理过程的个性化流程个性化定制;实现了科技情报信息资源面向不同种类用户和不同种类应用的科技信息发布服务;基于网络的自动化情报收集、加工与发布体系是公益性情报服务平台的发展趋势。