当前位置:首页 > 物联网 > 《物联网技术》杂志
[导读]摘要:为了有效解决信息安全证据获取和证据规范化等难题,文章从数据挖掘的角度,阐述了如何搜集、处理信息安全在搜索潜在威胁时的证据,给出了如何获取证据以及证据的规范化表示的基本思路,从而增强了信息网络的安全信任属性。

引言

随着现代化计算机技术的不断发展与进步,社会逐步进入网络化和信息化的时代,网络时代信息的有效收集、提取、存储与分析等势必也会与网络产生千丝万缕的联系,但是,现阶段网络信息的安全性受到很大的挑战,对网络信息监督与控制已是迫在眉睫。数据挖掘技术可以及时有效地发现信息本身的特征及不同信息系统之间的关系,进而追踪信息发展,可以有效地实现对信息的监督与控制。在计算机网络系统中,会有很多包含信息安全的证据被隐藏于文本文件或者音频、视频等文件中。而网络数据挖掘技术恰好可以针对证据的这类特点对数据进行分析与整理,发现数据之间的关系及数据本身所存在的某些特征,进而对信息安全进行有效监督与控制。

1数据挖掘技术

数据挖掘是人工智能与数据库技术相结合的产物,是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的却又潜在有用的信息和知识的过程。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述获得模式或规则。它使数据存储技术进入一个更高级阶段,它不仅利用了传统的数据库的存储功能,对历史数据进行查询和遍历,而且还能够找出历史数据之间的内在联系,掘出数据库中大量数据背后隐藏着的许多重要信息。这些信息是关于数据的整体特征的描述及对发展趋势的预测,在决策生成中具有重要的参考价值。数据挖掘作为一门交叉学科,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。该技术所能发现的知识可以划分为如下几种模型:关联模型、回归模型、分类模型以及序列模型等。

1.1关联模型

关联模型主要用于分析不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联模型中所关注的重点是那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。关联的规则是形如X一Y的蕴涵式,表示数据库中满足x条件的记录必定也满足Y的条件。其中x和Y分别称为关联规则的先导(LHS)和后继(RHS)。

1.2回归模型

回归模型主要是用于分析一个变量(被解释变量)关于另一个(些)变量(解释变量)的具体依赖关系的计算方法和理论。从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。

1.3分类模型

分类模型主要是通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。其主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法等。

1.4序列模型

序列模型主要是在多个序列组成的数据集合中,设定一个最小支持度阈值,挖掘相对时间出现频率较高,即子序列出现的频率不低于给定的最小支持度阈值的模式。序列模式挖掘的对象以及结果都是有序排列的,即数据集中的每个序列在时间或空间上是有序的,输出结果也是有序的。

2数据挖掘技术在信息安全中的应用

信息安全的威胁无处不在,图1所示给出了信息网络所遭遇的较大威胁。随着云计算和移动互联让IT产业发生巨变,这将不可避免地带来信息安全产业的变革。以APT为代表的下一代安全威胁带给业界前所未有的挑战,基于社会工程学的攻击方式也令人防不胜防,传统的安全防护手段已经不足以抵抗这些新的威胁。

数据挖掘技术在信息安全证据处理中的应用

图1  信息网络所遭遇的大威胁

目前,网络信息安全的监督与控制手段主要集中在多种工具的综合利用上,通过多元化的收集工具对信息进行收集,并在此基础上采用一定的计算机算法对数据进行综合处理,之后将信息进行归类,提取需要的信息。这一信息收集处理过程与数据挖掘技术结合,使得整个过程分为数据的采集、预处理、挖掘、结果四部分,程序变得相对简单。但如果与互联网相连接,则会衍生出多种技术的综合使用,比如针对某一特定网站或者数据库的捜索等。通过网络数据挖掘技术和信息处理分析与归类技术对互联网所收集的信息与数据进行整理存储,再以某种特定算法对数据进行分析,之后找出数据的基本特征和数据之间的某种关系,从而为相关方面的决策提供建议。

2.1数据挖掘在信息安全证据获取中的应用

证据的获取主要是对包括图片、文本、视频、音频等在内的多种数据形式进行信息的收集。要获取全面可靠、划分粒度适中、满足应用的证据是信息安全证据评估的基础。包含网络信息安全的各种证据包含在各种应用协议报文的巨大网络流量中。证据获取要全面、实时、真实可靠,尽量不影响网络的正常流量。目前,可用于获取证据的方法有以下几种[3]:

利用网络流量检测与分析工具,如Bandwidthd,它可以获得每个网关的各种协议的详细IP流量,查看网络状态,如数据包的传输和接收速率等。

利用目前已有的入侵检测系统,如RealSecur,可以获得访问次数、操作时延,用户入侵概率等。还有著名的KDD99网络入侵检测数据等。

利用审计跟踪系统产生的系统事件记录和用户行为记录,包括系统日志、审计记录、应用程序日志、网络管理日志截获的用户数据包及相应的操作记录等。

专门的数据采集工具,如Cisc。的NetFlowMonitor,NetScout公司的NetScout网络性能管理产品,可获得不同用户对带宽的占用等。

根据协议标准(如RMON、SNMP等)自己开发软件获取信息安全证据。

根据获取证据的行为方式,证据可分为主动获取和被动获取证据。主动获取如IP分组的平均传输延迟,可用ping命令主动探测;而被动获取证据是根据用户的实际行为所产生的影响获得证据,如用户占用的存储资源。

2.2数据挖掘在信息安全证据预处理中的应用

在获得证据后,还要进行“清理”,即剔除冗余的、无效的证据,将无序的、杂乱的证据整理成有序的、完备的证据,并进行规范化表示,为信息安全证据评估奠定坚实的基础。证据的规范化表示有两种方式:

2.2.1百分比和二进制表示证据的规范化表示

在百分比和二进制表示的证据其范围本身都在[0,1]范围内,当它们是正向递增时不需要改变,但当它们是正向递减

值时,通过公式et=1/et将它们改变成正向递增值。

2.2.2具体值表示证据的规范;化表示

对于正向递增的具体值可以通过et=把它转化成[0,1]范围内的正向递增值,其中etmax是et范围内的最大值。对于正向递减的具体值可以通过et=把它转化为[0,1]范围的正向递增值。

2.3信息安全证据库挖掘属性分析

经过前期数据获取与预处理之后,生成统一的证据库,之后便需要对这些证据进行数据挖掘属性分析,以确定从模型库中选择相对应的模型,从算法库中选取要采用的算法。预处理后的证据库具有以下两个性质:

原始证据的客观性使得信息安全的主观判断具有客观依据,同时,也为具有主观特殊性的信任信息共享提供了可能性。

证据的规范化处理解决了证据的范围、单调性和方向性不一致问题,因为即使两个原始证据有组合的意义,但如果两个证据值范围差别很大的话,权重组合会导致大的数据淹没小的数据。

另外,要提高证据挖掘的整体准确性与针对性,还需要不断进行挖掘方法的试错,通过试错来找到最好的算法,也就是我们所熟悉的挖掘训练。这个过程主要表现如下:首先从证据库中抽取一部分数据作为训练样本,之后从算法库中选取某种算法,从模型库中选取某种模型,将数据挖掘的结果与参照集进行一定的对比。如果结合与要求相符,则开始正式的挖掘,反之,则需要重新选择。

3结语

信息安全的实质就是要保护信息系统或信息网络中的信息资源免受各种类型的威胁、干扰和破坏,即保证信息的安全性。通过网络数据挖掘技术,可以有效解决信息安全在证据获取和处理分类上所遇到难题,生成规范的证据库。结合挖掘模型库和挖掘算法,可以有效发现信息网络中潜在的威胁因素,提高信息网络的安全指数。

20211018_616c4c4218ece__数据挖掘技术在信息安全证据处理中的应用

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭