你了解大数据分析模型吗
扫描二维码
随时随地手机看文章
关联规则分析(Apriori)
Apriori算法简介:Apriori 算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。
Apriori 算法的挖掘思想:Apriori 算法采用的是逐层搜素的策略,同时依据其性质压缩搜索空间。而它的性质是说,如果一个项集具有频繁性,则它的所有非空子集也一定是频繁项集。它的基本思想在于,首先,扫描一次事物集合,找出频繁 1 -项集集合 L1,然后基于 L1,产生所有可能的频繁 2 -项集即候选集 C2,接着基于 L1 对 C2 进行必要的剪枝操作。对 C2 的优化完成后,再扫描一次事务集合,找出下一个频繁候选集,如此迭代,直至再也找不出频繁集时退出。
在实际的应用中,关联规则主要应用于商品购买的关联行为,比如针对一个卖场,可以通过对大数据的关联分析发现面包与牛奶之间的购买行为,从而可以针对性进行促销或是适当调整商场的物品摆放。所以关联分析是大数据分析特别有效的模型,针对性比较强。
聚类分析模型聚类分析
模型简介:是指将物理的或抽象的对象的集合分成相似的对象集的过程,最终的结果是同一个簇中的对象具有较高的相似性,而不同簇之间的对象则具有较大的差异性。聚类分析的三要素为相似度测度,聚类准则和聚类算法。相似度测度主要用于衡量同簇对象的类似性和不同簇对象的差异性,而聚类准则则是用于评价聚类结果的好坏,聚类算法用于找出使准则函数取极值的最好聚类结果。目前大数据聚类分析中比较常用的算法主要有划分式聚类算法、基于密度的聚类算法、层次聚类算法、以及基于网格的聚类算法。其中比较比较典型的是划分式聚类算法。
划分式聚类算法的挖掘思想:划分式聚类算法的其代表是 K 均值算法、K 中心点算法以及它们的一些变种。K 均值聚类算法假定所有的数据对象课分为 K 个簇,每个簇的中心用均值表示,对象间的相似性用距离度量,聚类的准则使用误差平方和准则。它的核心在于首先选定 K 个初始聚类中心,根据最小距离原则将每个数据对象分类到每一簇中。聚类分析模型是一个比较简单的大数据分析模型,但是它可以对大型数据集进行高效地划分,它也是数据挖掘的重要模型之一,在实际工作中已经取得广泛的应用,是众多企业处理大数据不二的选择。