“互联网+”时代广电大数据挖掘研究
扫描二维码
随时随地手机看文章
0 引 言
网络基础设施建设的提速与普及和移动互联网相关服务应用的迅猛发展,使得全球每分每秒产生的数据越来越多, 这些数据价值巨大,庞大的用户群所提供的无限增长的数据, 正在等待时机释放出巨大的商业能量。一旦挖掘出数据价值, 那么商业机会将会变得无穷大。
1 “互联网”+ 时代大数据对广电行业的影响
大数据是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。
近几年,网络媒体迅猛发展,信息更新速度极快,随时向人们推送各种信息,人们可以自由选择信息的来源,大数据的产生给广电行业等传统媒体制造了巨大的压力和挑战。大数据对传统广电影响巨大,广电行业必须面对现实,充分利用大数据,挖掘大数据背后的意义,对传统的经营与思维模式进行创新与变革,在新时代立于不败之地。
“互联网”+ 时代,网络己蔓延至人类生存的方方面面, 以新闻网站为代表的网络媒体迅速崛起,影响着广大受众的信息接触习惯和信息获取方式,对传统媒体造成了极大冲击。目前网络媒体的广告收入已基本和传统媒体的收入持平,传统电视媒体的广告份额在逐年减少。电视仍是目前最具影响力的媒体之一,在社会生活各个方面的信息传递中起着举足轻重的作用。因此,广电行业虽然面临巨大挑战,但也面对着更广阔的发展空间。广电媒体掌握着大量核心数据,可以充分利用这一优势加以变革,使广电行业迎来更加美好的明天。
2 广电大数据的挖掘研究
2.1 数据挖掘概述
数据挖掘就是使用模式识别技术、统计和数学技术在大量数据中发现有意义的新关系模式和趋势的过程,即从海量数据中挖掘出可能有潜在价值的信息技术。它可实现以下功能:
(1) 分类 :按照训练对象的特征属性,通过建立不同的组对事物进行描述,为目标对象或事件分类。
(2) 关联 :分析有联系的对象或记录,由此对有潜在关联的事件做出推断,从而对可能重复发生的模式进行识别。
(3) 聚类:对训练集进行识别,分析数据之间的内在规则,进而把目标对象按照规则分成若干类。
(4) 预测 :对训练对象的发展规律进行分析,从而预测目标对象未来的发展趋势。
各种社交网络平台、巨大的市场和客户群,会产生庞大的数据资源,网络平台的结构、标准、系统等都没有统一的标准,且网络产生的大数据资源是动态的,变化迅速,广电若要在瞬息万变的大数据环境中快速、准确地处理大量数据, 就必须采用互联网化思维进行大数据挖掘。因此,有效、快速的深度挖掘与进行客户订制化是广电发展之根本。
2.2 广电大数据采集
广电大数据采集是指接收来自不同平台的客户端(网络媒体、社交APP 或者传感器等)数据,建立多个大数据库,用户可根据自己的喜好使用大数据库,查询定制个性化产品,从而满足自身需求。
当前,由于网络媒传和传统广电媒体的充分融合发展, 广电组织结构重构,大众可以从许多渠道获得信息并发布信息, 我们也可以通过多渠道进行广电大数据采集。
(1) 利用电视平台收集用户数据,选播电视节目时,实时记录用户选台的详细信息,比如所选节目、频道、时间范围等。
(2) 利用电视平台中电视互动点播收集用户数据,记录用户喜爱的节目类型、时间范围、频次等。
(3) 利用各种网络收集用户数据,记录用户在网络媒体上发布的信息、手机实时浏览的信息等,要从 PC端、手机端、电视端等渠道采集广电大数据。保证广电大数据的全面、及时、准确,为广电大数据挖掘处理做充分准备。
当然,由于同时访问不同网络的用户成千上万,访问操作的并发数高,因此,在大数据的采集过程中难度很大,挑战性极高,比如黄金时段的热点新闻、电视直播的NBA 球赛、年轻人喜欢的一些综艺节目等,它们并发的访问量在峰值时可达上千万,需要在采集端部署大量数据库才能支撑。并且如何分配合理的时间片以及负载给大量数据库,都是在大数据采集中需要面对和攻克的问题,需要深入的思考和设计。
2.3 广电大数据挖掘
数据挖掘能够满足一些高级别数据分析的需求,一般不会预先设定好主题,关键是基于各种算法对现有大数据源进行数据计算与处理,用以对未来数据进行预测。
数据挖掘算法多样,关联规则算法是比较常用的一种。此算法根据在同一事件中出现的不同项之间的相关性可以很好地预测数据项之间存在的关联规则。比如能够追踪用户在选台中所做的不同选择之间的相关性,得出节目之间的关联规则, 从而比较准确地预测用户喜好,有效为用户提供个性化定制服务等。本文利用关联规则算法探讨对广电大数据的精确挖掘, 为广电行业的发展提供一定的理论依据。
关联规则算法符号标识 :
设 L- 数据项集 ={i1,i2,…,iL}。
数据项集 A 的支持度 :支持度用来衡量关联规则的重要性,s(A)=σ(A)/N。
关联规则 :假设 A和 B是不相交的项集,即 :A∩ B= ,那么蕴含的关联规则为 A → B。
可信度 :可信度用以衡量关联规则的准确度,在包含 A 的数据中 B 也同时出现的概率值,形如 :c(A → B)=σ(A ∪ B)/σ(A)。
规则 A → B 的支持度 :数据项集 A 和数据项集 B 同时出现的概率,形如 :s(A → B)=σ(A ∪B)/N。
可信度和支持度的高低共同确定了关联规则质量的好坏,一条规则在所有事务中的代表性主要由支持度决定,支持度越大,可信度越高,关联规则越重要,如果可信度很高,但支持度不高,则说明该关联规则实用的机会不大,因而关联规则用处极为有限。所以在关联规则挖掘过程中,应通过不断修改阈值形成满足一定最小可信度及最大支持度的具有较大作用的关联规则集。
算法应用分析 :采集到的大数据集记录了用户的访问信息,用户记录中包含用户收看的节目清单表,如节目的名称、类型、收看时间段、节目数、访问模式等。打开并使用数据集,可以看到其中的详细记录信息 :M 条记录,N 个节目,及其他内容,建立合适的数学统计模型,统计计算出支持度 S 和可信度 C,进而为数据建立关联规则 A → B。此外,为了避免由于误操作而使一些节目被多次点击,我们需要设置它们各自合适的阈值,去除规则库中创建的无用规则,保存有效的、具有高支持度、可信度的规则,以提高规则库的性能。通过使用规则库,追踪分析预测出单个用户的访问模式、倾向以及偏好,高效为用户提供定制服务。
3 数据挖掘的发展趋势
数据挖掘技术被广泛应用于各个领域,如广电业、银行业、生物学以及工业领域等,可帮助各行业进行市场行为分析预测及客户流失性分析预测等。
由于网络的广泛应用及网络种类的复杂多样,产生了海量复杂的结构、半结构数据,形成了多样组织结构不兼容的各类型数据库,大数据库遍布各行各业,导致数据挖掘技术需面向各行业复杂的大数据环境,因此需要对结构不同、来源不同的不兼容大数据库进行挖掘处理,发现其潜在意义。这是非常艰巨的挑战,甚至还需要对多维数据、多媒体数据以及生物医学方面的数据进行更全面、深化的挖掘处理。数据挖掘技术的应用有远大的前景和无限的发展空间。
4 结 语
“互联网 +”时代,大数据的产生对广电行业有很大影响, 而广电的核心优势是已积累的海量数据,同时也是广电应对当今形势的基石。在现有海量数据的基础上,运用网络新技术搜集大量实时动态相关数据,形成海量大数据库,然后利用数据挖掘手段,对数据库中的受众层级进行分析处理,预测目标人群的喜好和需求,并根据分析预测的结果,按照目标人群的差异化、个性化要求,通过加快技术创新和应用创新, 使产品内容多样化、服务人性化,满足受众的个性化需求,提高和改善用户体验,培育和提升客户忠诚度。广电一定会在大数据时代中形成强大的市场影响力。