基于CRISP-DM模型的移动GPRS业务关联规则应用研究
扫描二维码
随时随地手机看文章
引 言
随着移动互联网的发展,人们的生活方式发生了翻天覆地的变化。越来越多的人通过移动互联网处理生活中的各个方面,如查找资讯、衣食住行、沟通娱乐、处理工作等 [1]。移动业务维度多,数据量大,关系复杂 [2]。GPRS 业务是移动运营商价值链中最重要的组成部分之一,是移动运营商在移动基本业务(话音业务)的基础上,针对市场需求开通的可供用户选择的智能化业务[3]。中国移动在其GPRS 网络上推出了彩信、WAP、手机钱包等一系列移动业务,市场需求极大且前景广阔。因此各运营商都在积极寻找GPRS 业务方面的杀手级策略, 试图以GPRS业务应用作为发展契机,确立市场地位。
但移动 GPRS 业务市场占有率不高,带来的利润相当微薄,很多客户都不了解相关GPRS 业务,导致 GPRS 业务的开展工作也不到位。所以必须充分利用移动的海量数据,运用关联规则挖掘方法,挖掘出GPRS 业务之间的关联关系,将数据转换成有价值的信息和知识,更好地向客户提供 GPRS 服务, 发现更多商机,让企业在竞争中处于不败之地。
1 CRISP-DM数据挖掘模型
CRISP-DM(Cross Industry Standard Process for Data Mining,CRISP-DM)模型自提出以来,已逐渐发展成为指导数据挖掘活动的标准。CRISP-DM 模型包括商业理解、数据理解、数据准备、建立模型、模型评估和模型部署 [4],包含了数据挖掘的全过程。
CRISP-DM 模型如图 1 所示。CRISP-DM 模型定义了六个阶段来指导数据挖掘过程,但该顺序并非一成不变,在实际操作中,根据每一个环节所产生的结果来确认要执行的阶段或特定环节,有可能导致循环往复的情况出现 [5]。数据挖掘是一个以数据为中心,循序渐进的螺旋式数据探索过程[6]。
商业理解阶段的任务是明确项目的商业目标。只有对商业目标充分理解后,才能将有效的商业问题转化为数据挖掘解决的问题,并最终将结果转化为商业解决方案[7]。
数据理解阶段,首先收集原始数据,然后对数据作初步分析 [8],熟悉数据的特征,识别数据的质量问题,发现数据库中各表之间的联系,完成数据探索。
数据准备阶段需要对表、记录和属性等数据做选择、清洗、重建、合并等工作。这一步骤一般需要反复进行,直至筛选出最终的数据集[9]。
建立模型阶段是数据挖掘中的一个重要过程,需要根据分析目标选出和应用合适的模型技术,调整最佳模型参数。最后通过样本建立模型对模型进行评估。
模型评估阶段旨在彻底评估模型,对整个建模的流程进行梳理,确保模型可以完成业务目标。若发现有重要业务问题没有考虑周全,甚至还需要返回之前的步骤对挖掘过程重新定义[10,11]。
模型部署阶段是客户用建立的模型去解决实际中遇到的问题,并根据需求进行监督、维持、产生最终报表、重新评估模型等过程。
2 关联规则
关联规则是由R.Agrawal[12] 等人于 1993 年提出的,是数据挖掘的重要内容之一。它侧重于确定数据中不同领域之间的关系,即从事务数据库、关系数据库中找出满足事先给定最小支持度和最小置信度的多个域之间的依赖关系。关联规则强度通过支持度和置信度度量[13]。支持度为规则中所有项在事务中出现的频度,表示在整个数据库的重要性,置信度规则中左边的项(集)的出现暗示右边的项(集)出现的频度,反映其可靠程度。只有支持度和置信度均较高的关联规则才是用户感兴趣的、有用的关联规则[14]。
关联规则作为数据挖掘领域的一项关键技术,主要用来发现隐藏在大型数据集中令人感兴趣的联系。沃尔玛超市对其顾客的购物行为进行购物分析,发现了 啤酒和尿布 的关系。零售业利用此规则,帮助他们发现新的交叉销售机会[15]。除购物篮外,关联规则也可以应用到其他领域,如生物信息学、药物治疗和提高网络响应速度等方面。
3 基于 CRISP-DM模型GPRS业务关联规则应用分析
将CRISP-DM 模型应用于移动GPRS 业务的数据挖掘中, 以移动的GPRS 业务为分析对象,运用关联规则Apriori 算法来挖掘出GPRS 业务之间的关系。GPRS 业务挖掘过程如图 2 所示。
3.1 商业理解
根据移动 GPRS业务使用总流量少,使用人数不多等问题,必须开展 GPRS营销策略,推动GPRS业务的发展使用。目前,移动公司主推手机视频、手机游戏、MobileMarket业务和手机阅读四项GPRS业务,因此要挖掘出客户特征与这四项业务之间的关联关系。从而发现支持 GPRS业务交叉销售的候选业务和潜在的客户群体,对特定客户群推荐 GPRS业务, 以进一步提升客户保有率和满意度。
3.2 数据理解
确定了数据挖掘需要解决的问题后,首先收集原始数据, 充分熟悉各表中的属性内容和各表之间的关系与结构,确定数据支持数学建模的可行性。
本文从移动数据库部分数据表中抽取如下数据信息:
(1) 个人信息表 :客户姓名、手机号、客户属性、性别、出生日期、联系地址、证件号码、开户日期、地区编号、付费方式、销户日期等。
(2) 话单数据表 :手机号、呼叫类型、对方号码、通话开始时间、通话时长、地区号、对方所在区号、漫游类型、长 途类型、长途分组、IP 电话类型、业务类型等。
(3)账单信息 :手机号、账单开始日期、结束日期、账单 总金额、月租费、月租功能费、滞纳金、最后付费日期、销账日期、 积分情况等。
(4)GPRS 业 务: 终 端 管 理(DM)、 快 讯(DCD)、 widget 平台、手机报、航信通、手机钱包、手机视频业务、 12530WAP 门户、彩信相册 WAP 访问、音乐随身听、中央音 乐平台全曲下载平台、手机医疗、手机阅读、掌上营业厅、手 机电视 MBBMS、网信平台试点、手机飞信 WAP 网站、飞信、 WAP 统一门户、号簿管家、条码识别、Mobile Market 业务、 车 e 行及手机导航、游戏业务。
移动数据库中数据表纷繁复杂,而且很多属性都不是挖 掘目标所需要的。根据 GPRS 业务挖掘目标,深入分析了移动 数据库中与此次挖掘相关的 18 张表,最终在 11张表中完成属 性探索,确定了 10 个与此次挖掘主题相关的属性集。
{ 客户品牌(attr_name),客户年龄(age),在网时长(tenure), 性别(sex),三个月平均消费额(all_charge),三个月平均数据 业务费(data_charge),手机视频(flash),手机阅读(reader), 手机游戏(game),Mobile Market 业务 }
用户品牌中“1”代表全球通品牌“,2”代表神州行品牌“,3” 代表动感地带品牌。入网时长单位为月。
上述确定的 10 个属性中的 6 个客户特征属性与客户是否 使用 GPRS 业务密切相关,这 6 个属性的信息基本可以描述 一类客户群的特征。因此选取这 6 个属性作为分析 GPRS 客 户特征的关键属性。
3.3 数据准备
数据准备主要在建模前完成对数据的清洗和预处理工作,它在数据挖掘中起着至关重要的作用,因为数据的质量直接影响最终数据挖掘的结果。本次挖掘从移动数据库中抽取 1,2,3 月份的数据,并以 3 月份的数据为基准,把 3 月份的数据作为样本集,1,2,3 月份的数据作为母本,对比样本集中各属性的分布与母本的分布,确定分布相一致,最终将 3 月份的数据作为本次关联规则挖掘的基本数据。但直接抽取的原始数据通常是不完整、有噪声和冗余的,不适合直接用来进行数据挖掘,所以需要对这些数据集进行预处理。主要完成以下几方面的处理:
(1) 缺失值处理。例如客户年龄,因为很多客户在办理业务时不愿意透露自己的年龄,经常随意填写或者不填。但移动办理业务必须提供自己的身份证号码,所以通过客户的身份证号码使用SQL 语句修正客户的年龄属性,这样客户年龄属性的正确率就可以提升到百分之八九十左右。客户的性别属性也可以通过客户的身份证号码来修正。对于属性较为重要但含有较多缺失值的数据,可通过已知数据精确计算或用通过统计得到的数据替换当前丢失的数据,均值替代缺失值 ;当属性不重要且含有很多缺失值时,忽略该属性 ;当属性有少量缺失值时可以删除带有缺失值的记录。
(2) 异常值处理。异常值为重复记录,不正确的属性值。应直接删除停机客户、通话时长为负值的记录。
(3) 数据简约处理。由于原始数据缺乏统一的标准和定义,所以存在大量冗余属性,冗余属性是指一个属性可以从其他属性中推演出来。例如入网时间和在网时长,显然在网时长可以通过入网时长推算出来。
(4) 衍生属性处理。在数据理解阶段选取的 10个字段中,产生 2 个衍生变量,即三个月平均消费额,三个月平均数据业务费。
(5) 数据集成处理。将数据库中多个数据表中的数据进行合并处理,整合存放到一个一致的数据表中。
由于移动公司一个月提取的数据量有 31 万左右,数据量过于庞大,从算法的效率考虑,采用随机采样原则。最终确定了一个含有 10 维 8 000 条记录的数据集,10 维属性即为图 3所确定的属性。部分数据集如图 3所示。
图 3 移动原始数据集
3.4 建立模型
数据挖掘建模就是从历史数据和结果中找出深层的关系和规律。使用数据挖掘关联规则Apriori 算法对数据准备阶段产生的对象数据集进行挖掘。
针对手机视频,手机阅读,Mobile Market业务和游戏业务,设定最小支持度 min_sup=10%,最小置信度 min_conf=50%, 运用Apriori 算法挖掘这四种业务之间的关联性。最终得到的部分挖掘结果如表 1 所列。
从挖掘结果中可以发现GPRS 业务之间有趣的关联关系, 同时使用手机视频和手机阅读的客户占总客户的 18%,同时使用这两种业务的客户占使用手机视频客户的 85%。由此说明, 手机视频业务和手机阅读业务之间的关联强度比较大,喜欢手机视频业务的客户也比较喜欢手机阅读业务。
3.5 评估模型
模型结果产生后,要对模型结果反映的数据关系进行科学的分析与评估,为此对上述关联规则挖掘得到的模型进行全面评估。采用 4 月份的数据来检验模型,若检验后得到一致的挖掘结果,则说明建立的模型得到的结果符合实际客观规律。在此基础上,由移动领域的专家对该模型的有效性进行了评价,证明该模型具有很好的可行性。
3.6 模型发布
建立的数学模型不仅要通过指定样本检验,还要通过应用问题的结果评估,即将模型应用到实践活动中,对模型的挖掘结果展开应用,从而有效促进解决实际问题的决策工作。
通过分析可以看出,基于关联规则的GPRS 业务数据挖掘主要是从业务角度发现各业务之间的关系。通过挖掘结果发现潜在的高交叉GPRS 业务,将模型挖掘结果导出为报表文件,帮助营销策划人员开展精准营销活动。
可以开展的营销策略:
(1) 短信电话营销。根据挖掘结果向已开通某一业务的客户主动推荐另一种关联强度比较高的业务,引导其开通相关联的业务。
(2) 业务捆绑销售。根据挖掘结果、业务之间的关联关系,设计出相应的业务捆绑销售套餐,从而促进业务的开展使用。
4 结 语
本文使用CRISP-DM 模型进行 GPRS 业务数据挖掘,证明了方法的可行性和实用性,并得到了GPRS 业务之间的关联关系,对营销实践和营销策划起到重要的指导和辅助决策作用。该挖掘结果模型已应用于某移动公司的GPRS 业务营销。实际应用表明,该挖掘结果具有较好的实用性,推动了市场GPRS业务的需求与发展,对移动领域的发展具有较为重要的现实意义。