扫描二维码
随时随地手机看文章
引 言
大数据背景下的信息过载问题越来越严重,基于大数据的个性化推荐技术在教育、医疗和社会网络领域的实际应用价值,使其逐渐成为缓解信息过载问题的有效方法。大数据具有 Volume,Variety,Value,Velocity 四个特征,如何分析和处理用户感兴趣的海量数据,提取有价值的信息,从而进行有针对性的推荐服务是大数据个性化推荐的关键。
1 大数据个性化推荐发展历程
历史上最具代表性的检索技术是分类目录和搜索引擎。分类目录是用户在知道明确的知识前提下,通过分类选择找到自己想要的信息,使用极其不便,之后研究出搜索引擎技术,但是当用户需求不明确时,搜索系统则无法实现较好的效果,因此推荐技术应运而生。近几年,随着信息爆炸与大数据技术的普及,基于大数据的个性化推荐成了时代的新宠。大数据背景下的个性化推荐通过收集大量用户感兴趣的信息、采用大数据分析技术挖掘用户的喜好,通过个性化推荐算法为用户提供准确的个性化推荐。
在国内,大数据个性化推荐算法自 2012 年提出之后, 经过两年的发展期和一年的成熟期,到 2016 年进入了广泛的应用期 [1],同时在技术方面也从最初的 hadhoop 技术应用到大数据的快速处理、推荐算法及框架的研究,进而转向在电子商务、新闻和社交网络等领域的个性化推荐应用研究。国外的研究早于国内,自 2015 年开始国外已从理论研究转向教育、医疗及用户行为等多方面的应用研究。
2 大数据个性化推荐算法分析
大数据背景下的个性化推荐算法如图 1 所示。
图 1 主要的推荐算法
2.1 基于内容的个性化推荐
所有物品都有内容的分类,如人们常吃的肉类就包括猪肉、牛肉、羊肉、狗肉、驴肉、兔肉等。基于内容的个性化推荐首先对物品的内容信息进行分析,提取内容特征,然后根据物品的内容属性和用户的历史评分或操作记录,提取用户需求和对不同内容属性的爱好程度,并且构建相应的用户需求和偏好模型,由此向用户推荐与其需求和偏好模型相匹配的资源。该推荐方法的核心在于利用用户需求和偏好与目标资源的相似性来过滤信息,进而实现个性化信息推荐。推荐步骤如图 2 所示。
图 2 基于内容的个性化推荐步骤
若物品没有明确的内容特征,则根据对推荐物品特征的描述可以分为结构化特征和非结构化特征两种,前者特征的取值限定在某个区间范围内,并且按照定长的格式来表示, 而后者无法按固定格式表示,文章就是最典型的此类数据[2-3], 我们经常将其转化为结构化特征加入模型中,进而完成推荐。
2.2 基于协同过滤的个性化推荐
人们外出就餐、购物、旅游或者看电影时都会询问亲朋好友或者通过网上评价进行选择。协同过滤正是运用了这一思想,即采用最近邻技术,由近邻用户的喜好预测目标用户的喜好进行推荐 [4]。它是推荐系统中应用最早且最成功的技术之一 [5],已经成为大数据推荐算法的研究热点和重点。
2.2.1 基于物品的协同过滤推荐
根据不同物品之间的相似度和用户以往的喜好推荐类似物品,例如在酷狗音乐的每一首歌曲下面都有相似歌曲的推荐,而各大购物网站也都有“找相似”等类似商品的推荐。与基于内容推荐不同的是,这里所说的相似主要是利用用户行为的集体智慧,该算法的推荐过程如图 3 所示。
图 3 基于物品的协同过滤推荐步骤
2.2.2 基于用户的协同过滤推荐
将具有相同爱好的用户感兴趣的项目推荐给目标用户, 是至今为止实际运用效果最成功的算法 [6],推荐步骤如图 4所示,基于用户的协同过滤过程如图 5 所示。
2.2.3 基于模型的协同过滤推荐
利用用户的历史项目评价进行学习以构建用户模型。用户模型作为项目的评价预测基础,其中应用比较成熟的是矩阵分解技术,基于矩阵分解的个性化推荐是一种学习算法, 它使用数学中的奇异值分解技术,通过矩阵分解使矩阵降维并对大量数据进行压缩,能较好地挖掘已知数据中的潜在关系,具有较高的推荐精度,较少的时间和较低的离线计算空间复杂度,但特征挖掘的层次不够深入,对推荐结果的解释性较差。
2.3 基于社交网络的个性化推荐
通过对社交网络中用户的兴趣爱好进行挖掘分析后进行个性化推荐。著名的社交网站有 Facebook 和 Twitter、微博、微信和 QQ 等,在社交网络背景下,个性化推荐不仅要关注用户和物品之间的关系,还要关注用户和用户之间的关系 [7]。
2.4 基于关联规则的个性化推荐
分析物品间的相似性及相关联性,建立一套行为规则进行个性化推荐。它有一定的通用性,可以应用于多种领域, 但抽取关联规则比较难,且花费时间较多,另外随着关联规则数量的增加,系统管理的难度也会加大,最典型的应用是购物车分析。
2.5 混合个性化推荐
单一的个性化推荐算法各有优缺点,因此可将优劣势互补的推荐方法组合在一起进行混合式个性化推荐,既剔除了单一算法的缺点又提高了推荐效果。在系统架构方面,采用在线 - 离线 - 近线三段混合系统,分别负责热门请求、短期计算和长期推荐计算,通过多段的混合推荐可以达到可靠的推荐结果,在技术上有加权型、切换型、交叉型等多种混合推荐方式。混合推荐在提高精确性的同时增加了算法的时空复杂度,因此要处理好混合推荐算法间的协调性[8]。
大数据个性化推荐算法各有优缺点,具体见表 1 所列。
3 大数据个性化推荐存在的问题
3.1 大数据方面
(1)大数据背景下海量数据使数据的稀疏性和长尾问题剧增 [9]。
(2)大数据类型的多样性和复杂性以及数据量的巨大性,使计算复杂度成倍增加。
(3)大数据本身的价值密度低,但价值巨大,如何从海量数据中抽取有用的信息进行个性化推荐是个难题。
(4)推荐系统对时效性要求较高,可扩展性是推荐算法需要解决的难点问题之一。
(5)数据安全问题。为了更好地挖掘用户喜好,需要收集更多的个人信息,当基于大数据的推荐系统聚集了大量有价值的信息时,必然会成为被攻击的目标,过度的暴露个人信息会给用户的个人隐私带来安全隐患,破坏大数据推荐系统的发展。如何在不暴露用户隐私的情况下进行精准的个性化推荐是亟待解决的问题。
(6)怎样对系统中的不良内容进行过滤,对恶俗非法内容进行曝光打击,传递正能量也是推荐系统需要关注的问题。
3.2 推荐算法方面
从推荐算法的对比分析可得每一种推荐算法都有各自的优缺点和适用场合,随着软硬件技术的发展,不管是对原有算法的优化,还是对新算法的探索,算法的准确性和覆盖面都是值得研究的问题。
3.3 用户方面
用户的喜好是多种因素综合作用的结果,随着时间的推移和年龄的增长,兴趣爱好会发生很大的变化,根据原有信息进行的推荐就有失偏颇,因此怎样在不同的时间段抽取不断变化的兴趣爱好,继而进行有效推荐是需要解决的问题。
3.4 冷启动问题
用户、物品及系统都存在冷启动问题,当商品上新用户第一次购买时,由于之前没有相关数据的积累,因此将严重影响个性化推荐的准确性。
3.5 推荐的多样性问题
推荐的准确性是算法关注的目标,而结果的多样性很少被重视,因此推荐结果越来越同质化,降低了用户的使用体验。
4 大数据个性化推荐的应用
(1)个性化教育
大数据促进了个性化教育的快速发展,我国的教育明确提出发展学生的个性,但目前我们的个性化教育还处在初级阶段,因此立足大数据分析实现学生的个性化培养已成为大数据个性化推荐的一个重要应用领域。
(2)个性化医疗
基于位置信息的服务已融入人们的生活,医疗行业正在迎来属于自己的个性化时代,各种健康医疗推荐服务已成为研究热点,如何在有限的医疗资源条件下实现用户的个性化医疗推荐服务是大数据个性化推荐的另一个重要应用。
(3)电子商务个性化
为了进行精准营销,多数电子商务平台都提供个性化推荐服务,大数据个性化推荐可以为用户提供准确的推荐服务, 实现商家的精准营销。
(4)互联网金融个性化
在互联网金融领域,各大平台都有针对个人定制的千人千面投资推荐。
(5)其他方面的个性化
随着互联网的发展,个性化的推荐将在多媒体娱乐及社交网络等领域发展得越来越好。总之,大数据个性化的推荐已成为未来教育、医疗、电子商务、互联网金融及社交网络等领域的标配。
5 结 语
大数据个性化推荐时代已经到来,随着深度学习的爆发及推荐算法的不断发展和延伸,基于深度学习的个性化推荐将会得到快速发展,同时混合式综合推荐、群体推荐也将成为未来大数据个性化推荐研究的重要方向。