大数据时代的用户隐私保护
扫描二维码
随时随地手机看文章
引 言
现在, 随着网络化和信息化的普及与提高, 数据正在以惊人的速度增长,大数据时代已经来到,目前政府相关部门、学术研究单位和商业部门都在研究和应用大数据。2008 年《Nature》推出了 Big Data 专刊,2011 年《Science》推出了Dealing with Data 专刊,2011 年McKinsey Global Institute 发布了一份报 告《Big data: The next frontier for innovation, competition, and productivity》,该报告详尽分析了大数据的关键技术和应用于各行业的关键发现。2012 年 6 月我国工业和信息化部赛迪研究院翻译了该报告《大数据 :下一个创新、竞争和生产力的前沿》,2012 年奥巴马政府启动了投资2亿美元的“大数据的研究和发展计划”,2012 年中国通信学会、中国计算机学会等重要学术组织先后成立了大数据专家委员会[1]。
大数据是一个比较抽象的概念,目前还没有统一的定义, 但比较有代表性的是3V 定义,即认为大数据需满足规模性(Volume)、多样性(Variety) 和高速性(Velocity) 3个特点[2]。大数据的来源可以分成人(人们在互联网活动以及使用移动互联网过程中所产生的各类数据)、机(各类计算机信息系统产生的数据)和物(各类数字设备所采集的数据)三类 [1]。大数据的价值不仅在于它的基本用途,更来源于二次或多次利用, 从而提高相关企业在各行业中的竞争力,故数据成为企业的财产,更是新型商业模式的基石。
在商业利润的驱动下,企业会大量收集包含了个人信息的数据,同时对个人信息数据进行加工、使用和发布,这样会给用户个人生活带来困扰甚至危险,如果没有好的方法来对个人隐私数据进行保护,那么对个人、企业甚至社会都有不好的影响。本文针对具体的大数据应用,从位置大数据、射频识别数据和在线社交网络数据三个方面进行分析。
1 位置大数据
现在的移动设备通过GPS、WiFi 等定位设备可以直接获取移动对象的位置信息,可穿戴设备通过传感设备收集加速度和光学影像等数据来获取使用者的位置信息,上述位置大数据可以方便使用者,同时也可能泄露个人信息。因为位置信息包含了用户的隐私信息,可据此推测出用户的生活习惯、身体健康状况、家庭住址等敏感信息,若使用不当,会给用户带来困扰甚至危险。目前有很多位置大数据隐私保护技术, 本文仅分析如下三类:
(1) 基于启发式隐私度量的隐私保护技术 ;
(2) 基于概率推测的隐私保护技术;
(3) 基于隐私信息检索的隐私保护技术 [3]。
1.1 基于启发式隐私度量的隐私保护技术
该技术主要通过用户提交不真实的位置数据来避免攻击者获得正确的位置数据,一般采用随机化、空间模糊化和时间模糊化等技术。
(1) 随机化是在真实位置数据中加入随机噪声,服务器接收到用户的正确位置数据后,将噪音和正确位置数据发给服务提供商,同时过滤服务提供商返回的查询数据,将返回的查询数据报给用户。
(2) 空间模糊化是在不影响获得服务的前提下,通过降低发布位置数据的精度将一个点模糊到一个区域。
(3) 时间模糊化则通过增加位置数据在时间域上的不确定性来降低位置数据的精度。
1.2 基于概率推测的隐私保护技术
该技术是为移动对象所在的位置关联一个发布位置的概率,用户根据该概率来决定是否发布自己的位置数据,从而让攻击者区分不了敏感位置和非敏感位置。一般可用隐马尔可夫模型和图模型计算上面的关联概率
(1)隐马尔可夫模型认为,用户当前所处的位置决定是否发布位置数据,如果当前位置不敏感,可轻易被发布;若历史数据暗示当前位置敏感,则不发布。
(2)图模型是隐马尔可夫模型的一般化,允许用户当前位置与历史位置数据有关。
1.3 基于隐私信息检索的隐私保护技术
该技术包括最短路径计算和近邻查询两种。
(1) 最短路径计算基于 Dijkstra算法,针对任何一个起点和终点,服务器都进行预算并保存起点到终点的最短距离。
(2) 近邻查询中用得最多的是k最近邻查询,它返回离查询点最近的k个元素。
2 射频识别数据
射频识别(Radio Frequency Identification,RFID)采用无线自动识别技术,属于非接触式自动识别技术,可通过射频信号自动识别对象获取数据,俗称电子标签,广泛应用在物流业、零售业和制造业等行业。
当射频识别数据和个人信息相关联时,可能会被秘密跟踪,如在不停车收费系统(ETC)中,安装电子标签的车辆会被全程跟踪。当射频识别数据和个人信息相关联时,可根据使用射频卡消费的情况推断出个人消费习惯。
目前为了保护个人隐私,有很多隐私增强技术,文中将分别介绍 kill 标签、主动干扰、阻止标签、Hash 锁、随机 Hash 锁、匿名标签和重加密。
(1) kill标签 :销售的商品在结账时执行口令杀死标签, 从而可以完美的阻止扫描和追踪。
(2) 主动干扰 :通过某设备主动广播相应无线电信号,从而阻止和破坏附近阅读器的相关操作。
(3) 阻止标签 :利用特殊的阻止标签来干扰防冲突算法,让阅读器读取命令后得到相同的应答数据。
(4) Hash锁[4] :Hash锁分为锁定标签和解锁标签两个过程。锁定标签,阅读器给唯一标识号ID的标签分配一个Key, 通过Hash (key) 计算 metaID 并分配给该标签,同时将(metaID, Key, ID) 存储到后台数据库中,标签进入锁定状态; 解锁标签,阅读器询问标签后,根据标签回答的metaID查询后台数据库, 获取 Key值, 计算 Hash(Key), 若 Hash(Key) 与自身存储的metaID值相等,则标签进入解锁状态。
(5) 随机 Hash 锁 :该方法对 Hash 锁进行改良,其中标签每次回答是随机的。
(6) 匿名标签 :采用第三方数据加密装置,利用公钥加密和私钥加密算法随机生成匿名标签。
(7) 重加密 :采用第三方数据加密装置,利用公钥加密定期对标签数据进行重写。
3 在线社交网络数据
这些年,由于互联网的迅速发展、无线通信技术的进步以及移动智能设备的普及,出现了许多服务不同群体、具有不同功能的在线社交网络服务(Online Social Networking Services,OSNS),如微博、微信等,人们习惯通过这些社交网络应用来与朋友沟通、分享信息等,这样就产生了海量的、跨越了不同时空限制的社交网络数据。在这些社交网络数据中有大量的个人信息,因为有些社交网络应用要求用户填写包括姓名、性别、手机号码等个人信息,还有用户利用社交网络应用发布文字和图片时可能自动生成相关地理位置等私密信息。
如果用户隐私泄露,可能给用户造成多种困扰,如垃圾短信、骚扰电话,甚至人身伤害,这就要求对隐私进行保护, 目前有去匿名化和差分隐私两类方法。
去匿名化有嵌入子图攻击、层次拓扑攻击、模糊结构匹配、属性指纹识别等方法。
(1) 嵌入子图攻击 :借助嵌入子图对目标节点及节点之间的边关系进行去匿名化。
(2) 层次拓扑攻击 :借助节点的层次拓扑特征进行去匿名化。
(3) 模糊结构匹配:利用自反馈和自完善的模糊匹配机制,使用结构特征进行去匿名化。
(4) 属性指纹识别 :借助稀疏属性为节点特征进行去匿名化。
差分隐私有 PMW 等方法。PMW[5](Private Multiplicative Weights,PMW)利用机器学习中的加权多数算法,通过投票机制来构建。
4 结 语
大数据时代拉开了序幕,公开的数据会越来越多,其中有很多与个人隐私数据相关,可喜的是现在有许多学者和单位正在研究如何满足个人隐私保护的需求,希望将来有一个理想的安全解决方案。