大数据盛行，我们被“卖掉”的个人隐私

时间：2019-12-10 11:21:33

关键字：个人隐私大数据数据

手机看文章

扫描二维码
随时随地手机看文章

[导读] 未来几年数据泄露事件的增长率也许会达到100%，除非数据在其源头就能够得到安全保障。可以说，在未来，每个财富500强企业都会面临数据攻击，无论他们是否已经做好安全防范。近日，江苏淮安警方查封了7家利用爬虫技术盗取用户隐私的科技公司，这7家公司共计盗取了4.68亿个人身份信息，而目前中国网民的数量为8.54亿人。换言之，至少有超过一半的网民失去了隐私。

未来几年数据泄露事件的增长率也许会达到100%，除非数据在其源头就能够得到安全保障。可以说，在未来，每个财富500强企业都会面临数据攻击，无论他们是否已经做好安全防范。近日，江苏淮安警方查封了7家利用爬虫技术盗取用户隐私的科技公司，这7家公司共计盗取了4.68亿个人身份信息，而目前中国网民的数量为8.54亿人。换言之，至少有超过一半的网民失去了隐私。

2019年9月以来，警方发起互联网“除虫”行动，大力打击非法抓取用户信息的违法犯罪行为。在此之前，51信用卡、同盾科技等“独角兽”也在爬虫数据的应用方面误入歧途，丢了生意也毁了声誉。作为互联网大数据最早也是最广泛的应用之一，爬虫技术正在遭遇前所未有的信任危机。

你的隐私只值一块钱

挂上科技公司的“羊头”，做着卖用户隐私的“狗肉生意”，这背后是暴利的诱惑。据江苏淮安警方通报内容显示，此次被查封的科技公司，主要是通过“黑爬虫”网站的软件非法获取小贷公司的用户数据，再打包售卖的下游客户从中牟利。据此前媒体报道案例显示，一份包含有个人身份信息、贷款数据、逾期数据等内容的400人隐私数据包，售价为500元，算下来，一个人的隐私价格为1块多钱。当购买者所需要的数据量足够大，一条个人信息的单价甚至可以低至1分钱。在此次江苏淮安警方查获的7家涉事公司中，拉卡拉支付旗下的考拉征信也在其中。据了解，考拉征信向下游一家叫北京黑格公司的数据公司售卖数据接口后，该数据再次流通到下游购买方。

作为二级“代理商”的考拉征信，从2015年3月以来共计提供了近1亿次“身份证返照”查询的非法业务，从中获利3800万元。照此计算，考拉征信贩卖一条隐私信息可获利2.63元。贩卖隐私信息的成本是多少?通过工商信息可以了解到，作为隐私数据源头的北京黑格公司登记员工人数为3人。若这3名员工均为爬虫技术工程师，按照目前2万至4万的薪资计算，北京黑格的人工成本为每年72万元-144万元。按照1分钱一条隐私的价格，只需要售卖7200万条信息就能回本。

隐私的终点站

据警方通报信息显示，上述7家科技公司售卖的隐私数据，最终将被用于推销贷款和催收，以及和其他公司交换信息。其中，专门从小贷公司专区截获的个人信息，可用于放贷以及继续向下游客户售卖。10月21日，港股上市公司51信用卡因委托外包催收公司涉嫌寻衅滋事等违法行为，被公安机关调查。消息称，51信用卡通过爬虫数据窃取用户隐私数据，并将数据库打包流通至催收公司。在此之前，该公司因未经用户同意收集个人信息而被工信部点名批评。

9月，大数据明星创业公司魔蝎科技的涉案人员，因非法贩卖个人隐私被警方带走。在此之前，该公司曾开发过一款专门爬取支付宝数据的产品。据其产品介绍，个人只要扫描一枚二维码就会将包括真实姓名、手机号、收货地址、近一年的购物信息、交易记录等信息事无巨细地统统“上交”给数据库。

2019年3月，号称中国最大的简历大数据公司、曾获李开复旗下创新工场投资的巧达科技，被警方“一锅端”，原因是非法售卖简历信息。据警方披露，巧达科技非法获取了2.2亿自然人的简历信息以及超过10亿份通讯录。而这些信息背后，是与此相关的社会关系、组织关系、家庭关系。按照此前巧达科技的官宣数据，这家公司拥有超过8亿自然人的全方位数据。更早，“大数据行业第一股”数据堂的员工也爆出贩卖公民信息的丑闻。据公开信息显示，该案6名主要涉案人员在8个月时间内，共计贩卖公民信息量达到百亿条，累计传输数据压缩后约为4000GB左右，相当于传送了2000部《战狼2》。

这些隐私数据的主人不一定是贷款人或者小贷平台的用户，他们可能是网购达人、准备买房的青年、正在准备就业的大学毕业……据悉，数据堂所贩卖的隐私数据主要内容为手机号、地区和互联网使用习惯偏好，通过标签化可以做到精准营销。

大数据光环下的“虫灾”

什么数据能爬取、爬取行为如何约束以及怎么使用爬取的数据，业界标准无法统一。“君子协议”防不住小人，只能由警方和检方出马了。但此起彼伏的追查行动，无法根治爬虫带来的“互联网虫灾”。爬虫技术诞生于上个世纪90年代，最早被应用于Google等搜索引擎。爬虫技术通过抓取互联网网页信息并对其进行筛选、储存，就能成为一个巨大的“数据包”，供用户在搜索引擎上检索。百度搜索也是基于爬虫技术而实现的。随着技术的演进，后续还出现了“算法推荐”等基于爬虫数据库而升级的新工具。技术无罪，人性作祟。在爬虫技术诞生之初，一些搜索引擎同一些网站通过邮件的方式定下“君子协议”—— robots.txt。协议内容规定了搜索引擎在网站抓取内容的范围和禁区。彼时，爬虫技术的生长环境还是透明的，内容获取和提供方的关系也更为和谐。

历史上关于爬虫数据的第一场纷争发生在2000年。美国支付平台eBay将一家比价网站BE告上法庭，原因是BE违反了爬虫协议，将禁区内的用户信息爬取并聚合公开。尽管BE声称该内容属于用户集体贡献而不归用户所有，但最终eBay胜诉。

2017年，领英以违法爬虫将一家数据分析公司告上法庭。但结果和eBay不同，领英败诉。尽管领英一再强调保护用户隐私不被未知第三方滥用，且用户能够控制自己的数据将被用于何处。但实际上，领英对这家数据公司的爬取是知情的。发起诉讼，源自领英准备开展与该数据公司类似的业务，为此需要阻断其爬取行为。两场官司的出发点发生了变化。从最初的单纯维护爬虫协议的“保护隐私原则”，转变为以谋求自身利益的爬取反制——经过20年的演变，爬虫数据的行业自律行为，已经远远超过互联网道德约束的边界。