大数据伴随信息数据爆炸式增长: 人工智能、大数据开始广泛应用
扫描二维码
随时随地手机看文章
大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义,大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求,使数据能够从量变到质变,真正产生价值。随着大数据的发展,其应用已经渗透到农业、工业、商业、服务业、医疗领域等各个方面,成为影响产业发展的一个重要因素。
当前人们所说的人工智能,是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术以及应用系统的一门新的技术科学,是由人工制造出来的系统所表现出来的智能。
传统人工智能受制于计算能力,并没能完成大规模的并行计算和并行处理,人工智能系统的能力较差。2006年,Hinton教授提出“深度学习”神经网络使得人工智能性能获得突破性进展,进而促使人工智能产业又一次进入快速发展阶段。“深度学习”神经网络主要机理是通过深层神经网络算法来模拟人的大脑学习过程,通过输入与输出的非线性关系将低层特征组合成更高层的抽象表示,最终达到掌握运用的水平。数据量的丰富程度决定了是否有充足数据对神经网络进行训练,进而使人工智能系统经过深度学习训练后达到强人工智能水平。因此,能否有足够多的数据对人工神经网络进行深度训练,提升算法有效性是人工智能能否达到类人或超人水平的决定因素之一。
随着移动互联网的爆发,数据量呈现出指数级的增长,大数据的积累为人工智能提供了基础支撑。同时受益于计算机技术在数据采集、存储、计算等环节的突破,人工智能已从简单的算法+数据库发展演化到了机器学习+深度理解的状态。
人工智能、大数据的广泛应用,给互联网平台带来了自动化的算法技术。一方面,互联网平台利用算法技术对网络内容提取特征并进行识别,通过打标签的方式向网络用户提供文学、音乐、视频等;另一方面,互联网平台利用算法技术,对网络用户的生活规律、阅读习惯、消费偏好等信息进行抓取分析,向网络用户精准推荐相关内容。算法应用给经济社会发展注入了新动能,同时,算法歧视、“大数据杀熟”、诱导沉迷等算法不合理应用也导致了一系列问题。
日前,国家互联网信息办公室等四部门联合颁布了《互联网信息服务算法推荐管理规定》。该规定从公共利益和保护消费者着眼,明确算法推荐给用户打标签不得包含违法信息,有助于促进算法推荐服务健康发展、提升监管能力水平。但如果算法推荐的内容中包含了涉及第三人权利的信息,该第三人权利如何获得保障,规定中并未涉及。为维护互联网生态,平衡互联网平台与权利人、用户之间的关系,在确立互联网平台算法推荐中的义务时,应当合理把握技术中立、法律规则的弹性解释等。
普及推广互联网平台的过滤技术。互联网平台在自动推荐内容时,一般根据用户的阅读、欣赏习惯,通过关键词等向用户提供。平台企业后台的信息抓取、信息分析能力越强,用户获得的与之前阅读、欣赏的内容越近似。如果这些内容是他人享有著作权的音乐、视频等,互联网企业就有可能承担间接侵权责任。有的互联网企业会以技术中立为借口,声称其仅通过关键词等进行了自动识别,无法看到呈现在用户面前的内容。为避免违法和侵权纠纷,应鼓励互联网平台采取算法过滤技术,建立健全用于识别侵权和不良信息的特征库。与算法推荐类似,算法过滤通过识别功能可以有效过滤那些涉嫌侵权的文本或者视频,大大降低侵权风险。除此之外,如果网络用户利用互联网平台,向其他用户自动推荐侵权物品,为避免自己的责任风险,互联网平台也可以利用算法过滤技术,辅之以人工干预机制,对网络用户提出警告,甚至对其采取其他处罚措施。
科学解释互联网领域的通知规则。从行为上看,互联网平台向用户提供的,要么是内容,要么是服务。如果互联网平台向用户提供的是文本、视频等内容,而且这些内容如果侵权,互联网平台就构成了直接侵权行为。如果互联网平台向用户提供自动存储空间、搜索、链接等技术服务,仅在主观上存在过错的前提下,承担间接侵权责任。互联网的本质是连接。为保证互联网行业的健康发展,民法典和其他民事法律规定了互联网企业的免责条件。如果权利人向互联网平台发出了符合条件的通知,告知互联网平台上存有侵害其权利的作品,互联网平台及时删除了该作品,及时断开链接或者采取了其他必要措施,互联网企业就不承担法律责任,这就是互联网领域所谓的“通知-删除”规则。随着算法技术的广泛应用,越来越多的第三方机构利用算法代表权利人向互联网平台发出侵权通知。例如,创立于2011年的某科技公司,截至2020年11月,已监测发现4700多万条侵权链接。为避免侵权风险,提供服务的互联网平台被迫采用算法技术对涉嫌侵权作品进行比对并删除,由此,互联网环境下的“通知-删除”规则变成了“算法通知-算法删除”规则。有学者指出,在这种模式下,由于机器人之间的对话取代了人与人之间的对话,只能将互联网平台的算法系统对“算法通知”的接收,“视为”平台的“知道”。
人工智能又称AI,它其实是一个“动态”的名词,是人类的新工具。
比如,在马车时代,汽车就是人工智能;在信纸时代,短信就是人工智能……
现在有了汽车,那无人驾驶就是人工智能;在无人驾驶普及后,另一种全新的驾驶模式才叫人工智能……
人工智能与大数据两者的关系
如果我们把人工智能看成一个嗷嗷待哺拥有无限潜力的婴儿,某一领域专业的海量的深度的数据就是喂养这个天才的奶粉。奶粉的数量决定了婴儿是否能长大,而奶粉的质量则决定了婴儿后续的智力发育水平。
人工智能,是60年前提出来的,人工智能前50年其实是默默无闻的,没有多少人关注。
为啥最近火了呢?因为人工智能有了“灵魂”——大数据。有了这些大数据,一个机器人都能给我们看病。我们只要把自己的症状告诉机器人,然后机器人会从“数据库”中找到相同或相似的病情,并给出建议去某项检查。
如果没有大数据,那这个机器人只能是一个有电的铁疙瘩,没啥实际用途。
与以前的众多数据分析技术相比,人工智能技术立足于神经网络,同时发展出多层神经网络,从而可以进行深度机器学习。与以外传统的算法相比,这一算法并无多余的假设前提(比如线性建模需要假设数据之间的线性关系),而是完全利用输入的数据自行模拟和构建相应的模型结构。这一算法特点决定了它是更为灵活的、且可以根据不同的训练数据而拥有自优化的能力。
但这一显著的优点带来的便是显著增加的运算量。在计算机运算能力取得突破以前,这样的算法几乎没有实际应用的价值。大概十几年前,我们尝试用神经网络运算一组并不海量的数据,整整等待三天都不一定会有结果。但今天的情况却大大不同了。高速并行运算、海量数据、更优化的算法共同促成了人工智能发展的突破。这一突破,如果我们在三十年以后回头来看,将会是不弱于互联网对人类产生深远影响的另一项技术,它所释放的力量将再次彻底改变我们的生活。