没有数据的人工智能不是真正的智能
扫描二维码
随时随地手机看文章
人工智能的目标是让机器像人类一样学会学习。算法训练、深度学习等都需要大量数据支持,数据挖掘是人工智能做训练样本的前提条件。如无人车需要大量的试车数据不断地测试算法,并在业务场景上形成自我改进的反馈系统。可见如果没有数据的场景不可能实现人工智能,数据就是人工智能的引爆点。
基于深度学习的人工智能技术,核心在于通过计算找寻数据中的规律,运用该规律对具体任务进行预测和决断。源数据需要进行采集、标注等处理后才能够使用,标注的数据形成相应数据集。业务类型主要包括数据采集、数据处理、数据存储以及数据交易等环节。 当前,人工智能数据集的参与主体主要有以下几类:
一是学术机构,为开展相关研究工作,自行采集、标注,并建设学术数据集。这类数据集以 ImageNet 为代表,主要用于算法的创新性验证、学术竞赛等,但其迭代速度较慢,难用于实际应用场景。
二是政府,等中立机构,他们以公益形式开放的公共数据,主要包括政府、银行机构等行业数据及经济运行数据等,数据标注一般由使用数据的机构完成。
三是人工智能企业,他们为开展业务而自行建设数据集,企业一般自行采集,标注形成自用数据集,或采购专业数据公司提供的数据外包服务。四是数据处理外包服务公司,这类公司业务包括出售现成数据训练集的使用授权,或根据用户的具体需求提供数据处理服务(用户提供原始数据、企业对数据进行转写、标注),具体业务服务形式包括且不限于提供数据库资源、提供数据采集服务,提供数据转写标注服务等。
当前,人工智能基础数据类型主要包括语音语言类(包括声音、文字、语言学规则)、图像识别类(包括自然物体、自然环境、人造物体、生物特征等)以及视频识别类三个大类,从世界范围来看,数据服务商总部主要分布在美国、欧洲等发达国家。但其数据处理人员则大多数分布在第三世界国家;我国语音、图像类资源企业机构正处于快速发展阶段,为产业发展增添了动力。