澳鹏张童皓:专业化数据服务平台是AI工业化的突破口
扫描二维码
随时随地手机看文章
(全球TMT2021年7月13日讯)一份最新的全球《2021人工智能与机器学习现状》调研报告显示:2021年,53%的AI团队报告预算在50万美元到500万美元之间(而2020年约为三分之一),这个强烈的信号表明AI对于各行各业各种规模企业的成功变得越来越重要。这份由AI数据服务平台公司澳鹏(Appen)连续第7年发布的AI现状年度报告还强调,在2020年由于新冠疫情,各规模的企业都加速推进了AI战略,并且在2021年还将继续保持这种势头。
在中国,AI技术应用开始全面覆盖日常生活、科学研究、社会治理、商业创新和国家安全等经济社会的关键领域,以空前的广度和深度推动社会发展。由中国信通院与中国人工智能产业发展联盟推出的《2021人工智能核心产业白皮书》指出,工程技术正在引领AI产业 -- 技术成本快速下降,同等算法水平所需计算量每8个月降低一倍、成本降低百倍,涌现了多样化的研发和技术服务平台,这些说明AI正从技术理论突破过渡到工程化落地应用的阶段。
深度神经网络是当前AI的主要模型,而监督学习则是构建(训练)深度神经网络的主要方法,监督学习所需要的大规模、高质量的人工标注数据集是AI产业发展的刚需,也是AI工业化的主要瓶颈之一。在中国,正在大量涌现AI数据标注产业基地,但当前的AI数据标注产业仍处于初级阶段。澳鹏公司产品研发总监张童皓表示,用户对于数据规模、质量和多样性等要求越来越高,专业化数据服务平台是AI工业化的突破口。
澳鹏《2021人工智能与机器学习现状》调研报告指出,获取足够的优质训练数据来部署AI是各种规模企业成功的重大障碍,而全球绝大多数企业都在某种程度上采用了专业数据供应商 -- 这反映了数据采集、准备和管理是AI面临的首要挑战。
根据澳鹏的调研,使用专业数据供应商的企业表示他们在AI部署方面领先于其他企业的可能性要高1.5倍,而落后的可能性要低4倍,也就是说使用专业数据供应商的企业部署了更多的AI项目,而且实现了更大的投资回报率。特别是,澳鹏发现使用专业数据供应商的企业更有可能将AI部署到生产环境。
此外,AI部署是一个持续的过程,而不是一劳永逸。去年,80%的被调研企业至少每季度更新一次模型,今年已增加到87%;2021 年,57%的受访者表示至少每月更新一次模型,高于 2020年的45%。而与较小的企业相比,大型企业更有可能更新AI模型,至少每季度更新一次的比例为91%。其中,使用专业数据供应商的企业最有可能每月更新其模型。
就中国市场来说,以数据标注为代表的专业数据服务行业才刚刚起步,相关技术发展程度低,属于劳动力密集型行业,而且该行业缺乏大型专业数据供应商和服务商,行业以中小企业为主,呈现高度的竞争状态。在另一方面,数据标注正从简单、重复的拉框标注向精细化方向发展,也就是说数据标注行业正从简单的劳动力密集型向专业型数据服务过渡。
当前,中国的AI行业和AI应用正在高速发展,相应带动了AI数据标注行业的快速成长。特别是AI用户对于AI数据标注质量的要求越来越高、越来越精细化和专业化,诸如自动驾驶、工业制造等智能应用场景越来越复杂,高质量、精细化的标注数据将直接影响算法模型的效果。
专业化的AI训练数据标注平台及众包管理平台是当前中国AI工业化瓶颈的重要突破口之一,这也是澳鹏(Appen)进入中国市场的重要原因。澳鹏迄今已经有25年的历史,拥有业内先进的人工智能辅助数据标注平台和一体化AI数据及资源管理平台,以及全球100多万名技能娴熟的众包资源 -- 来自全球170多个国家和70,000个地区,支持235多种语言和方言。澳鹏中国团队从2019年就开始就重新构建面向中国市场的AI数据标注平台、相应的工具以及众包资源渠道和管理平台,2021年澳鹏大中华区正式成立并独立运作。
作为全球领先的AI训练数据服务提供商,澳鹏的拳头产品和服务就是数据标注平台和众包资源。针对中国市场,澳鹏中国研发中心借鉴公司在海外的实战经验,重新独立开发了中国版本的数据服务平台。