当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 人工智能(AI)和机器学习(ML)如今已经十分常见。AI指的是机器模仿人类进行认知的概念,ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务,那么ML就是机器从数据中摄取、

人工智能(AI)和机器学习(ML)如今已经十分常见。AI指的是机器模仿人类进行认知的概念,ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务,那么ML就是机器从数据中摄取、解析和学习的能力,以便更精确地完成任务。

汽车、金融、政府、医疗、零售和科技等行业的大部分管理者都已经对ML和AI有了基本的了解。不过,并非每个人都是一个制定训练数据策略的专家——而这往往是实现ML高投资回报的必要的第一步。

AI系统通过实例来学习,它们拥有的高质量实例数据越多,就会学得越好。缺乏,或只有低质量的训练数据可能会生成不可靠的系统,得出错误的结论,做出糟糕的决策,无法处理现实世界的变化,并引入或延续一些如偏见等问题。

如果没有一个良好定义的策略来收集和组织你需要训练、测试和优化AI系统的数据,你将面临项目延迟、无法适当扩展以及被竞争对手超过的风险。下面是构建一个成功的训练数据策略的6个技巧。

1、制定训练数据预算

当启动一个新的ML项目时,首先要定义的是要实现的目标。这会让你知道,你的系统中需要哪种类型的数据,以及需要多少“训练项”(已分类的数据点)。

例如,计算机视觉或图像识别项目的训练项目,使用人工注释标记的图像数据,用于识别图像的内容(树、停车标志、人、车等)。此外,根据你正在构建的解决方案的类型,你的模型可能需要不断地重新培训或刷新。你的解决方案可能需要每季度、每月甚至每周进行更新。

一旦确定了训练项目和更新频率,你就可以评估关于采购数据的一些选项,并计算预算。

重要的是要清楚地了解启动该计划所需的时间和资金成本,随着时间的推移对其进行维护,并随着业务的发展对特性和功能进行改进,从而使解决方案对你的客户保持相关性和价值性。启动ML计划是一项长期投资。获得高回报需要一个长期的策略。

2、收集适当的数据

你需要的数据类型取决于你正在构建的解决方案的类型。一些数据来源包括实际使用数据、调查数据、公共数据集和合成数据。例如,一个能够理解人类语音命令的语音识别解决方案必须针对已翻译成文本的高质量语音数据(实际数据)进行培训。搜索解决方案需要由人工注释的文本数据来告诉它哪些结果是最相关的。

ML中最常用的数据类型是图像、视频、语音、音频和文本。在用于ML之前,必须对训练数据进行注释或标记,以确定它们是什么。注释可以告诉模型如何处理每段数据。例如,如果一个虚拟助理的一条训练数据是某个人的录音“多订购一点AA电池”,注释可能会告诉系统在听到“订购”时,与某个在线零售商处下个订单,在听到“AA电池”时搜索“AA电池”。

3、保证数据质量

根据任务的不同,数据注释可能是一项相对简单的活动,但是它也是重复的、耗时的,并且很难始终正确地执行。它需要人的介入。

低数据质量带来的风险很高,因为如果你根据不准确的数据训练模型,那么模型将会做错误的事情。例如,如果你训练一个自动驾驶汽车的计算机视觉系统,将人行道的图像错误地标记为街道,结果可能是灾难性的。事实上,糟糕的数据质量,是阻止ML广泛且有效使用的头号敌人。

当我们讨论数据质量时,我们谈论的是标签的准确性和一致性。准确是一个标签距离事实有多近;一致性是不同训练项目上的多个注释彼此一致的程度。

4 。注意并减少数据偏差

强调数据质量有助于公司减轻其AI项目中的偏见,这些偏见可能会隐藏起来,直到基于人工智能的解决方案进入市场。在这一点上,偏见可能很难纠正。

偏见通常来自项目开始时项目团队或培训数据中的盲点或无意识偏好。AI中的偏见可以表现为不同性别、口音或种族的语音或面部识别表现不均匀。随着AI在我们的文化中变得越来越普遍,现在是时候解决内在的偏见了。

为了避免项目级别的偏见,在建设定义目标、路线图、度量和算法团队时需要积极保证多样性。建设一个多样化的数据人才团队说起来容易做起来难,但风险很高。如果你团队的内部构成不代表潜在客户的外部构成,那么最终产品的风险只是为一小部分人工作,或者对他们有吸引力,而错过了一个面向大众市场的机会,或者更糟——偏见可能让AI具备现实世界中的歧视。

5、必要时,实施数据安全保障

并非每个数据项目都使用个人身份信息(PII)或敏感数据。对于利用这类信息的解决方案,数据安全性比以往任何时候都更重要,特别是在处理客户的PII、财务或政府记录或用户生成的内容时。越来越多的政府法规规定企业必须怎样处理客户信息。

保护这些机密数据可以保护你和你的客户的信息。对实践保持透明和道德准则,并坚持你的服务条款,这将给你带来竞争优势。不这样做会让你面临丑闻和品牌负面影响的风险。

6、选择合适的技术

你的训练数据越复杂或微妙,结果就越好。大多数组织都需要大量高质量、快速且大规模的训练数据。为了实现这一点,他们必须构建一个数据渠道,以更新模型所需的速度交付足够的数据量。这就是为什么,采用正确的数据注释技术是至关重要的。

你选择的工具必须能够为你的项目处理适当的数据类型,允许灵活的标记工作流设计,可管理单个注释器的质量和吞吐量,并提供ML辅助的数据标记来增强人工注释器的性能。

制定策略保障AI项目成功

IHS Markit最近的一项研究显示,87%的组织正在采用至少一种形式的变革性技术,比如人工智能,但只有26%的组织认为已经具备了适当的商业模式,可以从这些技术中获取全部价值。

创建一个可靠的训练数据策略是获取AI价值的第一步。包括设置预算、确定数据源、确保质量和保证安全性。清晰的数据策略还有助于提供大多数ML模型定期更新所需的稳定的数据渠道。单独的训练数据策略并不能保证AI的成功,但它可以帮助企业更好地利用AI带来的红利。

来源:搜狐

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭