有时候,“小数据”也够用
扫描二维码
随时随地手机看文章
在思考你的事业有什么人工智能(artificial intelligence, AI)的实际应用时,很容易会以为,需要很大量的数据数据才能开始进行。人工智能是由数据驱动的,所以,你手上的数据愈多,你的人工智能就愈聪明。是吗?不一定。
锁定明确目标的信息,就有价值。
把人工智能应用到数据上,以撷取情报,在这么做的时候,情境脉络(context)很重要。换句话说,你可以打造一个你能想象得出最大的数据湖(data lake),但是,假如你不知道要寻求什么,也没有所需要的相关数据,你就不可能得到你想要的成果。
这是因为人工智能并不是魔法黑盒子,不会在吸收堆积如山的数据之后,就自动吐出结果。人工智能是指规模很大的一组技术,每种技术各有明确、调整过的目的。企业若能专注在他们期望看到的影响和目标,并把重心放在收集能配合那些目标的适当数据集,就有最佳机会可藉由人工智能,得到真正能发挥影响力的结果。
让我们看看美国邮局(United States Postal Service,简称USPS)的邮件分类自动化经验。USPS运用机器与光学字符识别技术(optical character recognition,OCR),目前已可在没有真人协助下,判读并处理98%的手写地址邮件,以及99.5%的机器打印寄件数据邮件。USPS把这项技术,结合了规模相当小且很有限的美国邮政编码和城市,现在每小时就可处理超过36,000份邮件。USPS近年来面临严酷的财务危机,因此这个自动化作业带来极大的好处。
使用小量但精准度高的数据,运用人工智能而得到很大的效益,这方面另一个有趣的例子是在航空业。2015年,波音公司(Boeing)与卡内基美隆大学(Carnegie Mellon University)合作创设航空资料分析实验室(Aerospace Data Analytics Lab),为航空公司开发人工智能技术。其中一个计划的目标,是要把维修纪录标准化,以便运用人工智能,大幅降低维修成本。
每架飞机都被要求保留非常详细的维修纪录。然而,飞机在全球各地飞来飞去,沟通这些纪录开始出现问题。第一个大问题就是最基本的语言障碍。其他的问题还更严重。有些纪录是数字形式,有些是手写的。有些维修人员遵守规定逐行记录,但有些人只在纸的边缘潦草写下文字和缩写。一般维修人员几乎不太可能马上转译这些不同的记录方式。但如果运用人工智能,外加少量的飞机维修专门术语数据集,就能实时掌握并随时转译这些纪录。善用人工智能,来改善飞机维修工作流程的速度与正确性,可为航空公司省下数十亿美元。
凭借精准的数据,人工智能就能带来极大的影响,前述只不过是其中两个实例而已。你要如何把这些想法应用在你的公司里?以下是三个主要步骤:
建立与企业标的相符的目标。在执行任何任务时,跨部门团队共同订立目标,确保目标与企业标的一致,是很关键的步骤,在人工智能方面也不例外。人工智能的本质是规范性的,你把企业目标的范围界定得愈狭窄,数据集的情境脉络愈明确,你就愈可能得到有意义的结果。
有一个常被忽略的重点,就是企业应为此建立一个跨部门团队,而且让整个组织都知道。这有助于决定,组织的哪些单位最需要人工智能的协助。如果你的团队里有营运、销售、财务部门的人和高阶主管,就较可能找出真正的瓶颈和机会在哪里,你也较可能想出一些实际的解决方案,真的开始解决那些问题。
克服数据混乱状态。每家公司都有一些对他们有独特价值的数据集。然而,数据跟价值之间常常缺乏链接。你可能已握有数据,但它不够清楚、明确,也无法实际使用。若想要克服数据混乱状态、取出小量但非常精准的数据,有个好用的架构可以采用,就是聚焦在顾客、合作伙伴和供货商的生命周期。按照生命周期,就能呈现其中所有的步骤、系统和利害关系人。检视这些生命周期,可帮你找出会遗失价值的漏洞。这些都是你的机会,可创造清楚而可衡量的影响。专注在这些漏洞周围的关键数据,就能获得更精准且可使用的数据。
为你的任务选择适当的技术。机器学习(machine learning)跟人工智能都受到高度关注,它们这么受瞩目,是有道理的。这两者都是令人惊叹的技术,在任何企业对消费者(B2C)或企业对企业(B2B)的公司里,都可望为任何层级的高阶主管创造价值。而且,使用它们的成本,甚至比五年前低了许多。不要雇用拥有上百位资料科学家的团队,而应去查看那个正在成长的生态系统,选择合适的工具,用来完成你想完成的任务。
在数字商业的世界里,企业总是在寻求大规模且快速的解决方案,也就是能让他们取得优势的大突破。但事实是,若你务实一点,就可以开始累积许多较小的成功果实,而且进行得很快。长期来看,逐步积累的成果也能发挥极大效用。
这就是看待人工智能的正确态度。它不是一个魔法黑盒子,而是一组高度专业化的工具。它不是要用来追求过于高远的目标,而是要帮你解决实质问题。它的重点不在堆积如山的数据,而是要使用小量、高度精确的数据。