英特尔人工智能蓝图模型训练和推理技术落地
扫描二维码
随时随地手机看文章
聚焦转折性技术,成立AI创新院:揭秘英特尔人工智能蓝图
机器之心原创 作者:李泽南 人工智能应用已经越来越多地出现在了我们的生活当中,但AI对于算力的无尽需求与芯片制程提升的瓶颈正逐渐成为摆在眼前的挑战。未来AI技术的发展需要硬件与软件架构共同结合并进行革新。 6 月 20 日,由 OReilly 与英特尔共同举办
机器之心原创
作者:李泽南
人工智能应用已经越来越多地出现在了我们的生活当中,但AI对于算力的无尽需求与芯片制程提升的瓶颈正逐渐成为摆在眼前的挑战。未来AI技术的发展需要硬件与软件架构共同结合并进行革新。
6 月 20 日,由 O'Reilly 与英特尔共同举办的人工智能大会终于进入了主题演讲环节。当日上午,英特尔架构图形与软件集团副总裁、数据分析技术总监马子雅发表了主题演讲,向我们介绍了英特尔在软硬件结合加速 AI 应用方面的成果与未来展望。
“我们正处在一个数据变革的时代,人类历史上 90% 的数据都是在过去几年产生的,其中 50% 的数据更是在最近两年内生成的,”马子雅在大会上说道。“但到目前为止,只有 2% 的数据被真正分析过。这其中最主要的原因就是这些新兴技术,如人工智能从实验室到最终落地,还有很多问题需要解决。”
马子雅在大会上发表演讲。
让 AI 真正解决生产问题
人工智能
的应用并不是简单地执行算法。以智慧生产为例,制造商可以在生产线上利用深度学习,尤其是图像识别,将产品的质量检测自动化。如自动检测产品表面缺陷、零部件的缺失、标签的错位。已有很多实践证明,相比人工检测,智慧检测可以大幅提高生产效率,并降低成本。但智慧检测只有深度学习是远远不够的,它需要一条完整的数据分析流水线才能够真正落地。
这条流水线遵循这样的步骤:
第一步,从生产线上收集大量原始数据;
第二步,对原始数据进行大量清理和预处理,滤出数据噪音,查补缺失,校正错误;
第三步,利用数据进行分析、机器学习、深度学习对于清理过的数据进行归纳总结,并把有质量问题的场景从生产线上排除出去;
最终把分析可视化。
只有实现了这四步,智慧生产、智慧检测才能落地。
“人工智能要走出实验室、实现落地,需要一个完整的数据分析流水线,”马子雅说道,“这个流水线的 20% 可能是在做深度学习,但是 80% 都是在做数据收集、数据存储、数据管理、数据清理、数据预处理等等,这是为什么早前我们开源了 BigDL 的重要原因。”
BigDL 是英特尔基于 Spark 平台的深度学习框架。它的功能与流行的深度学习框架,如 TensorFlow、Caffe、Torch 功能相同。重要是,它构建在成熟的 Spark 数据分析平台之上,可以为客户提供端到端的从数据收集、数据存储、数据清理、数据预处理、数据管理、机器学习、深度学习,以及最终的可视化等服务。在过去两年的时间,已经有很多英特尔的客户利用 BigDL 和 Spark 将人工智能落地。
是否可以把 TensorFlow 和 Spark 进行整合实现落地?英特尔对此开源了 Analytics Zoo。这一工具能够在完整、成熟的 Spark 数据平台之上支持不同深度学习框架,如 TensorFlow、Keras、BigDL 等等。除此之外它还提供深度学习预训练的模型,如图像分析模型,文本处理文本匹配模型,异常检测模型等等。它也提供非常简单易用的 API。因为 AnalyTIcs Zoo 是构建在 Spark 集群之上,它可以进行分布式模型训练和推理。
这些软件工具也可以和英特尔最新的硬件技术相结合,获得更高的效率。“在过去几个月里,我们把 AnalyTIcs Zoo 在英特尔最新的 Optane(傲腾)内存技术上和 OpenVINO 技术上进行优化。这一过程可以将深度学习、模型训练以及推理性能提升更多,”马子雅介绍道。
AI 是转折性技术
随着机器学习等新技术的快速发展,越来越多的科技公司正在涌现,对于英特尔这样“久经沙彻的玩家而言,如何保持自己的领导地位是首要问题,这家公司寻求的解决方案是大胆创新。
2019 年 1 月,英特尔迎来了新任首席执行官 Bob Swan(司睿博),他在上任首日致英特尔员工、客户与合作伙伴的公开信中就提到:“我们的抱负从未如此之大,在这个越来越以数据驱动的世界里,所有的数据都需要被处理、传输、存储和分析。对此,我们必须持续进击,锐意创新。”
Bob 认为,人工智能、5 G和自动驾驶对于数据的需求正日益增长,英特尔需要专注于引领这些转折性技术的发展:“我们相信,面向未来更加广阔的市场机遇,英特尔能够在助力客户成功方面扮演一个更加重要的角色。我们将着重于改进执行力,加速创新,发展我们强大的文化,并通过严谨的投资实现盈利增长。”
英特尔 CEOBob Swan (司睿博)
英特尔预计,的总体潜在市场规模正以 25% 的复合年增长率扩张。预计到 2023 年,整个市场的规模将达到 100 亿美元。2018 年,英特尔获得了全部约 40 亿美元机会中的大约 40%,实现了 17 亿美元的 AI 收入。
“英特尔遵循客户至上 (customer obsession),致力于把最好的技术提供给用户”马子雅表示。“英特尔在开源方面有很多贡献,我们希望以此能让自己的技术在 CSP、ISP、OEM 中间被广泛应用。而在硬件层面上,我们致力于提供完整的解决方案。”
在 AI 大会的演讲中,马子雅以美的为例介绍了人工智能完整工作流优化的重要性:工厂在生产线上需要对产品质量进行检测。人工检测通常不能达到美的所需的质量检测和检测率。在英特尔与美的的合作中,开发者们在常规服务器集群上利用 AnalyTIcs Zoo 构建了完整的数据分析和 AI 解决方案,其将 TensorFlow 和 BigDL 整合在了 Spark 集群之上,不仅可以进行分布式的模型训练和推理,也可以提供完整的数据分析。
这一系统可以将图像预处理的速度提升 4 倍,延迟由 200 毫秒降低到了 50 毫秒;也将推理速度提升了 16 倍:从原来的 2 秒降低到了 124 毫秒。相比人工检测,美的的质量解决方案,更精准、更快捷、更自动,并且避免了人工检测对生产行程可能带来的破坏。
英特尔在 AI 生态中已经占据了一席之地。目前,国内前七大云服务供应商都已与这家公司展开了合作。而在终端客户方面,英特尔去年有 30 个客户,目前为止已经有50个,且还在增长中。
“如果不能用于生产实践,人工智能就是没有任何价值的,”马子雅表示。“我们需要打破理论和实践的壁垒。现在的 AI 在预测分析和云端已有很多应用了。但 AI 在高性能计算(HPC)上还有很多发展空间。”
打破理论与现实的壁垒
英特尔正在试图实现完整的 AI 应用堆栈,近年来它已开放了深度学习框架 BigDL、AnalyTIcs Zoo 等工具。去年底,这家公司更是提出了 One API 概念,该项目旨在提供一个统一的编程模型,以简化跨不同计算架构的应用程序开发工作。
“我们的垂直化堆栈从硬件到操作系统,再到上层应用,整合了生产流程中所需的所有技术,可以打通硬件架构的优化,”英特尔高级首席工程师、大数据技术全球 CTO 戴金权表示,“在 Spark 上进行机器学习训练,我们的方法可以提供高达 8 倍的性能提升。如果优化仅限于各个部分,我们无法实现这样大的优势。通过全栈软件技术(Vertical stack)我们可以让用户得到更好的性能和算力。”
对于开发者来说,数据清洗与特征生成是一个非常繁琐的过程。英特尔希望通过自身努力不断降低 AI 开发的门槛。据悉,在 Analytics Zoo 中很快也将加入 AutoML 等功能。
英特尔目前的软件产品堆栈。
虽然在人们的印象中,英特尔是一家芯片公司,但实际上它已在软件领域耕耘多年这家公司现在拥有 15,000 余名软件工程师。
“我们不止是在做 AI 软件,AI 的应用还需要很多工作,”马子雅介绍道。“我们会对每一层软件的优化,尽可能挤出硬件的全部性能。最终所有的软件加起来,可以提升 8 倍,而不是 1-2 倍。常规的高性能计算(HPC)架构已经被人们使用很多年了,AI 则是新发展出来的架构。如何把旧架构和新架构统一结合起来是我们面临的挑战。目前看来,数据分析和 HPC 的整合趋势已经越来越明显了。”
在大会上,英特尔还宣布成立了“大数据分析和人工智能创新院”,由戴金权任院长。此举旨在吸引公司与学界、业界的更多合作。
以前的创新机构通常会进行点对点的合作,我们成立的新机构希望能够与全球生态中的成员有更广泛的合作。其中包括终端客户、合作伙伴、开源社区、学术界。这是与此前其他合作方式的不同。”马子雅表示。
据介绍,这所创新院的工作将主要集中在三个方面:
加速人工智能在中国市场的落地,通过 AI 与数据分析的整合来加速落地;
解决中国市场的最新需求,引领创新用法、创新算法;
帮助中国市场更好地使用英特尔最新的软件和硬件技术。
英特尔希望通过此举进使得更多的企业和个人得益于最新技术进步,使人工智能真正的做到普惠。
“人工智能业务的需求牢牢地根植于数据,利用大数据获取更多的洞察需要完整而全面的战略,只有充分利用以数据为中心的基础架构,充分利用将数据分析与人工智能无缝衔接起来的软件技术,才能获得成功。”马子雅表示。