阿里云发布机器学习平台PAI v3.0，训练性能提升4倍

时间：2019-04-12 09:12:01

关键字：机器学习神经网络阿里云

手机看文章

扫描二维码
随时随地手机看文章

[导读]距机器学习平台 PAI 2.0 发布两年后，阿里巴巴于今早的阿里云峰会上重磅发布 PAI 3.0 版本。阿里云机器学习平台是构建在阿里云 MaxCompute（原 ODPS）计算平台之上，集数据处理、

距机器学习平台 PAI 2.0 发布两年后，阿里巴巴于今早的阿里云峰会上重磅发布 PAI 3.0 版本。

阿里云机器学习平台是构建在阿里云 MaxCompute（原 ODPS）计算平台之上，集数据处理、建模、离线预测、在线预测为一体的机器学习平台。阿里云机器学习封装了阿里巴巴集团内成熟的算法，向机器学习用户提供了更简易的操作体验。

今日发布的 PAI 3.0 推出了全新的算法模型市场，涵盖电商、社交、广告、金融等多个行业，数十种场景的算法模型。同时还新增了流式算法组件、图神经网络、增强学习组件等平台工具。

作为机器学习平台的内核，PAI 的智能计算引擎进行了全面升级，通过编译技术优化通用计算引擎，训练性能提升 400%——PAI 团队研发了深度学习编译器 TAO（Tensor Accelerator and Optimizer），以通用化、平台化的方式有效解决上层 Workload 与底层硬件计算单元之间高效映射的问题。

此外，在深度学习优化分布式引擎方面，PAI 3.0 可以实现单任务支持上千 worker 并发训练，并支持 5k+ 超大规模异构计算集群。

PAI 希望实现「用更少的硬件，支持更多业务更快完成业务迭代」。为了完成这个目标，团队有针对性地研发了 GPU 分时复用技术。整套技术实现遵循了数据驱动的思想，包括实时在线性能数据反馈通路、细粒度 GPU 资源复用、虚拟显存以及基于历史数据的资源预估策略这几个关键模块。

此外，PAI 3.0 还发布了大规模图神经网络，缓存机制效率提升 40%，算子速度提升 12 倍，系统端建图时间从数小时降至 5 分钟。

据了解，从 PAI1.0 开始，该机器学习平台已经在阿里巴巴内部使用了 2 年。基于该平台，在淘宝搜索中，搜索结果会基于商品和用户的特征进行排序。通过使用参数服务器，淘宝可以把百亿个特征的模型，分散到数十个乃至于上百个参数服务器上，打破了规模的瓶颈。