阿里云发布机器学习平台PAI v3.0,训练性能提升4倍
扫描二维码
随时随地手机看文章
距机器学习平台 PAI 2.0 发布两年后,阿里巴巴于今早的阿里云峰会上重磅发布 PAI 3.0 版本。
阿里云机器学习平台是构建在阿里云 MaxCompute(原 ODPS)计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平台。阿里云机器学习封装了阿里巴巴集团内成熟的算法,向机器学习用户提供了更简易的操作体验。
今日发布的 PAI 3.0 推出了全新的算法模型市场,涵盖电商、社交、广告、金融等多个行业,数十种场景的算法模型。同时还新增了流式算法组件、图神经网络、增强学习组件等平台工具。
作为机器学习平台的内核,PAI 的智能计算引擎进行了全面升级,通过编译技术优化通用计算引擎,训练性能提升 400%——PAI 团队研发了深度学习编译器 TAO(Tensor Accelerator and Optimizer),以通用化、平台化的方式有效解决上层 Workload 与底层硬件计算单元之间高效映射的问题。
此外,在深度学习优化分布式引擎方面,PAI 3.0 可以实现单任务支持上千 worker 并发训练,并支持 5k+ 超大规模异构计算集群。
PAI 希望实现「用更少的硬件,支持更多业务更快完成业务迭代」。为了完成这个目标,团队有针对性地研发了 GPU 分时复用技术。整套技术实现遵循了数据驱动的思想,包括实时在线性能数据反馈通路、细粒度 GPU 资源复用、虚拟显存以及基于历史数据的资源预估策略这几个关键模块。
此外,PAI 3.0 还发布了大规模图神经网络,缓存机制效率提升 40%,算子速度提升 12 倍,系统端建图时间从数小时降至 5 分钟。
据了解,从 PAI1.0 开始,该机器学习平台已经在阿里巴巴内部使用了 2 年。基于该平台,在淘宝搜索中,搜索结果会基于商品和用户的特征进行排序。通过使用参数服务器,淘宝可以把百亿个特征的模型,分散到数十个乃至于上百个参数服务器上,打破了规模的瓶颈。