数据中心想要更有效的运行得怎样借助AI的力量
扫描二维码
随时随地手机看文章
麻省理工学院研究人员开发的一种新型系统自动“学习”如何在数千台服务器上安排数据处理操作 - 这项任务传统上用于不精确的,人为设计的算法。这样做可以帮助当今耗电量大的数据中心更有效地运行。
数据中心可以包含数万台服务器,这些服务器不断地从开发人员和用户运行数据处理任务。群集调度算法实时地在服务器之间分配传入任务,以有效地利用所有可用的计算资源并快速完成工作。
然而,传统上,人类根据一些基本指南(“政策”)和各种权衡来微调那些调度算法。例如,他们可以对算法进行编码以快速完成某些工作,或者在工作之间平均分配资源。但工作负载 - 意味着组合任务的组合 - 具有各种规模。因此,人们几乎不可能针对特定工作负载优化其调度算法,因此,他们往往无法实现真正的效率潜力。
麻省理工学院的研究人员将所有手动编码卸载到机器上。在SIGCOMM上发表的一篇论文中,他们描述了一个系统,该系统利用“强化学习”(RL),一种反复试验的机器学习技术,来定制特定服务器集群中特定工作负载的调度决策。
为此,他们构建了可以训练复杂工作负载的新型RL技术。在培训中,系统尝试了许多可能的方式来跨服务器分配传入工作负载,最终在利用计算资源和快速处理速度方面找到最佳权衡。除了简单的指令,例如“最小化工作完成时间”之外,不需要人为干预。
与最好的手写调度算法相比,研究人员的系统可以在高流量时间内快速完成约20%到30%的工作,并且速度提高一倍。然而,大多数情况下,系统会学习如何有效地压缩工作负载以减少浪费。结果表明,该系统可以使数据中心使用更少的资源以更高的速度处理相同的工作负载。
“如果你有办法使用机器进行试验和错误,他们可以尝试不同的方式来安排工作并自动找出哪种策略比其他人更好,”电子工程与计算机科学系博士生Hongzi Mao说。 (EECS)。“这可以自动提高系统性能。利用率的任何微小改进,甚至1%,都可以为数据中心节省数百万美元和大量能源。“
“制定调度决策并不是万能的,”EECS教授兼计算机科学与人工智能实验室研究员(CSAIL)的合着者Mohammad Alizadeh补充说。“在现有系统中,这些是您必须事先决定的硬编码参数。我们的系统学会根据数据中心和工作量来调整其计划策略特征。“
来源:新天域互联