当前位置:首页 > 智能硬件 > 人工智能AI
[导读] (文章来源:粤讯) 对于AI企业来说,GPU等计算资源昂贵,如何提高资源利用率,保护计算力投资?如何解决资源抢占,保证资源使用公平合理?如何减少等待时间,提高模型训练效率……这些问题都关

(文章来源:粤讯)

对于AI企业来说,GPU等计算资源昂贵,如何提高资源利用率,保护计算力投资?如何解决资源抢占,保证资源使用公平合理?如何减少等待时间,提高模型训练效率……这些问题都关系着研发创新的进度。且看浪潮AIStation人工智能开发平台用三招“组合拳”打破计算力壁垒,加速企业AI开发进程。

某企业有四台8卡GPU服务器供50位开发人员使用,典型的人多资源少。具体来说,有以下几大问题:

人均不足一张GPU卡,GPU使用需要相互协调,开发效率低;每十多人为一个小组共用一个GPU节点,可能使有的小组资源空闲而有的小组却无资源可用,造成资源孤岛;缺乏优先机制,重要任务无法得到及时提交;在白天GPU卡几乎全部用于开发环境创建,开发人员只能在晚上提交训练任务,模型训练数量非常有限。

AIStaTIon是面向AI企业开发场景的人工智能资源平台,可通过资源配额、GPU共享、排队托管三招“组合拳”,智能化分配GPU计算资源,提高资源利用率,帮助用户提高开发效率。首先,AIStaTIon收拢分散的计算资源,提供集群式的池化管理,并设置资源配额策略,实现多用户公平均衡使用资源。

AIStaTIon将开发用户划分为5个用户组,每个用户组10人,并根据业务需求设置每组和每个用户的使用配额,如可设置每组使用6张GPU卡、40个CPU核。并对每个用户的开发环境使用时长、同时提交任务数量进行限制。其次,AIStaTIon通过GPU共享策略,可以让多人共用一张GPU卡且互不影响。

AIStation统一管理4台GPU节点,将其中2个节点的16张GPU卡设置为开发资源组,用于开发环境创建,剩下16张GPU卡为训练资源组,用于模型训练。通过共享策略,AIStation可将开发资源组的每张GPU卡切分为8份,每份使用4G显存。这样原来的16张GPU卡相当于变为了128张卡。并且通过设置CPU超线程策略扩展CPU核数,满足50个用户同时创建开发环境的需求。用户也可以根据自己的模型设置batchsize和显存使用的大小。

最后,AIStation通过任务排队托管、定义任务优先级,充分利用空闲时间训练任务,并且可根据优先级调度任务排队运行。

用户可同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以充分利用夜间、周末训练任务,延长GPU的使用时间。同时用户可设置优先级,让重要任务优先训练。GPU使用时间加大近1倍。原来单个GPU节点分配给一个用户小组使用,每卡每天的平均使用时间仅为14.4小时。AIStation通过GPU共享、任务托管,解决资源孤岛,将每卡每天的平均使用时间提升到22.8小时。

GPU利用率提升50%。原来用户在开发阶段独占一张GPU,GPU利用率仅为10%,训练阶段可达90%,每天每卡的平均利用率为30%。使用AIStation后,开发阶段8人共用一张GPU卡,GPU利用率可上升为80%,训练阶段为90%,每天每卡的利用率可达到80%。

每周训练任务的数量增大一倍多。假设提交一个ImageNet数据集和一个ResNet50模型,使用1张Tesla V100 GPU卡训练任务,每个任务的训练时间大概为12小时。

原来因为人均不够一张卡, 白天GPU卡用于创建开发环境,晚上才能训练任务,那么一个工作日可以完成的任务数最多为32个,即一周可以完成160个任务。而AIStation支持任务排队,可以最大限度的使用GPU资源。一周可以完成368个任务数,效率提升2.3倍。假设开发团队单个项目平均需要训练的任务数为50,那么每个月的项目完成数从3个提升到7个。

可以看出,浪潮AIStation通过对计算资源的高效管理、调度,在GPU使用时间、利用率和训练任务数量上,相比原方案均实现了大幅提升,最大化地优化了资源使用。

浪潮AIStation人工智能资源平台面向AI企业开发场景,致力于帮助企业构建一体化的AI开发平台,为AI开发工程师提供高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI开发业务整合,助力AI企业提高开发效率和产品上市速度,增强企业竞争力。除了高效的资源管理,AIStation在开发环境创建、数据管理、开发流程管理等方面也表现出色。
     

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭