亚马逊云科技推出六项Amazon SageMaker新功能
扫描二维码
随时随地手机看文章
(全球TMT2021年12月9日讯)2021年12月8日,亚马逊云科技在2021 re:Invent全球大会上,宣布为行业领先的机器学习服务Amazon SageMaker推出六项新功能,让机器学习更易于上手且更具成本效益。此次发布的强大新功能包括:无需编码即可进行准确的机器学习预测,更精准的数据标记服务,可用于跨域协作的通用 Amazon SageMaker Studio notebook体验、让代码更高效的机器学习模型训练编译器,为机器学习推理自动推荐计算实例,以及用于机器学习推理的无服务器计算。
Amazon SageMaker Canvas 无代码机器学习预测:
Amazon SageMaker Canvas 为业务分析师(支持财务、市场、运营和人力资源团队的业务员工)提供可视化界面,他们无需任何机器学习经验,也不必编写代码,即可自行创建更准确的机器学习模型进行预测。越来越多的公司希望通过机器学习重塑其业务和客户体验,这就需要更多来自不同业务领域的员工使用先进的机器学习技术。然而,机器学习通常需要专业技能,获得这些技能通常需要多年的正规教育或强化培训,同时对应的课程难度大且不断变化。Amazon SageMaker Canvas解决了这一挑战,它通过提供一个可视化的、 点击式的用户界面,让业务分析师可以轻松地生成预测。客户将Amazon SageMaker Canvas连接到他们的数据存储(例如 Amazon Redshift、Amazon S3、Snowflake、本地数据存储、本地文件等),Amazon SageMaker Canvas提供可视化工具,帮助客户直观地准备和分析数据。然后,客户无需任何编码,Amazon SageMaker Canvas使用自动机器学习来构建和训练机器学习模型。为确保模型的准确性和有效性,业务分析师还可以在Amazon SageMaker Canvas的控制台中查看和评估模型。Amazon SageMaker Canvas还支持客户将模型导出到 Amazon SageMaker Studio,与数据科学家共享,进一步验证和完善模型。
Amazon SageMaker Ground Truth Plus 专业数据标记:
Amazon SageMaker Ground Truth Plus 是一项完全托管的数据标记服务,为客户提供内置的工作流程、技能娴熟的团队,以更低成本快速交付高质量的训练数据集,用于训练机器学习模型,客户无需编码。为了训练更准确的模型并规模化机器学习部署,客户需要被正确标记的数据集越来越大。但是,要生成大型数据集可能需要数周甚至数年的时间,并且通常需要公司雇佣员工并创建工作流来管理标记数据的过程。 2018 年,亚马逊云科技推出了 Amazon SageMaker Ground Truth,通过使用来自Amazon Mechanical Turk、第三方供应商或自有团队的人工数据标注员的方式,帮助客户更轻松的生成标记数据。Amazon SageMaker Ground Truth Plus 进一步扩展了这项功能,通过提供专业团队为客户提供高度准确的数据标签。这些专业团队不但拥有特定领域和行业专业知识,同时具有职业技能可满足客户对数据安全、隐私与合规等要求。 Amazon SageMaker Ground Truth Plus具有多步骤标记工作流程功能,可缩短标记数据集所需的时间并降低采购高质量注释数据的成本,该功能包括机器学习模型预标记、检测人工标记错误和低质量标签的机器验证,以及辅助标记功能(例如 3D 长方体捕捉、去除2D中的失真图像、视频标记中的预测和自动分割工具)。客户只需先将 Amazon SageMaker Ground Truth Plus 指向他们在 Amazon Simple Storage Service (Amazon S3) 中的数据源,并提供特定的标记要求(例如,医学专家应如何标记肺部放射影像中的异常情况的说明)。 Amazon SageMaker Ground Truth Plus 随后创建数据标记工作流程并提供控制面板,客户可通过控制面板跟踪数据注释进度、检查已完成标签的样本质量,并提供为生成高质量数据的反馈;该功能让客户可以更快地构建、训练和部署高度准确的机器学习模型。
Amazon SageMaker Studio 通用notebook:
Amazon SageMaker Studio 的通用notebook(业界首个完整的机器学习集成开发环境)提供了一个统一的集成环境来执行数据工程、数据分析和机器学习。如今,来自不同数据领域的团队希望使用一系列涵盖数据工程、数据分析和机器学习的工作流开展协作。这些领域的从业者通常来自数据工程、数据分析和数据科学等不同的知识领域,他们希望实现跨各种工作流工作,并无需切换数据相关工具。而当客户准备集成数据分析和机器学习的数据时,通常需要处理多种工具和notebook,这一过程繁琐、耗时且容易出错。 Amazon SageMaker Studio 现支持客户在一个通用notebook中,为实现多种目的而进行的交互方式访问、转换和分析各种数据。Amazon SageMaker Studio与在 Amazon EMR 集群上运行的 Spark、Hive 和 Presto,以及在 Amazon S3 上运行的数据湖均内置集成,客户无需切换服务即可使用Amazon SageMaker Studio 访问和操作通用notebook中的数据。客户除了可以使用喜欢的框架(例如 TensorFlow、PyTorch 或 MXNet)开发机器学习模型,并在 Amazon SageMaker Studio 中构建、训练和部署机器学习模型外;客户无需离开通用Amazon SageMaker Studio notebook,可以一站式浏览和查询数据源、探索元数据和模式,并处理数据分析或机器学习工作流相关的工作负载。
适用于机器学习模型的 Amazon SageMaker Training Compiler:
Amazon SageMaker Training Compiler 是一种新的机器学习模型编译器,可自动优化代码提高计算资源的使用效率,并缩短训练模型时间多达 50%。先进的深度学习模型通常是庞大而复杂的,训练单个模型可能消耗数千小时的GPU计算时间,为此它们需要专门的计算实例来加速训练。为了进一步缩短训练时间,数据科学家会尝试增加训练数据或调整超参数(控制机器学习训练过程的变量),找到性能最佳且资源消耗最少的模型版本。这项工作的技术复杂性致使数据科学家没有时间优化在 GPU 上运行训练模型所需的框架。 Amazon SageMaker Training Compiler与 Amazon SageMaker 中的 TensorFlow 和 PyTorch 版本集成,这些版本经过优化可在云中更高效地运行,因此数据科学家可以使用他们喜欢的框架,更高效得使用GPU训练机器学习模型。只需单击一下,Amazon SageMaker Training Compiler 就会自动优化并编译训练好的模型,提高训练执行速度多达50%。
Amazon SageMaker Inference Recommender 自动实例选择:
Amazon SageMaker Inference Recommender 帮助客户自动选择最佳计算实例和配置(例如实例数量、容器参数和模型优化),运行其特定的机器学习模型推理。大型机器学习模型,通常用于自然语言处理或计算机视觉,选择具有最佳性价比的计算实例是一个复杂的迭代过程,可能需要数周的实验时间。 Amazon SageMaker Inference Recommender消除了运行一个模型应选择哪种实例的不确定性和复杂性,通过自动推荐适合的计算实例配置,可将部署时间从数周缩短至几小时。数据科学家使用 Amazon SageMaker Inference Recommender 可将模型部署到推荐的一个计算实例上, 或者使用该服务在一系列选定的计算实例上运行性能基准测试。客户可以在 Amazon SageMaker Studio 中查看基准测试结果,并评估不同配置在延迟、吞吐量、成本、计算和内存等方面的利弊。
适用于机器学习模型的 Amazon SageMaker Serverless Inference:
使用Amazon SageMaker Serverless Inference,客户仅需为生产中部署的机器学习模型推理按使用量付费。客户使用机器学习时,希望能优化成本,对于具有间歇性流量模式和长时间空闲的应用程序而言尤为重要。有些应用程序,如基于消费者购买的个性化推荐、接听来电的聊天机器人以及基于实时交易的需求预测等,可能会受外部因素如天气状况、促销的产品或节假日等影响出现波峰波谷。为机器学习推理提供合适的计算容量是一项艰难的、需要权衡多方面因素的工作。有时,为满足峰值需求,客户会过度配置容量,虽然实现了一致的性能,但在没有流量时会浪费成本。有时, 客户为控制成本而部署了不足够的计算容量,在条件变化时却无法提供足够的算力来执行推理。为了适应不断变化的条件,一些客户尝试动态地手动调整计算资源,这是繁琐且耗费精力的工作。用于机器学习的 Amazon SageMaker Serverless Inference 会根据推理请求的数量自动预置、扩展和关闭计算容量。当客户将机器学习模型部署到生产中,只需在 Amazon SageMaker 中选择无服务器部署选项,Amazon SageMaker Serverless Inference 就会管理计算资源并提供所需的精确计算量。通过Amazon SageMaker Serverless Inference,客户无需管理底层基础设施,且只需为每个请求使用的算力和处理的数据量付费。