当前位置:首页 > 芯闻号 > 美通社全球TMT
[导读] 实现更快的数据湖分析及简化数据发现和洞察 Amazon S3 Tables为分析工作负载提供了快达3倍的查询性能,高达10倍的每秒事务处理量;Amazon S3 Metadata提供可查询的对象元数据,实现近乎实时的搜索、管理和增强数据,加速数据发现。 北京202...

  • 实现更快的数据湖分析及简化数据发现和洞察
  • Amazon S3 Tables为分析工作负载提供了快达3倍的查询性能,高达10倍的每秒事务处理量;Amazon S3 Metadata提供可查询的对象元数据,实现近乎实时的搜索、管理和增强数据,加速数据发现。

北京2024年12月17日 /美通社/ -- 亚马逊云科技在2024 re:Invent全球大会上,宣布推出Amazon Simple Storage Service(Amazon S3)新功能,使Amazon S3成为首个完全托管的支持Apache Iceberg云上对象存储,进一步提升了数据分析速度,并提供存储和管理任何规模表格数据的极简单方式。新功能还包括自动生成可查询的元数据,简化数据发现与理解,助力客户充分挖掘Amazon S3中的数据价值。

  • Amazon S3 Tables是首个内置Apache Iceberg表支持的云上对象存储,推出了一种新型存储桶,以Iceberg表的形式优化存储和表数据查询,查询速度最高可提升3倍,每秒事务处理量(TPS)可提高10倍,并自动化分析工作负载的表格维护。
  • Amazon S3 Metadata通过自动捕获可查询的对象元数据以及使用对象标签的自定义元数据,将其存储于Amazon S3 Tables中来加速数据湖分析,可实现近乎实时的数据发现。

亚马逊云科技存储部门副总裁兼杰出工程师Andy Warfield表示:"Amazon S3作为领先的对象存储,存储了超过400万亿个对象,成为数百万客户的选择。我们致力于不断创新,以前所未有的规模消除处理数据的复杂性。随着表格数据的快速增长,众多客户希望实现跨表查询并提升查询性能,更好地理解和组织大量数据,以便轻松找到他们所需要的信息。Amazon S3 Tables和Amazon S3 Metadata消除了在对象上组织和操作表格及元数据存储的复杂性,使客户能够专注于数据构建。"

Amazon S3 Tables和Amazon S3 Metadata现已与Apache Iceberg表兼容,客户可以使用亚马逊云科技分析服务以及开源工具,包括Amazon Athena、Amazon QuickSight和Apache Spark,轻松查询他们的数据。

Amazon S3 Table:以简便快捷的方式执行Amazon S3中的Apache Iceberg表分析

如今,许多客户都以表格数据来组织他们用于分析的数据,这些数据通常存储在Apache Parquet 中,这是一种针对数据查询进行优化的文件格式。Parquet已成为Amazon S3中增速最快的数据类型之一。客户越来越多地希望能够查询这些不断增长的表格数据集,他们通常会使用开放表格式(open table formats,OTF),这是一种以表格存储数据的开源标准,有助于更有效地管理、更新和跟踪大量数据的变化。Iceberg管理Parquet文件,已成为最流行的OTF。客户使用Iceberg处理包含PB乃至EB级数据的数十亿文件。但随着客户规模的扩大,客户管理Iceberg极具挑战,往往需要专业的团队来构建和维护系统,进行表维护、数据压缩以及管理访问控制。这些外部系统不仅成本高昂和复杂,同时还需要专业的团队来维护,占用了企业诸多宝贵资源。

Amazon S3 Tables专为管理数据湖中的Apache Iceberg表构建。Amazon S3 Tables专门针对分析工作负载进行优化,与通用Amazon S3存储桶相比,提供了高达3倍的查询性能和10倍的每秒事务处理量(TPS)。Amazon S3 Tables能够自动管理表维护任务,包括为更好的查询性能而进行的压缩,以及快照管理,随着客户数据湖的不断扩展和演进,实现对查询性能和存储成本进行的持续优化。客户仅需创建一个表存储桶,即可使用S3 Tables优化存储和查询完全托管的Iceberg表中的数据。借助Amazon S3 Tables,客户可受益于Iceberg的诸多功能,如行级事务处理、通过时间旅行功能查询快照以及模式演进等。此外,Amazon S3 Tables还提供了表级访问控制,让客户精准能够定义数据访问权限。

Genesys是全球领先的AI驱动体验编排服务商,正计划使用Amazon S3构建数据湖。借助Amazon S3 Tables对托管Iceberg的支持,Genesys希望为其多元化的数据分析需求构建一个材料化视图层。Amazon S3 Tables内置对Iceberg表的支持将极大简化复杂的数据工作流程,通过自动执行关键维护任务,如表压缩、快照管理以及未引用文件的清理等。Genesys期待能从兼容Iceberg的分析工具中获得性能提升和广泛支持,这些工具可直接从Amazon S3中读写Iceberg表。Amazon S3 Tables将成为Genesys未来数据战略的基石,帮助Genesys提供更快、更灵活、更可靠的数据洞察,以支持其AI驱动的客户和员工体验解决方案。

Amazon S3元数据:更轻松、快捷地探索和理解Amazon S3中的数据

随着越来越多的客户将Amazon S3作为其中央数据存储库,数据量与数据种类呈指数级增长。元数据作为理解和组织海量数据的一种方式变得越来越重要,以便客户能够找到他们所需的确切对象。为有效应对这一挑战,许多客户不得不构建并维护复杂的元数据获取与存储系统,来深化他们对数据的认知。但这些元数据系统不但成本高昂、耗时,而且资源密集,通常需要数据工程师在元数据流经处理管道时,手动跟踪和更新元数据;同时,还要求数据分析师手动遍历海量的对象存储,以找到用于分析和AI/ML数据处理工作流所需的特定数据。

Amazon S3 Metadata能够近乎实时地自动生成可查询的对象元数据,从而加速数据发现并提升数据理解能力,帮助客户消除构建和维护复杂元数据系统的负担。借助Amazon S3 Metadata,客户可以查询、发现并使用数据,以支持业务分析、实时推理应用等。Amazon S3 Metadata能够自动生成对象元数据,包括系统定义的详情,如对象的大小和来源,并可通过新的Amazon S3 Tables进行查询。随着对象的增加或删除,Amazon S3 Metadata会实时更新Amazon S3 Tables中的对象元数据,确保客户获得最新的数据视图。客户还可以使用对象标签添加自定义元数据,为对象注释特定的业务信息,如产品SKU、交易ID、内容评级或客户详细信息。客户还可以通过简单的SQL查询轻松检索元数据,快速查找和准备数据,以支持业务分析、实时推理应用、基础模型微调、检索增强生成(RAG)、数据仓库与分析工作流集成,以及执行有针对性的存储优化任务等。

各种规模的企业都将受益于Amazon S3 Metadata的数据发现和理解。领先的生物技术公司罗氏(Roche),计划借助Amazon S3 Metadata加速其未来生成式AI计划。随着罗氏对先进大型语言模型(LLM)应用的开发,如复杂的内部聊天机器人,罗氏预计其用于检索增强生成(RAG)的非结构化数据量将面临成倍增长。Amazon S3 Metadata将简化可扩展元数据系统的构建,自动为新数据的摄入生成并更新元数据。Roche期望通过定制的Lambda函数提取复杂的、特定于业务的元数据,并将其与Amazon S3 Metadata无缝集成到综合Amazon Glue目录中。这将让企业更有效率,并快速识别可为前沿AI应用提供支持的相关数据集,让罗氏聚焦于个性化医疗领域的突破性创新。

Cambridge Mobile Telematics (CMT) 是全球最大的远程信息处理服务提供商。该公司从设备收集传感器数据,并使用上下文数据对其进行增强,从而创建车辆与驾驶员行为统一的视图,供汽车保险公司、汽车制造商、商业移动公司以及公共部门用于支持风险评估、安全、理赔和驾驶员改进计划。CMT存储并分析来自全球数百万物联网设备的多PB级数据。随着公司规模的扩大,为提出新见解和开发新模型而定位特定数据变得越来越有挑战性。借助Amazon S3 Metadata(包括系统元数据和自定义元数据),CMT能够查询PB级元数据,使查找相关数据变得简单且经济高效。

Amazon S3 Tables现已正式可用,Amazon S3 Metadata现推出预览版。Amazon S3 Tables与Amazon Glue Data Catalog集成现已预览可用,客户可使用亚马逊云科技的分析服务(如 Amazon Athena、Amazon Redshift、Amazon EMR 和 Amazon QuickSight)对包括Amazon S3 Metadata Tables在内的数据进行查询和可视化操作。

欲获取更多信息,请访问:

  • 访问亚马逊云科技博文S3 Tables与S3 Metadata,深入了解此次发布的新功能。
  • 点击S3 Tables和S3 Metadata产品介绍页面探索更多功能信息。
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭