浪潮存储:影像大数据处理,如何搭上存储这辆“超跑”
扫描二维码
随时随地手机看文章
(全球TMT2021年8月6日讯)经历近两个世纪蝶变,影像技术与数字技术不断融合,数字影像占据了行业主导。特别是随着大数据和深度学习等新技术加持,影像大数据产业发展不断提速,IDC研究表明,未来行业80%的行业数据将以照片、音频、视频等非结构化影像数据方式呈现。海量影像数据的“存”和“用”就像赛车两个驱动轮,影响着各个行业在数字赛道上飞驰的速度。作为新存储首倡者和引领者,浪潮存储凭借五年五次霸榜的极致“造车”技术,持续为行业影像大数据处理提速。
行业影像数据大爆发 如何才能“接得住、存得快”
随着行业数字化转型不断深入,企业数据资产从关键业务产生的结构化数据为主逐渐演变为非结构化影像数据为主,同时企业IT业务重心从数据管理变为数据运营。如何提升数据存储性能,快速从巨量影像数据中获取数据价值,成为企业提升竞争力的关键。
以金融行业为例,在Bank4.0趋势下随着银行网点向营销型、体验型智慧网点转变,各大银行正全面推进无纸化办公,票据、单证、电子验印、影像审批等业务处理过程渐趋电子化,带来了影像数据实时存储和处理的需求井喷式增长。
浪潮存储方案架构师Howar表示,“金融影像大数据就像蚂蚁军团,特点是‘个头小’、‘数量多’,海量金融影像并发处理是典型的性能密集型场景”。Howar给算了笔账,票据影像经过压缩后,每个影像大小约在在几十K至几百K之间,多见的是100K左右的影像,但影像规模极为庞大,依据银行规模与业务上线时间不同,单套存储系统需要处理的影像规模达到数千万至数亿份。同时随着金融监管要求日趋严格,大量录音、录像、图片也需要实时保存并高效访问。
不仅金融如此,在通信、能源、交通、媒资、科研、医疗等诸多行业,也同样面临影像大数据处理的挑战,这个行业用户的共性需求可以称之为“性能现象级”。其中在通信行业,随着14亿人将衣食住行搬上网络,移动互联网2020年数据流量高达1656亿GB;在互联网行业,快手每天产生1.2亿个内容标签与用户画像实时匹配,内容精准推送背后是海量数据关联碰撞的结果;在交通领域,网红城市成都有超6000路交通视频流实时汇入,每天需要处理1亿张图片、10次搜索。这些实时数据如同长江大河源源不断、昼夜不息地注入后端数据基础设施,如何“接得住、存得快、用得快”成为数据存储面对的挑战。
一道“性能”考题 引出三种范式
虽然大部分行业都面临大数据处理挑战,但不同行业、不同业务、不同数据生命周期的性能需求存在三种范式:以媒资4K/8K、脑成像研究等应用场景为代表,数据处理属于“带宽密集型”范式;以金融影像应用场景为代表,影像数据以海量小数据为主,属于“IO密集型”范式。最后是混合型,在智慧交通、能源勘探等场景,在前期数据采集阶段,海量数据流实时汇入给存储带宽提出了挑战,到了后期人工智能分析阶段,企业需要处理十亿级乃至百亿级小文件,需要极致IO能力来支撑。
Howar告诉我们,浪潮分布式存储能够以一套存储满足上述三种性能范式需求。浪潮存储开发了业界首个“块、文件、对象、大数据多合一”极简架构和iTurbo智能加速引擎,此存储系统能够统筹管理数千个节点,实现性能线性扩展。
在带宽密集型应用中,浪潮存储通过聚合带宽技术,能够支撑数据流高速吞吐,确保海量影像洪流“接得住、存得快”。同时,浪潮存储还能进行场景化定制,比如在石油勘探场景,浪潮存储通过对去躁、振幅补偿等多项作业的优化配置,提升了石油勘探批量作业的处理能力,增强了易用性,确保系统高速稳定运行。
在IO密集型场景,面对亿级影像小文件并发处理的挑战,传统集中式NAS存储有些力不从心。NAS文件系统架构采用树形目录结构,遍历影像文件需要极大的资源消耗,当影像文件达到上亿级别时,就会出现性能严重下降的问题。对此,浪潮分布式存储一套存储支持文件、对象等多种数据类型的优势就显示出来了:当用户影像业务规模较小时,可以采用文件存储方式,这种方式比较常见,占到中国分布式存储约50%的市场份额,企业大部分运维人员都能轻松上手;随着业务成长,一旦影像规模达到亿级,可以采用对象方式进行扁平化管理。在对象存储模式下,每个桶和对象都有一个全局唯一的ID,根据ID可快速实现对象的查找和数据的访问,性能大幅提升。
浪潮存储的极简架构做得比较人性化,用户可以根据业务需求,在多种数据服务之间进行资源切换,Howar表示。这项功能就好比浪潮存储是一个工厂,用户今天想开轿车就按轿车尺寸装,过段时间想开SUV就把轿车拆了进行改装,虽然在物理世界这个实现起来很有挑战,但在数字世界还是被浪潮存储实现了。
不仅如此,浪潮存储还针对性能开发了iTurbo智能加速引擎,通过智能IO均衡、智能资源调度、智能元数据管理等创新技术,与自研NVMe SSD闪存盘进行系统级别联调优化,让百万级IO均衡落盘且路径更短,将存储系统性能发挥到极致,有效地提升了从海量影像中“大海捞针”的效率。
五年五次飙榜 浪潮存储将性能优势转化为市场竞争力
基于对行业“性能现象级”的洞察和存储技术持续打磨,浪潮存储实现五年五次性能飙榜。早在2017年浪潮存储以超150万IOPS创下了8控存储的业界最高成绩,时隔3年浪潮存储以5倍的性能再获16控、8控、单位成本性能三项冠军。今年浪潮存储在分布式存储领域再次突破,实现五年五次霸榜,成为全球唯一一家在分布式存储和集中式全闪存储两大赛道领跑的存储厂商。
当前浪潮存储已经进阶全球前五,成为全球增长最为强劲的存储厂商。在影像大数据处理领域,浪潮存储已经在中国天眼天文大数据、清华大学顶级脑成像研究、中石油三维勘探、中国人寿内容管理等数百个行业新应用中规模化部署。