生物医学大数据有多强大
扫描二维码
随时随地手机看文章
近年来,生物医学领域正在快速产生海量数据,特别是随着基因测序技术的快速发展,人类基因序列数据遗传信息正在成为各国争夺的战略高点。科学研究表明,不同个体携带的DNA信息差异可能成为打开生命奥秘的关键密码,因此基于基因组的研究在医药学、农业、环境等领域具有不可估量的商业价值,世界上众多科研机构和商业公司展开了激烈的竞争。
自从人类基因组计划启动以来,以第二代高通量测序技术等为代表的各类组学技术飞速发展,推动了基因组、转录组、表观遗传组、蛋白质组等生命科学组学数据的指数级增长,把生物医学数据推进到了PB时代。而当前正在发展的第三代单分子测序技术,速度更快、成本更低,进一步推动生物医学数据进入EB时代、基因测试有望进入100美元时代。
基因组大数据分析正在成为生物医学领域的下一个前沿,集数据存储、数据共享、数据分析和数据质量控制等融合数据基础设施,将是生物医学大数据的最强“挖掘机”。华为全联接大会2019给大家带来了基于OceanStor分布式存储底座的生物医学大数据基础设施,为基因组学大数据应用产业打开了全新机遇之门。
人体成为大数据重要产出源
欧美发达国家已经纷纷启动了基于测序技术的生命科学大数据研究计划。人体成为大数据重要产出源,目前多种组学数据、医学影像和临床资料在内统计的生物信息数据产出达到了10TB/人的水平,全球每年产生的生物数据总量已达EB级,生命科学已经从实验数据积累阶段进入大数据科学时代。这是中科院专家在2018年发表的一篇《国家级生物大数据中心展望》指出的当前严峻形势。
欧、美、日等几大国际生物信息中心建设起步早,多年来一直引领着全球生物大数据及生物信息领域的发展。在1980年到1988年间,美国、欧洲和日本分别建立了世界三大生物数据中心,即美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)和日本DNA 数据库(DDBJ),三大生物数据中心掌握并管理着全世界主要生物数据和信息资源。
三大国际生物数据中心的规模庞大,例如截止到2014年DDBJ中心的CPU性能理论峰值达208TFlops、存储容量达12.6PB。而美国NCBI中心凭借雄厚的科研技术力量以及在生命技术方面的巨大影响,建立了一系列生物信息数据库和各种数据服务,例如带注释的所有公开已知DNA序列数据库GenBank,该数据库每天都与DDBJ和EBI的欧洲核甘酸档案库同步交换数据,以保持数据的实时更新。
由国际生物数据中心的运营可以看出,生物医学数据呈现种类繁多、内部结构高维复杂、内涵丰富、数据相对分散、难以高维度多层次交汇共享等特点,例如NCBI的Gene服务是一个可搜索的基因数据库,专注于已经完全测序的基因组,基因信息是包括命名法、染色体定位、基因产物及其属性、相关标记、表型、相互作用、引文链接、序列、突变详情、图谱、表达报告、同源物、蛋白结构域内容和外部数据库链接等在内的高维数据。
中科院专家在2018年发表的《生物医学大数据发展的新挑战与趋势》一文中指出,随着数据规模的增加,如何更加有效地利用生物医学数据成为了挑战。传统的数据模型和数据组织方式,无法满足海量数据的结构、数量快速增长以及数据结构不断变化的管理需求,难以按照实际情况动态调整。因此,必须要突破传统的一类数据建设一个数据库的模式,而采用新类数据基础设施,在底层数据结构上以整合为导向,支持数据结构动态调整,为后期数据集成与整合工作奠定基础。
生物医学进入新时代,大数据带来新改变
要把基于海量的基因数据和难以复制的“人工经验”,变成可积累、易复制的“数据智能”,就必须要解决数据的存、算、用的问题,华为与中科院一起探索建设符合生物医学研究特点的大数据基础设施。
首先要解决海量数据汇集的问题。生物医学数据本身具备多样性,数据来自不同区域、机构、个体,有结构化数据也有图像、视频、文本等非结构化数据,新的生物大数据基础设施要支持EB级多样性数据的高效存储,并且可以通过文件、大数据等多协议共享访问,减少不必要的数据迁移,实现存储即分析。
其次是海量数据的高效处理。基于CPU和GPU的高性能协同计算,得益于其强大的并行处理能力,成为海量生物医学数据处理的研究热点。而生物医学的实时分析和临床处理,还需要用到大数据和AI技术快速准确进行影像处理、数据降维、数据取样和知识发现,因此新的生物大数据基础设施也在积极引入NPU/ARM/FPGA等硬件技术,打造多样性的数据分析平台,让数据分析更高效。
最后,数据只有共享了,才能发挥出它的最大价值,通过建设数据使能平台,可以实现数据的共享、标准化、可视化、服务化,让数据更好地服务于不同的对象,造福全人类。
为了推动基因数据的开放共享,2016年华为与中科院合作建立了新一代组学数据汇交管理平台NODE(又称为国家组学数据百科全书),目前已开放共享的各类数据达到数百TB,提供数据的发布、审阅、分享、管理、质量评估、下载与申请,让数据更广泛服务于科学研究。用户还可以在线分析NODE上的数据,在线提交数据。NODE分析功能强大,基于国产测序平台MGISEQ-2000测试的RNA-seq数据,测序质量好,性能优异。截止目前,NODE数据已服务于超过23个国家、83万的访客,帮助全球的科学家开展133个项目,其中25个项目的科研成果在Cell、Nature等权威杂志发表。
此外,2019年8月1日,中科院生物化学与细胞生物学研究所惠利健、中科院上海营养与健康研究所李亦学、第二军医大学张海斌及南京大学施晓雷等共同通讯在Cancer Cell在线发表题为“A Pharmacogenomic Landscape in Human Liver Cancers”的研究论文,基于海量的数据分析,以大约50%的成功率建立人肝癌细胞模型并生成模型库,相关研究结果发布于Cancer Cell上。
目前生命科学和临床医学研究每天产生研究和检测数据庞大,有些测试数据会被不断覆盖,有些则会被永久保存下来以便后续分析,主要数据类型为文本文件、图像文件、二进制文件等非结构化数据,对存储的要求主要是存储容量的大小和大文件读写通量的高低,而少量的关键数据库、索引等结构化数据则对存储的要求是较高IOPS和稳定的读写能力。基于华为OceanStor分布式存储解决方案,不仅为科研人员提供了日常科研所需的数据存储,其横向扩展能力更能够满足机构未来5年数据发展需求,并且保障业务7×24小时持续平稳运行。
华为OceanStor分布式存储,生物医学大数据之道
我国生物医学数据总体表现为数据零散分布、难以有效整合分析,生物医学大数据价值挖掘困难,因此对于生物医学大数据技术和基础设施有着迫切需求,特别是需要依靠先进的数据技术以结束我国长期以来的基因组数据输出国地位,通过数据存储的全联接来结束生物数据碎片化和流失严重的现象,通过共享平台实现标准化治理以更好的对接国际生物医学数据平台、参与国际生态。在这方面,华为今年重点发布的智能数据与存储技术,就是最强“挖掘机”的有力竞争者。
我国生物医学大数据和生物医学信息数据中心所面临的挑战,并非特有现象。实际上,在当前广泛进行的数字化转型中,各行各业都面临同样的问题,这也是今年华为推出智能数据湖解决方案的重要背景。华为智能数据湖解决方案通过多类型数据融合存储、融合分析引擎等技术实现从单一处理到智能融合处理,OceanStor分布式存储则是作为智能数据湖的底座,利用多协议融合技术实现一份数据同时支持数据库、大数据、AI等多种业务的分析需求,让数据分析更高效。