癌症突变检测的新标杆 承启生物自研算法大幅领先国外算法
扫描二维码
随时随地手机看文章
深圳2022年12月30日 /美通社/ -- 近日,暨南大学、华南理工大学团队发表论文Towards an accurate and robust analysis pipeline for somatic mutation calling,比较了突变检测算法在癌症领域常见的低频突变标准测试数据集上的性能,发现国产FANSe算法的检测效果远胜于国际上常用的算法,速度还要快上几十倍。这将为癌症诊疗等应用提供重要的标准化依据。
癌症的诊断、分型、治疗中,突变检测是重要手段。特定的突变对应着相应的治疗方案,尤其是近年来火爆的靶向治疗和免疫治疗,均高度依赖突变检测的结果。因此突变检测的灵敏度和准确性在癌症的诊疗中十分关键。用二代测序手段进行全基因组级别的突变检测一直被视为癌症诊疗的“通用武器”,但市场上的现实状况却是乱象不止。不少人都有过体会,将同一份样品送到两家公司去进行检测,得到的两份突变检测报告却大相径庭。事实上,这是一个国际性的难题。2017年,JAMA Oncology杂志发表研究,将40个患者的ctDNA样品送至两家国际知名的测序公司,大部分患者得到的两份突变检测报告中的突变完全不同。医生很难从这样两份充满着矛盾和冲突的报告中制定正确的治疗方案,看似“先进”的二代测序技术却往往带来悲剧。在实验和仪器早已高度标准化的情况下,主要的问题在于算法的准确性。使用标准样品进行的室间质评一直是监管部门使用的质控方法,但对基因组级别的检测,标准样品难以制备:人工方法做几个突变出来还可以,但整个基因组的突变状况要想给出可靠的标准答案非常难以做到。也因此,长期以来整个市场无法得到有效监管。
2020年,华南理工大学杜红丽教授团队使用多个真实世界的测序数据集,制作了一系列基因组级别的低频突变标准测试数据集,这是世界上第一个接近真实癌症测序应用场景、并有明确“标准答案”的突变检测评测数据集,可以客观真实地反映突变检测流程的能力。此次研究中,研究者们利用这一系列标准测试数据集评测了5种突变检测流程,包括唯一的纯国产自主开发的FANSe流程和国际上的4种主流突变检测算法。测试结果显示,所有算法能检出的突变基本99%以上都是正确的,即“假阳性”较少,但灵敏度则有巨大的差异。在所有场景下(突变频率1-40%,测序深度100-800x),FANSe的灵敏度都显著超越其他所有算法,即FANSe能检出更多的突变,同时保持很高的准确度。即便是1%突变率下,FANSe也可以正确检出87%的突变,而此时Mutect2和Strelka2仅能检出20%左右的突变。突变率5%时,FANSe即可几乎完美地检出所有的突变。速度方面更是一骑绝尘,无论是序列比对(mapping)过程还是突变检测过程,均比其他流程快上数量级。
FANSe算法由承启首席科学家张弓教授开发,最初是专门用于大规模测序的序列比对,其准确度有数学证明,并已基本达到理论上限。随后逐渐扩展其应用领域,目前已直接整合了快速的突变检测和表达量检测等常用分析,部署于承启生物的云平台上。2020年,承启生物云平台创造了单机5分钟分析完成一个人全基因组测序数据集的世界纪录并保持至今,用户不再需要自己购买昂贵的服务器,只需要上传数据即可享受免费、快速准确的基因测序分析服务。2022年,以FANSe为基础的大规模测序云分析系统在AWS上部署成功,全世界的用户都可以在数据不出境的前提下使用FANSe快速准确的分析。FANSe极高的效率也使得其成为唯一一种在纯国产CPU上能达到应用上可接受的速度的分析流程,使得基因测序的全流程完全脱离国外技术,彻底避免“卡脖子”,保障中国精准医学的安全。
此次FANSe被确认可以准确全面地检测癌症突变,将为癌症诊疗等应用提供重要的标准化依据,也为行业树立了一个新的标杆。