巨量资料分析方法真的能克服癌症基因组吗?
扫描二维码
随时随地手机看文章
在日前一场由美国加州大学柏克莱分校举办的年度大会上,研究人员们展示其于加速癌症基因疗法以及扩展电脑理论领域的研究方面所取得的进步。加州大学柏克莱分校电脑科学系教授David A.Patterson呼吁,业界应共同利用百万个基因库以推动癌症治疗的工作。目前彼此独立的基因库拥有不到1万件基因资讯,其中有许多还只是基因的部份片段。
“目前可说是藉由电脑科学来建立快速且精确的基因管线,并促进个人化治疗的大好时机,我希望能尽快利用这个来帮助我和我的家庭,”Patterson并透露,目前研究人员们经常在完成实验后删除基因资料。
电脑科学家David Patterson期望透过巨量资料分析方法克服癌症基因组的问题。
Patterson协助开发了一款名为SNAP的工具,这款工具明显提供了更快且更精确地基因分析,目前也已被癌症研究人员所广泛使用。不过,仍然需要基准工具来改善在目前这一领域中所使用仍然具有高度主观性的方法,他指出。
另外,加州大学准备花费6,000万美元成立一所新的学院,期望未来的十年内能在电脑科学上实现新的突破。“我们想要开发出一种新的运算理论,它将远远超出目前的研究范畴,并涵盖其它领域中的问题,”指导这项工作的Richard Karp表示。
“许多现象可被视为具有运算特性的,”他指出,”如果仔细观察活细胞的作业方式,我们可以把它想像为一种资讯处理;而经济也是一种资讯处理的活动。”
该校还将在今年5月举办一场学术研讨会,以聚集各界的专家共同研究新理论的可能性。
利用巨量资料治疗癌症
Patterson的目标在于利用柏克莱分校正开发中的巨量资料工具,使其得以导入分析癌症研究的大量基因资料。
这些工具套件包含Spark——一种用于电脑丛集的程式语言,可提供类似谷歌(Google)搜寻引擎使用的Map Reduce功能。柏克莱分析资料分析系统(Data AnalyTIcs System)就是一种基于Spark的开放源码引擎。
柏克莱实验室(Berkeley Lab)的科学家们已经利用演算法和运算管线,详细整理出大量的影像组合,并找出肿瘤的次型态。它还可分析出异质性或肿瘤在不同程度时所包含的组织结构。接着,该运算管线可使用临床资料进行细胞特征排序,以预测病患的预后。同时,它还使用了大规模的基因组资料,透过巨量资料分析以确定每一种次型态的分子相关性。
研究人员们开发出可自动分析大量肿瘤影像的方法,有助于预测癌症治疗的反应。箭头处放大该肿瘤影像中明显不同的区域。(来源:Berkeley Labs)
目前,巨量资料研究的挑战在于开发出一种技术,能够针对巨量资料问题取得及时且具成本效益的答案。柏克莱分校的研究团队正透过几项行动来解决这一挑战:开发基于统计机器学习的演算法;利用云端中的多台机器;以及发展集资技术,结合群众之力协助回答对于其演算法与机器来说太困难的问题。
透过这些技术将有助于突破对于癌症的治疗。为了实现更快且更具成本效率地处理基因组资料,目前需要的是一个能够同时使用云端机器的全新基础架构。而当有关癌症基因的发现与诊断问题超越这些演算法与机器时,还需要集合众人的资源与智慧共同克服挑战。