DC-CLUSTER软件的设计与开发
扫描二维码
随时随地手机看文章
摘要:目前,基因芯片的信息挖掘已成为生物信息学研究的热点之一,引起了广泛的重视。特别是高密度的DNA微阵列,由于它荷载了成千上万个DNA片段,可用于高通量的生物学检测,其开发和利用已进入商业化阶段,而其信息处理和信息挖掘更受关注。本文介绍了基因芯片分析中聚类分析软件的设计与实现过程,并对软件系统结构、功能模块、关键技术进行了阐述。该软件能完成基因芯片分析中聚类分析工作。它的开发为从事基因芯片分析的研究人员提供了有效的数据处理和分析工具。
1.引言
基因芯片,又称DNA芯片(DNA chip)或DNA微阵列(DNA microarray),是随着“人类基因组计划”(human genome project, HGP)的发展而发展起来的一项新技术,可广泛应用于基因序列分析、基因突变检测和多态性分析,以及疾病的基因诊断等许多领域。目前,基因芯片的信息挖掘已成为生物信息学研究的热点之一,引起了广泛的重视。特别是高密度的DNA微阵列,由于其荷载了成千上万个DNA片段,可用于高通量的生物学检测,其开发和利用已进入商业化阶段,而其信息处理和信息挖掘更受关注。鉴于此,本软件是一个基于C/C++开发的基因芯片聚类分析软件,用户可根据实际的需要采用软件提供的多种不同的聚类技术实现基因芯片的数据挖掘。本文从软件系统结构、数据文件的格式、聚类的方法、差异基因的判断这五个方面对软件的设计和实现功能进行了详细阐述,着重介绍了聚类分析、差异基因判断所应用的相关算法和设计过程。
2.系统构建
2.1 软件系统结构
软件从5个方面设计基因芯片分析预测功能模块。图1为该软件设计构架。从图1中可知软件功能模块包括数据的预处理、分类统计量、聚类分析的方法、差异基因的判断、其他统计功能。
图1 软件的系统结构与功能模块
2.2 功能模块
(1) 数据的预处理。聚类分析的基本工作,该模块以txt文件格式完成聚类分析数据的读取,负责在聚类前对数据进行筛选和归一化。
(2) 分类统计量。该模块中完成聚类分析前分类统计量的选取,包括相似系数和距离的选取,生成距离矩阵或相似系数矩阵,并保存为txt文件形式。
(3) 聚类分析方法。该模块实现各种聚类分析方法,提供了系统聚类分析方法、动态聚类法、自组织图谱分析法和模糊聚类分析方法。 生成聚类结果数据、并保存为txt 文件,最后输出聚类层次图。揭示样本间隐含的关系,为进一步确定具有相似表达模式的基因提供了具有相当参考价值的导向。
(4) 差异基因的判断。利用该功能来识别出在不同样本中表达有差异的基因。为生物实验寻找治病基因提供方便。
(5) 其他统计功能。该模块为分析生物实验数据提供了一些常用的统计方法,如T检验,方差检验等。
2.3 实现方法与实验结果
2.3.1 数据读取
首先第一步是读取数据文件。本软件能读取以制表符(tab)为界限的特定格式的文本文件(txt文件)。这种以制表符(tab)为界限的文本文件(txt文件)可以由任意标准的电子制表软件来创建和输出,如Microsoft Excel。
2.3.2 数据的预处理
数据归一化之前,先要对数据进行筛选,由于通过图像扫描软件产生的数据中有负的数据值或者0,这主要是软件的算法对背景噪音处理时所产生的。由于负数和零是不能对数化,所以过滤掉这些数据是非常必要的。忽略这些点的信息并不会对整体的分析产生影响,因为这些极弱的信号不足以为基因表达的差异提供证据在进行聚类分析前,必须对聚类数据进行归一化处理。对基因芯片数据的归一化处理,主要目的是消除由于实验技术所导致地表达量(Intensity)的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到具有生物学意义的基因表达量的变化。归一化的方法根据芯片的种类、数据处理的阶段和目的不同而有所差异。
本软件主要采用了针对双荧光染色(Red and Green Chip)的cDNA 微列阵(cDNAmicroarray)的归一化化方法。主要采用了以下几种归一化方法:芯片间的数据归一化(Cross slide normalization),芯片内的数据归一化(within slide normalization),对数变换法。本软件还提供了一些较常用的数据变换方法,如标准差标准化、极差标准化、极差正规化、中心化变换等。
2.3.3 分类统计量
研究变量或样本的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的基因(样本),它们之间的相似系数接近于1(或 -1),而彼此无关的基因(样本),它们之间的相似系数则接近于零,在进行聚类处理时,比较相似的基因(样本)归为一类,不怎么相似的样本归为不同的类;另一种是距离,它是将每一个基因(样本)看成m维空间(m种实验(变量))的一个点,在这m维空间中定义距离,距离接近的点归为同一类,距离较远的归于不同的类。
本软件提供这两种数量指标。在距离尺度中:使用了欧式距离、绝对值距离、切比雪夫距离、兰氏距离、马氏距离和斜交空间距离等;在相似统计量中,使用了Pearson系数、相关系数和交角余弦等。
2.3.4 聚类方法
基因芯片数据在经过上述方法处理后,接下来进行聚类分析。聚类是指根据基因芯片的基因表达数据,将基因按照不同的功能,或者相同的表达行为进行归类,聚类的基因表达谱为研究人员提供基因表达差异,启动子分析,表达模式研究等等便利的条件。
本软件目前提供了三种聚类方法:系统聚类法,动态聚类法和自组织映射聚类法。本文将主要介绍系统聚类法、动态聚类法和自组织映射聚类法。
⑴ 系统聚类法
系统聚类法是最早也是最普遍的应用在基因芯片数据分析研究中的聚类算法。具体步骤如下:
如图2所示的那样。每一列是不同的条件,或者在不同条件下的样本,每一行是基因的编号,每个基因的表达量用标准化后log (R /G) 2 的表示。
② 计算所有基因之间的分类统计量:通过软件提供地分类统计量这一模块来计算所有基因之间的相关系数(correlation coefficient)或距离系数。
③ 建立Gene-Gene 的距离矩阵。
④ 建立系统发育树(dendrogram):根据Gene-Gene 的距离矩阵的分值,首先找到距
离最近的两个基因,然后合并,再找距离相近两组再合并,直到所有的基因合并到一个组中。本软件主要采用了单链法(single linkage method)、全链法(complete linkagemethod)、组平均法(average linkage method)、最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、离差平方和法。
⑵ 动态聚类法
本软件采用了K均值聚类法和K中位值聚类法。具体算法步骤如下:
① 选择聚点。本软件采取了用任意K个样本或前K个样本作为凝聚点和数值插值寻找凝聚点的方法来选取凝聚点。
② 初始分类。本软件采取了下面方法来进行初始分类。选择一批聚点后,每个聚点自成一类,将样本依次归入其距离最近的聚点的那一类,并立即重新计算该类的重心,以代替原来的聚点,再计算下一个样本的归类,直至所有样本都归类为止。
⑶ 自组织映射聚类(SOM)
本软件还提供了自组织映射聚类(Self-Organizing Map, SOM),是由T.Konohen 于1980年提出的模型,属于非监督学习的神经网络聚类,与K-means 相似,采用SOM 聚类算法之前,也要首先估计出想要得到的类的个数。然后给每个部分建立一个随机向量,再随机挑选一个基因,通过已选定的距离矩形矩阵计算这一向量与表达向量之间的距离,从而确定与该基因最近的参考向量;接着调整这一参考向量使其与表达向量更相近,其他的参考向量也随之调整。这一过程不断迭代,参考向量的调整量减少,但相似程度的严格性不断提高。最终,参考向量收敛于一个固定值,基因也随之分为几个部分。
2.3.5 数据的输出
本软件在聚类完成后,将数据保存在一个文本文件中(.txt),输出格式如图3。本软件提供聚类过程中可生成距离矩阵,也是保存在文本文件中。本软件并能输出聚类树状图(层次图)。下面给出了系统聚类法和K均值聚类法的计算结果:
2.3.6 差异基因的判断
在芯片阵列数据分析中另一个最常见的问题是如何在不同样本中识别出表达有差异的基因(differentially expressed genes)。而在判断表达差异的基因前,必须对芯片数据进行预处理。对于单张芯片,本软件运用了Z-score值来进行分析的。利用下式来计算每条基因的Z-score值:Z = (X ? u)/σ ,其中X表示这条基因的表达比率值,u 为所有基因比例值的平均值,σ 方差为。若取Z > 2,表示基因表达比率值在平均比率加两倍方差之外,这样的差异表达就有统计学上的意义了。
3.实验结果分析
实验数据来源于Eisen博士所在的实验室,是YeaST Saccharomyces cerevisin的基因表达数据。数据集基因数N = 6223,观测样本M = 40。通过DC-Cluster分析后得到的聚类结果与用Eisen博士所在实验室提供地基因芯片数据分析软件Cluster得到地结果比较,正确率达到90%。
4.结束语
本文介绍了DC-CLUSTER的设计和开发过程,并对软件各功能模块的设计与实现进行了阐述。该软件能完成基因芯片分析中聚类分析和判断差异基因的工作,包括数据预处理、分类统计量的选取,系统聚类法、动态聚类法、判断差异基因等功能。下一步要作地工作就是将基因芯片图像的处理整合进来,为基因芯片图像分析和对图像数据的处理提供更完善的功能和更方便的操作。本软件的开发只是在此领域实践的开始,提供更完善的功能、更方便的操作以及更准确的结果将是进一步研究与实践的目标。
与人玫瑰