当前位置:首页 > 工作计划 > 样本均值标准化【一种基于类均值的肿瘤基因芯片数据的标准化方法】
 

样本均值标准化【一种基于类均值的肿瘤基因芯片数据的标准化方法】

发布时间:2019-02-16 04:10:40 影响了:

  摘 要:分析了当前常用的标准化方法在肿瘤基因芯片中引起错误分类的原因,提出了一种基于类均值的标准化方法,该方法对基因表达谱进行双向标准化,并将标准化过程与聚类过程相互缠绕,利用聚类结果来修正参照表达水平,选取了5组肿瘤基因芯片数据,用层次聚类和K-均值聚类算法在不同的方差水平上分别对常用的标准化和基于类均值的标准化处理后的基因表达数据进行聚类分析比较,实验结果表明,基于类均值的标准化方法能有效提高肿瘤基因表达谱聚类结果的质量。
  关键词:肿瘤基因芯片;聚类分析;标准化;中心化;相关系数
  中图分类号:Q332 文献标识码:A 文章编号:1007-7847(2007)03-0206-06
  
  肿瘤基因芯片分析是当前研究的一个热点,主要研究技术之一就是聚类分析,其目标是用某种相似性度量准则(如Pearson相关系数等)将样本或基因组织成有意义的组,对基因聚类,有助于对基因功能、基因调控及细胞过程等进行综合研究:对样本聚类,可以确定和发现新的肿瘤类型,从而对相应的诊断、治疗和预防有很大帮助,有多种聚类算法已被成功地用于基因表达谱的聚类分析,如层次聚类(hierarchical clustering),K-均值聚类(K-means clustering)等。
  然而,基因芯片实验中的误差来源很多,如荧光标记效率、扫描参数的设置以及空间位置的差异等,这些都可能对基因表达水平的测量产生影响,从而导致较差的聚类效果,因此,为了消除这些外界因素引起的误差,使基因表达数据能够真实地反映测量样本的生物学差异,需要对基因表达数据进行标准化处理,虽然,已有许多文献介绍了当前常用的标准化方法。但还没有文献在理论上对其作用机理进行深入地阐述,概括起来,常用的标准化方法包括零均值单位方差方法和数据中心化方法,它们都是用均值或中值对样本或基因进行标准化处理,但是,这些方法处理后的数据不能正确反映出类别差异,在以相关系数为相似性度量准则的聚类算法中,尤其在基因表达谱中存在极端值,或者各类包含的样本或基因数量相差较大的情况下,会引起类型偏倚,从而导致样本或基因的错误分类。
  针对上述问题,本文在研究聚类分析和标准化基本原理的基础上,分析了上述标准化方法引起错误分类的原因,提出了一种基于类均值的标准化方法,该方法对基因表达谱进行双向标准化,并将标准化过程与聚类过程相互缠绕,利用聚类结果来修正基因(或样本)的参照表达水平,不但消除了芯片间差异,还突出了每个基因(或样本)在各样本(或基因)中的变异,本文通过对5组寡核苷酸芯片的基因表达数据的聚类分析,验证了该方法能有效地提高聚类结果的质量。
  
  1 聚类分析
  
  聚类分析的基本思想是在样本或基因间定义相似性度量准则,将相似度高的样本或基因划分为一类从而确定各个样本或基因间的关系,最常用的聚类分析方法有层次聚类(hierarchical clus-tering,HC),K-均值聚类(K-means clustering,KM)等,这些方法都是基于个体间的相似度来进行聚类的,因此,相似度是聚类分析的首要环节,对聚类结果有着非常重要和直接的影响,
  Pearson相关系数是最常用的相似性度量准则之一,它从方向上判断两个表达水平X=(x1,x2…,xn)和y=(y1,y2,…,yn)的相似程度,即
   Θ田为向量X和Y间的夹角,P为1时,X和Y的相似度最高,Θ为0°;P为-1时,相反程度最高,Θ为180°:P为0时,相关程度最低,Θ为90°,可见,影响Pearson相关系数的是X和Y间的夹。
  
  2 标准化及其对聚类结果的影响
  
  2.1 常用的标准化方法及其对聚类结果的影响
  最常用的一种标准化方法是零均值单位方差,即,使每个样本或基因向量的平均值为0,标准差为1,其目的是放大弱信号抑制强信号,将所有数据转换到同一个范围内,另一种常用的标准化方法是数据的中心化,即把每个基因在各样本中的表达值减去该基因在所有样本中表达值的均值或中值来去除参照表达水平的影响,或者将各个基因在每一样本中的表达值减去该样本中所有基因表达值的均值或中值来消除芯片间的差异,使基因表达水平具有可比性,该方法一般用于肿瘤样本的聚类或分类研究中。
  实际上,上述两种标准化方法都有一个中心化的过程,均值和中值都是观察值“中间”位置的一种测度,可以看作是对参照水平的估计,在向量空间中,减去均值或中值就是将坐标原点平移到均值或中值所对应的点上,零均值单位方差的标准化方法只是比数据中心化方法多了一个单位化的过程,此过程方便比较和计算相关系数,但是,会把噪声纳入真实信号,尤其在标准差很小时会产生很大的噪声。
  对样本的标准化,虽然消除了芯片间的差异。但是标准化后的值不能很好地反映各个基因在不同样本中的变异:对基因进行标准化后的值虽然突出了各个基因在不同样本中的变异,但是由于芯片间差异没有消除,各个基因在不同样本中变异的可靠性值得怀疑,所以,只进行单向的标准化不能得到可靠的数据,尤其值得注意的是,当对基因标准化并对样本聚类或对样本标准化并对基因聚类时,由于均值和中值固有的特性,会使样本(或基因)间的相似度偏离真实的相似度,从而使得聚类结果出现类型偏倚,下面以基因芯片样本的两类别聚类为例来说明均值和中值的中心化对聚类结果的影响,
  设A=[αij]m×n为m×n基因表达谱矩阵,行表示基因gi,i=1,…,m,列表示样本sj,j=1,…n,αij表示基因gi在样本Sj中的表达值,对基因中心化后,基因gi的表达值为g"i=gi[αi]1×n,样本Si的表达值为s"i=Si-β,其中,αi表示用来中心化的值,
  
  
  
  但是,当两类所包含的样本数目不相等时,中值就会有比较大的差异,在基因表达谱聚类分析中,两类中样本的数目一般都不会相等。还经常会出现两类中样本的数目相差较大的情况,在这种情况下,均值和中值都会偏向数目较大的一类,使聚类结果偏向数目较小的一类,此时,样本所对应的向量空间分布在二维平面上的投影如图1b所示,图中所有标示与图1a相同,点线箭头表示经过s中心化后的样本所对应的向量,如图1b所 示,由于C2类所含样本数目明显多于C1类,点S1和点2更接近C2类的样本点,此时,一些原本属于C2类的样本点会被划分到C1类中。
  
  2.2 基于类均值的标准化方法
  为了解决上述问题,本文提出了一种基于类均值的标准化方法,具体过程如下:
  Step 1:对所有样本Sj,j=1,…,n进行零均值单位方差标准化:
  Step 2:将样本聚为k类,Sc11,…,Sc1t1为第一类样本(C1),…,Sck1¨…,Scktk为第k类样本(Ck),其中,C11,…,c1t1,…,Ck1,…,cktk=1,…,n,t1+…tk=n;
  Step3:分别计算出每一类样本的中值
   称m为类均值,再将每个样本减去m,对基因进行数据中心化的标准化处理,得到新的样本表达值;
  Step4:重复Step2和Step3,直到每类中的样本不再改变,或达到预定的迭代次数为止,
  (注:对基因的标准化也是类似的过程.)
  下面以基因芯片样本的两类别聚类为例来说明该方法的有效性。
  如图2a所示,设点p1,和点p2分别为C1类和C2类的实际的类别中心,则点S0位于线段P1P2的中点位置,当样本中出现极端值时,该方法根据第一次聚类的结果,分别计算出C1类和C2类的中值m1和m2,对应图中的点M1和点M1,由于点M2是C2类的中值点,不受极端值的影响,所以点M2在点P2附近;C1类中没有极端值,所以点M1也在点P1附近,因此,C1类和C2类中值的均值m所对应的点M位于线段M1M2的中点位置,并且在点S0附近,所以,经过m中心化后,样本间的相似度接近实际,不会影响聚类结果。
  如图2b所示,当两类中样本的数目相差较大时,由于本文所提出的方法先计算了每一类的中值,所以样本数目的差异对相似度没有明显的影响。因此,聚类结果不会受到影响,
  上述过程中,m1和m2分别是对C1类和C2类的类别中心的估计,反映了每一类的基本表达水平,经过m中心化后的表达值反映了每个基因在每个样本中与每个类别中心的接近程度,突出了样本间的类别差异,而且,由于中值具有不受极端值影响的特性,所以,在初步聚类中,被错误分类的样本点对估计类别中心的影响不大,例如,当第一次聚类时,将边缘上的点D1划分到了C1类中,而中值对点D1的变化不敏感,只是样本数目的变化使得点M1会向C2类的方向稍有移动,点M2会向偏离C1类的方向稍有移动,但都不会偏离点p1和点p2很远,这样,点M也不会偏离点S0很远,所以,经过m中心化后再对样本聚类,将会纠正点D1的错误分类。
  
  3 实验结果
  
  3.1 基因表达谱数据
  1)白血病数据集
  选用文献提供的7129个白血病基因表达谱的两组数据,第一组(Datal)有38个样本,包括27例ALL样本和11例AML样本;第二组(Data2)有34个样本,包括20例ALL样本和14例AML样本,过滤掉所有表达值含有负值的基因。
  还选用了文献筛选出的50个与ALL和AML分类紧密联系的基因(Data5),包含25个与ALL高度相关的基因,25个与AML高度相关的基因,将小于20的表达值改为20。
  2)结肠癌数据集
  选用文献提供的2000个结肠癌基因表达谱的两组数据,第一组(Data3)有40个样本,包括26例结肠癌组织和14例正常组织,第二组(Data4)有22个样本,包括14例结肠癌组织和8例正常组织。
  
  3.2 结果及分析
  先对所有数据进行对数变换,然后在20个不同方差水平上,对前4组数据进行特征基因筛选,每个数据集得到相应的20组数据,对于Data5随机选取35个基因,使两组基因的数目有一定的差异,也得到20组数据,Data1-4中行为基因列为样本,Data5中列为基因行为样本,对每组数据使用4种标准化处理方法――对列进行零均值单位方差标准化(no central,NC)、对行进行中值中心化(median central,MDC)、对行进行零均值单位方差标准化(mean central,MC)、基于类均值的标准化(class mean,CM)。
  为了使用已有的外部标准对聚类结果进行评估,本文针对两类别聚类问题进行分析,分别使用层次聚类和K-均值聚类算法对上述数据经过4种预处理后得到的基因表达谱聚类,其中,Datal-4进行样本聚类,Data5进行基因聚类,表1和表2分别列出了层次聚类法和K-均值聚类法对经过上述4种标准化处理后的5个数据集在所有方差水平上最差和最好的聚类结果,表中数字表示聚类结果中被正确分类的样本数。
  
  通过比较可以看出,Data1、Data2、Data3、Da-ta5经过CM标准化处理后,在层次聚类和K-均值聚类中的都得到了优于其它标准化处理的聚类结果,而且迭代次数不超过6次;Data4无论经过怎样的标准化,聚类结果的正确率都不高,这是因为Data1-3、5的类别差异比较显著,而Data4的两类样本交叉在一起,类别差异不显著,这一点可以由Madab7中的PCA分析得到,此处不再赘述。
  
  图3表示层次聚类法和K-均值聚类法对经过上述4种标准化处理后的前4个数据集的聚类结果中被正确分类的样本数目在不同方差水平上的变化曲线(由于对Data5的20组数据是随机采样得到的没有规律性,所以不研究它的变化曲线),其中,细线对应层次聚类法,粗线对应K-均值聚类法,可以看出,层次聚类法总体上要比K-均值聚类法的结果要好,所以,本文提出的方法更适用于层次聚类,随着方差水平的升高,即特征基因数量的减少,无论使用哪种标准化,聚类效果都呈改善趋势,但是当基因数量太少时,又会有所下降,从图3中还可以看出,Data1和Data3经过CM标准化后的聚类结果明显优于其它标准化的聚类结果,这是由于这两个数据集中,不同类别中包含的样本数量相差较大,而且Data1中包含有极端值。
  综上所述,本文所提出的基于类均值的标准化方法在样本聚类和基因聚类中都具有优于其它标准化方法的数据处理能力,通过使用与聚类过程相互缠绕的迭代方法,使聚类结果得到明显改善,而且不占用时间资源,尤其是在处理由于实验条件的限制使不同类别所包含的样本(或基因)的数目相差较大,或由于基因芯片的高噪声而使表达谱数据中包含有极端值的基因表达数据时,该方法能取得很好的效果,从而给后续的分析提供更能反映样本(或基因)间生物学差异的数据,使后续分析得到更准确的结果。
  
  4 结论
  
  基于类均值的标准化方法在消除芯片间差异的同时,突出了肿瘤基因在各样本中表达值与类别的相关程度,在以Pearson相关系数为相似度准则进行聚类时能有效的提高聚类结果的质量,与其它标准化方法的主要区别在于,它进行双向标准化,并与聚类过程相互缠绕,所以它能够为聚类分析提供更好的数据,本文对各种标准化方法作用机理的研究能够为研究人员提供一定的参考,帮助他们针对特定任务选择最佳的标准化处理的策略和方法。
  
  作者简介:王广云(1980-),女,山西运城人,博士研究生,从事生物信息学研究。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3