当前位置:首页 > 述职报告 > 【基于模糊支持向量机的膜蛋白折叠类型预测】模糊支持向量机
 

【基于模糊支持向量机的膜蛋白折叠类型预测】模糊支持向量机

发布时间:2019-02-16 04:09:56 影响了:

  摘 要:现有的基于支持向量机(support vector machinc,SVM)来预测膜蛋白折叠类型的方法,利用的蛋白质序列特征并不充分,并且在处理多类蛋白质分类问题时存在不可分区域,针对这两类问题,提取蛋白质序列的氨基酸和二肽组成特征,并计算加权的多阶氨基酸残基指数相关系数特征,将3类特征融和作为分类器的输入特征矢量,并采用模糊SvM(fuzzy SvM,FSVM)算法解决对传统SVM不可分数据的分类,在无冗余的数据集上测试结果显示,改进的特征提取方法在相同分类算法下预测性能优于已有的特征提取方法;FSvM在相同特征提取方法下性能优于传统的SVM,二者相结合的分类策略在独立性数据集测试下的预测精度达到96.6%,优于现有的多种预测方法,能够作为预测膜蛋白和其它蛋白质折叠类型的有效工具。
  关键词:模糊支持向量机;跨膜蛋白;折叠类型;氨基酸残基指数
  中图分类号:Q617 文献标识码:A 文章编号:1007-7847(2007)104-0306-05
  
  膜蛋白是生物膜功能的主要体现者,根据跨膜区片段的折叠类型的不同,整合膜蛋白可以分为两种主要的折叠类型:α螺旋跨膜蛋白(transmembrane α-heucal protcins,TMHs)和β-筒型跨膜蛋白(transmembrane β-barrel proteins,TMBs),TMHs几乎存在于所有类型的细胞膜中,其跨膜区为具有强疏水特性的残基构成的螺旋段,TMHs担负着多种多样的功能,包括把营养物质和一些无机电解质输入细胞,而将有毒的或无用的代谢产物排出细胞,以及参与细胞膜内外信号的传递等作用,TMBs发现于革兰氏阴性细菌、线粒体和叶绿体的外膜,由8~22条β折叠链通过反平行排列构成类似于桶状的跨膜结构,TMBs同样具有重要的生物功能,如非特异性调控、组成运输离子和小分子的通道、控制分子(如麦芽糖、蔗糖分子)通过外膜、参与构成电位调控型阴离子通道等等,这两类跨膜蛋白具有不同的结构模体,但是同样都处于脂质环境,这使得它们结构特征不同于那些具有全0螺旋或者全β结构的球状蛋白(Globular Proteins,GPs)。
  近年来,一些基于生物信息学手段预测膜蛋白折叠类型方法被提出来,这些方法多数利用了蛋白质的一级序列特征(如氨基酸组成)以及物理化学性质,比如跨膜区的疏水性和两极性,基于对已知结构的蛋白质序列的氨基酸组成的统计分析,或者机器学习方法如神经网络(neuralnetwork,NN)、隐马尔可夫模型(hiddenMarkov models,HMM),k最近邻(k-nearestneighbors,K-NN)以及支持向量机(supportvector machines,SVM)等,这些方法的缺点是所利用的蛋白质序列特征都比较简单,缺少对各种特征的综合利用,另外,基于SVM的预测方法虽然在测试中显示出了超过其它机器学习方法的预测性能,但都是用于解决一个两类问题(如识别TMHs和非7MHs),在解决多类问题时(如同时识别TMHs、TMBs和GPs的问题),容易出现分类盲区,也就是说,当一些输入样本不能被确切的定义为属于某一类时,传统的SVM对此缺乏很好的解决手段,为了解决这个问题,一些研究者先后提出了不同形式的模糊支持向量机(fuzzy supportvector machine,FSVM),从而较好的解决了传统SVM的这个局限。
  本文针对在其它蛋白质折叠类型中识别TMHs和TMBs的多类分类问题,提出了一种蛋白质序列的组合特征计算方法,通过计算蛋白质序列的多类特征,采取合适的加权手段将这些特征组合,并采用FSVM作为分类器,解决了传统SVM的分类盲区问题,有效提高了预测性能。
  
  1 数据与方法
  
  1.1 数据集
  我们采用了由Gromiha和Suwa收集的一个包含1318条蛋白质数据的数据集,包括7MBs(377条)、TMHs(267条)和GPs(674条)3大类蛋白质数据,其中两类膜蛋白数据从PSORT-B数据库中筛选而来;GPs数据从PDB40D_1.省略/cd-hit/)对数据集中序列相似度进行了分析,去除了序列相似度大于40%的冗余序列,最后得到的数据集组成如下:TMBs (208条),TMHs(206条),GPs(673条,其中155条全α、156条全β、183条α+β和179条α/β),为便于描述,我们称之为MCPl087数据集,该非冗余数据集可以从下列网址下载:~gromiha/omp/dataset2.html。
  
  1.2 序列特征提取
  这里,我们提出了一种由3类特征组合的蛋白质序列描述方法,这3类特征是:氨基酸组成、二肽组成以及加权的氨基酸指数相关系数特征。20种氨基酸的组成特征通过下列公式计算:
   其中f(i)表示第i种氨基酸残基的含量,N1表示序列中第i种氨基酸的数量,N表述序列的氨基酸残基总数,这样得到一个20维的特征矢量,二肽组成通过下列公式计算:
   这里,Nij表示序列中氨基酸对(二肽)ij的数量,总共得到400种二肽含量特征,即一个400维的特征矢量。
  为了计算加权指数相关系数,首先将蛋白质序列映射为数值序列,假设一条蛋白质序列由N个氨基酸残基构成,则可表示为:R1,R2…,Ri,…,RN,其中,Rj表示第i个位置的氨基酸残基,利用氨基酸的某一种物理化学指数(如疏水值、极性等)将蛋白质序列映射为数值序列:h1,h2,…,hi,…,hL,其中,hi对应于Ri的指数值。
   其中,ψ为相关系数特征的阶数,ψ<N,如ψ=1时为第一阶序列顺序相关系数,反映了序列中所有连续的氨基酸残基之间的某一种指数的相关性,其它阶次依此类推,ω为权重因子,用于调节指数特征对分类系统的影响程度,ω值的选取可根据预测效果进行调整,考虑到跨膜区疏水性、极性以及不溶于水等是跨膜蛋白的重要特征,我们从氨基酸指数数据库(AAlndex,.jp/dbget/aaindex.html)中选择了改进的Kyte-Doolittle疏水值(Modified Kyte-Doolittle hydrophobicity scale,KD)、 平均极性(Meanpolarity,MP)和溶剂化自由能(Solvation freeenergy,SFE)等3种指数进行计算。
  
  结合3种特征以后,一条蛋白质序列可以表示为下列特征向量:
  这是一个(420+3*ψ)维的向量,在本文测试中,取P=60,oJ=10,对于序列长度不到60个氨基酸残基的蛋白质序列,将序列长度自动补齐为60个残基,且补齐的残基编码值取0,这样,由一条蛋白质序列得到一个600维的特征向量作为FSVM分类器输入。
  
  1.3 FSVM算法
  SVM是统计学习理论中的核心内容,它基于VC维理论和结构风险最小化原理,在很大程度上克服了传统机器学习中的维数灾难以及局部极小等问题,传统的SVM是针对两类分类问题而设计的,设输入的样本数据为n,则训练样本为:Sn=((x1,y1),(x2,x2),…,(xn,yn)),y∈{-1,+1}。(5)当用传统SVM来解决多类问题的时候,通常将多类问题转化成“一对多”(one-vs-rest)、“一对一”(one-vs-one)或者有向无环图(DAG)的形式,因此本质上我们仍可以把SVM对多类问题的处理看作是对两类问题处理的推广,但是实际应用中,有些训练样本并不能明确属于集合中的哪一类,而是表现出一定的模糊性,用传统的SVM算法对此类问题进行处理无法考虑这些模糊训练点的影响,实际分类过程中,在包含模糊训练点的情况下,每个训练点在算法中所占的权重不相同,对于那些极模糊的点,应当使其训练算法中所占的权重尽量小,从而能够保证算法的有效�,这里,我们采用“一对一”的策略,将k类问题转化为k(k-1)/2个两类问题,对于每个模糊训练点,引入模糊隶属度。,假设一个模糊点属于集合y=1的程度是。(0≤s≤1),那么它属于集合y=-1的程度就是1-s;而对于确定的点,其s为1或0,模糊点对应
    
  2 性能评价标准
  
  采用了两类检验方法:一个是训练集上的留一法测试(jackknin)测试,即训练集数据每次留出一个来测试,其它数据用来训练,对具有N个数据的数据集依次进行N次测试;另一个是独立性数据集测试(Independent dataset),即采用训练集数据进行训练,采用测试集数据进行测试,两个数据集无交集。
  性能评价指标包括:类精度(Accuracy ofCategory i,Acc(i)),马氏相关系数(Matthew’s
  
  3 结果和讨论
  
  我们进行了下列测试:1)采用本文的组合特征条件下不同分类器的性能测试,将本文的模糊SVM分类器(FSVM)和传统SVM的“一对一”、“一对多”方法在数据集上进行jackkinfe测试,结果如表1所示;2)相同分类算法下不同的特征提取法的预测性能测试,使用本文的FSVM分类算法,比较了采用氨基酸组成、二肽组成以及组合特征等3种特征提取方法在数据集上的iackkinfe测试的性能,结果如表2所示;3)比较了本文分类策略和其它3种基于机器学习的分类策略在独立性数据集测试下的预测性能,将数据集分为训练集和测试集,其中训练集数据为:TMBs(158条),TMHs(156条),GPs(440条,其中100条全α、100条全β、120条α+β和120条α/β);测试集数据为:TMBs(58条),TMHs(56条),GPs(233条,其中55条全α、56条全β、63条α+β和59条α/β),测试结果如表3所示。
  
  表1结果显示,在采用相同的特征提取方法的情况下,FSVM分类器在数据集上对各种蛋白质折叠类型的预测精度、马氏相关系数均高于传统SVM,基于“一对多”和“一对一”策略来解决多类问题的传统SVM总体预测精度分别为91.9%和93.4%,而FSVM达到了94.8%,较前二者分别提高了2.9%和1.4%,这表明,FSVM提高了对模糊数据的识别能力,能够得到更准确的分类结果。
  表2结果显示,采用相同的分类算法,基于本文的组合特征的分类方法,其类精度、马氏相关系数和总精度均好于只利用氨基酸组成成分特征的分类方法,也优于使用氨基酸和二肽组成特征相结合的分类方法,这是因为前者不但考虑了氨基酸残基在序列中的顺序信息,还考虑了氨基酸的物理化学性质的影响,利用了更多的序列信息,另一方面也说明所采取的各个特征加权融合的方式是有效的。
  表3结果显示,本文的分类策略具有非常好的整体预测性能,预测精度显著高于早期提出的基于HMM的预测方法,由于使用了组合特征,本文方法预测精度也高于仅仅利用简单的氨基酸组成特征的NN和K-NN方法,另外,通过采用能有效解决分类盲区问题的FSVM分类算法,使得独立性数据集上总预测精度达到了96.6%,比Park et al,提出的基于传统SVM算法的预测方法的预测精度提高了2.4%。
  
  4 结论
  
  在目前已有的膜蛋白折叠类型预测方法中,还没有使用FSVM作为分类算法的方法,本文在传统SVM分类器中引入模糊因子,较好地解决了传统SVM在处理多类问题时存在不可分区域的问题,同时,提取蛋白质序列的多类特征进行加权组合,比已有的预测方法所利用的特征包含的信息更多,采取这种基于特征融合和算法融合的方法,在包含多种折叠类型的蛋白质数据集上获得了很好的预测性能,优于现有的多种预测方法,但是本文方法仍然存在可改进的地方:一是FSVM中的权重计算公式是根据经验设计的,并非理论上的最优计算方法;二是选择的特征是一级序列特征,不能包含蛋白质的全部信息,在后续研究中,期望可以通过对FSVM进行改进,并且在特征选取中加入2级、3级结构信息,从而进一步提高预测性能。
  
  作者简介:邹凌云(1979―),男,湖南汨罗人,博士研究生,主要从事生物信息学研究;王正志(1945,),男,上海人,国防科技大学教授博士,通讯作者,主要从事控制理论和生物信息学研究。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3