蛋白质Cα原子接触数的数字特征分析_蛋白质C
摘要:Cα是蛋白质分子中的重要原子,是蛋白质折叠和设计中的重要研究对象。本文根据α-氨基酸和Cα原子的理化特性,引入接触数的概念,从数字特征方面研究蛋白质中Cα原子空间拓扑结构。主要利用结构规律统计与计算机模拟手段,对1653个蛋白质PDB进行了处理分析,对Cα原子数目所占比例、Cα原子平均接触数、接触数变化率进行了讨论。最后以1EXS为例加以说明,其中多于65%的Cα原子间距大于3个原子单位,平均接触数变化率在4-10之间波动较大,且Cα原子分布不均匀。本文是关于生物、统计学科结合的研究,在数字表征、数据挖掘层面上,分析了Cα原子,为人工组合蛋白质提供了数字支持;同时也对氨基酸理化特性指出了以Cα原子为基准的新方向。
关键词:蛋白质 Cα原子 平均接触数 数字特征
1 引言
研究蛋白质的结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。
目前,研究蛋白质结构普遍使用的方法是实验,理论分析和计算。学者江凡[1]介绍了X射线晶体学、二维核磁共振和低温冷冻电镜等蛋白质空间结构的实验测定方法。文献[2]应用统计分析方法,利用数据挖掘中的数据分布拟合理论对生物科学领域中的蛋白质侧链空间结构进行统计分析。以世界上广泛使用的生物分子三维结构数据库PDB为基础,利用残基侧链碳原子间距离的统计分析方法,文献[3-4]用统计和几何方法给出了氨基酸在蛋白质空间结构中的深度计算,并利用PDB数据库得到了不同氨基酸在蛋白质中的深度倾向性因子,并得到了这些倾向性因子与氨基酸的物理、化学综合特性的相关性质。文献[5]就蛋白质结构预测的方法和应用进行了综述,介绍了比较建模、折叠识别、从头计算等3种方法及其在结构基因组学研究、药物设计、蛋白质设计中的应用,并且对蛋白质结构预测存在的主要问题进行了讨论,指出了今后蛋白质结构预测研究重点在于优化比对算法和计分函数以及膜蛋白的结构预测。文献[6]以“相对熵”作为优化函数,仅用蛋白质主链上的两两连续的Cα原子间的距离信息以及20 种氨基酸的接触势的一个扩展形式,提出了一个有效快速的折叠预测优化算法,对几个真实蛋白质做了算法测试,预测构象相对于它们天然结构的均方根偏差为5~7a.u,本文坐标和距离所用单位皆为原子单位,且省略书写单位符号a.u。文献[6]的工作表明Cα原子在α-氨基酸中的重要作用决定着整体分子的性质与物理形态。但没有计算Cα原子的接触数及其数学特征。文献[7-9]讨论了蛋白质的结构和性质,提出进一步研究的必要性与可能性。
因此,本文应用数理统计方法,研究蛋白质中Cα原子构成的空间拓扑结构及数字特征。文中第二节在引入接触数的基础上,对Cα原子的数字特征进行了统计计算。第三节对Cα原子接触数进行实例分析。
2 Cα原子接触数数字特征
Cα原子指的是对应残基上最接近羰基的碳原子,是主链骨架的组成原子,起到了 “桥梁”的作用。为了对Cα原子的空间拓扑结构加以讨论,我们引入接触数的概念,同时结合Cα原子自身特点,给出了Cα原子接触数的应用。
2.1 Cα原子的平均接触数
Cα原子指的是对应残基上最接近羰基的碳原子,是主链骨架的组成原子。在α-氨基酸中,如图1所示,Cα原子连接着4个不同类别的原子或基团:一个氨基、一个羧基、一个氢原子(略去氢原子)和一个条侧链。
假设:
(1)某个蛋白质分子包括N个原子,其中有n个Cα原子,记为CA1,CA2,…,CAn。
(2)所有的原子散布在蛋白质分子空间。简化处理分子结构,选择以原子为基准的立体空间结构(不考虑其他的基团)。
Cα原子的平均接触数定义如下:
对于第i个Cα原子CAi,坐标(xi,yi,zi)。以CAi为球心,r为半径作一个球Ω,统计Ω内部包含的Cα原子的个数(不包括CAi),记为Ki,即球Ω内部除CAi外包含有Ki个Cα原子。则我们称Ki为CAi原子的接触数。令
则为该蛋白质分子Cα原子的平均接触数。显然,及是关于r的增函数,表示为:
2.2 平均接触数计算的实现
2.2.1数据预处理
(1)导入目标数据。即打开已有的1653个蛋白质分子PDB文件,选择每个分子中所有ATOM的相应数据导入。
(2)提取与统计数据。重点利用PDB文件中原子(尤其是Cα原子)的信息。
2.2.2 Cα原子的平均接触数的计算
(1)构造距离矩阵 。其中表示CAi与CAj之间的距离,即
(2)对于每一Cα原子CAi,以其为球心,求在半径为时,该原子的接触数。
其中表示集合A中元素的个数。
(3)计算该蛋白质分子Cα原子的平均接触数。
(4)计算该蛋白质分子所有Cα原子接触数的方差:
(5)计算取不同值时,平均接触数以及接触数方差,并绘制~,~曲线。
(说明:从r=1开始,以1为步长增加,直到调整r恰好将所有的Cα原子包括即结束)
针对目前Cα原子研究现状,接触数的引入应用,从数字特征角度开拓了Cα原子研究的视野。同时也为如何构建组合蛋白质提供了空间结构的数据支持。
3 实例分析
由于蛋白质总数多,结构各异,很难一一进行说明。针对每一个蛋白质分子的特性区别,我们随机选择一些蛋白质分子详细分析。具体算例:蛋白质分子1EXS
在1EXS蛋白分子中,总共有1248个原子构成,其中有160个Cα原子,约占总原子数的12.74%。这也说明了蛋白质组成元素不唯一,Cα原子只是其中的部分。
在相同的半径下,作出1EXS分子在不同半径下接触数曲线图(图2),在半径r>3后,才会出现相邻的Cα,即该分子的一个Cα原子独立空间体积至少是半径为3的球空间。在r=10到25左右,平均接触数增长迅速。
基于对平均接触数的讨论,我们进而提出接触数变化率的概念,即指单位空间体积平均接触数变化大小。定义为:
为便于计算,离散化处理,取近似值:
通过下图,所考察蛋白分子的平均接触数变化率在波动中递减。在半径0-3之间,几乎没有变化;在半径3-4的同心球的过渡空间内,平均接触数骤升。值得注意的是,为了深入分析半径在4到10之间变化率的波动,我们在计算机模拟时采用了将步长逐步缩小的方法,得出波动情况基本保持一致,保证了平均接触数的收敛性问题。
研究该蛋白分子所有Cα原子接触数方差(图4),随着半径的增加,Cα原子之间接触数差异不稳定,离散程度明显。
因此我们推测认为Cα原子的分布不均匀,不同的Cα原子有不同的特性。当然对于1EXS分子来说,半径20可以作为研究Cα原子特征的参考方法。
4 结语
在蛋白质空间结构研究进程中,二级空间结构的科学研究突破已较为成熟,可以利用数学知识、统计原理等理论,从不同的角度应用与改进。针对α-氨基酸主链骨架Cα原子,我们引入接触数概念,定量与定性相结合,利用结构规律统计与计算机模拟手段,对1653个研究对象进行了处理分析,分别对蛋白质分子中Cα原子的接触数,接触数变化率等进行了讨论。其中,在每个蛋白分子中Cα原子并不是大量存在,一般占所有原子数目的11%-15%。一般的,每一个Cα原子都有自身专有“空间区域”,互不干扰且分布不均;大多数Cα原子的间距都在r=3以上。同时根据平均接触数变化率波动较大,可以推测出Cα原子较为密集的空间。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文 本文是关于生物、统计学科结合的研究,在数字表征、数据挖掘层面上,分析了二级结构α--氨基酸的关节Cα原子,为人工组合蛋白质提供了数字支持。同时也对氨基酸理化特性指出了以Cα原子为基准的新方向。
参考文献
[1] 江凡.蛋白质空间结构的实验技术和理论方法.物理,(2007)No4.p272-279.
[2]王昕,毛炳蔚,王福伟,张婧.蛋白质空间结构的统计分析,山西大同大学学报(自然科学版),2008,(05):3~8.
[3] 沈世镒,胡刚,张华.氨基酸在蛋白质空间结构中的深度倾向性因子.生物数学学报,2007,(07):305~310.
[4] 沈世镒,胡刚,张华.蛋白质空间形态特征分析与计算方法.工程数学学报,2006,(02):225~234.
[5] 宁正元,林世强.蛋白质结构的预测及其应用.福建农林大学学报(自然科学版),2006(No3),308-313.
[6]卢本卓,王存新,王宝翰.用于真实蛋白质结构预测的一种新的优化方法.化学物理学报,2003(No2), 117-121.
[7] E. Faraggi, Y. Yang, S. Zhang and Y. Zhou, Predicting continuous local structure and the effect of its substitution for secondary structure in fragment-free protein structure prediction[J], Structure, 2009,17:1515~1527.
[8] S. Liang, G. Wang, and Y. Zhou, Refining near-native protein-protein docking decoys by local re-sampling and energy minimization[J], Proteins, 2009, 76, 309~316.
[9] B. Xue, E. Faraggi, and Y. Zhou, Predicting residue-residue contact maps by a two-layer, integrated neural-network method[J], Proteins, 2009,76:176~183.
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
