
科技论坛
蛋白质结构类预测方法研究进展
陶海波马圣曹佳佳姚玉华王傻药代琦*(新江理工大学生命科学学院,浙江杭州310018)
· 43 -
摘要:蛋白质结构类型是蛋白质高级结构中基本原件的空间分布,是蛋白质高级结构与功能研究的基础,该研究对蛋白质组学具有重要意义。通过传统实验方法研究蛋白质结构类需要耗费大量的人力、财力、物力,也无法满足数据库中蛋白质序列娜炸性增长的现实需要。目前,基于已积累数据,深索理论计算方法预测蛋白质结构类是当前生物信息学的重要研究内容之一。本文对国内外亚细胞定任预测的研究现状进行了综述。
关键词:蛋白质结构类;转征信息提取;预测算法
蛋白质由20种氨基酸组成的链状生物大分子,氨基酸与氨基酸之间通过水而形成肽键,进面形成多肽链。多肽链必须按照一定的规律折叠成三维结构,才其有生物活性和功能。人体基因的主要功能是通过蛋白质来实现的.因此,蛋白质扮演着构筑生命大厦的主要角色,几乎在所有生命过程中都起着关键作用。蛋白质折叠结构的形状在很大程度上决定了其可能具有的生物功能,因此,蛋白质的研究需要深人了解它的结构,也就是说人类对生命奥秘的探系高要落实到对蛋白质结构的研究上
1976年Levitt和Chothia引入了结构型的概念,将蛋白质可以分为四大类:α型、β型、α/β型和α+β型。对于一个结构未知的蛋白质,如果能够准确地预测其结构类,不仅可以提高二级结构预测精度,而且能够大大缩小三级结构预测中的构象搜索范围。目前蛋白质结构类的研究主要是通过各种实验方法,包括X射线衍射晶体学、核磁共振技术等。然而传统实验方法获取结构的速度远远跟不上蛋白质序列测序速度这在一定程度上制约了人们对蛋白质结构和功能的理解。固此,研究者逐渐开始转向理论计算的方法来预测蛋白质结构类,通过对生物序列及结构数据的系统分析,发现它们之间的联系
目前,利用生物信息学方法进行蛋白质结构类预测已成为了一个研究热点。大部分蛋白质结构类预测流程分为四个步媒:a.构建实验数据集:h数据集中序列的特征信息提取;e对提取的特征信息选择合适的预测算法;d验证预测性能评估分类模型。而影响蛋白质结构类预测效果的关键因素是特征提取算法和预测算法设计,因此,本论文主要围综这两大主题,详细增介绍了国内外现有的蛋白质结构类预测中的特征提取算法与预测算法
1蛋白质特征信息的提取
蛋白质特征提取的基本思路是首先把蛋白质序列结构信息的特征提取出来,并运用合适的数学方法描述特征信息。使用这种方法,符号序列可以转换为数字序列,进而特征向量能正确反映蛋白质结构和空间的关系,反映蛋白质功能之间的关系。蛋白质信息的特征提取,对于蛋白质结构类预测效果影响是至关重要的,也是预测过程中关键的第-步。根据现有方法侧重点的不同,可以归纳为3类:
1.1蛋白质序列信息。蛋白质序列是由一串氨基酸字符按不同的顺序排列而来的,为了提取序列的特征就需要依靠氨基酸的一些属性等方法将其转换成数学方法可以处理的数值型序列。罗林波和陈绩提出基于氨基酸频率的摘密度,通过计算将蛋白质序列转化包含密度20 维向量,在向量空间上进一步预测蛋白质结构类。为了提高蛋白质结粒类预测的精度,其它蛋白质序列相关的信息也被引人,而且得到成功的运用。
12蛋白质结构信息。蛋白质高级结构也是由二级结构中简单元件组建构成,可见,蛋白质结构类型与其二级结构序列的组分及其空间排列息息相关。Petrova和Wu分析了蛋白质二级结构序列中的组分出现情况,并应用于蛋白质结构类预测。Kurgan等人提出了SCPRED和 MODAS两种预测方法,他们是根据结构序列的长度,通过标准化组分信息实现预测。2010年,刘和贾通过计算结构序列中α-螺旋、β-折叠及β-转角的片段长度,作为蛋白质二级结构信息。张等人则将二级结构序列转化为约化序列,计算α-螺旋、β-折叠及β-转角之间的转换信息等,取得较为理想的结果
13氨基酸物化信息。众所周知,氨基酸的种类由氨氮基酸的侧链决定,种氨基酸侧链在形状、大小、负电性、水性以及酸碱性等方面都存在
差异,正是这种氨基酸的差异,使各种不同组合的氨基酸序列形成各种不同的蛋白质结构,并适应各类环境,完成其特定的生理功能。蛋白质的生物学活性和理化性质主要决定其空间结构的完整,因此仅仅知道蛋白质的氢基酸组成和它们的排列职序并不能完全了解蛋白质的结构,需要考患氨基酸的性质。Kawashima等人建立氨基酸指数值,采用自相关函数.提取了蛋白质中氢基酸之间物化互作信息;Chou等人,基于氨基酸物化性质,首次提出了伪要基酸组成这一概念,对氨基酸组成方法进行改进,应用到蛋白质各类研究中
由于不同的特征从不同的角度刻画蛋白质序列。目前没有一种特征能够很好地刻画蛋白质的结构类特征,单独利用某种特征难以在预测效果上取得大的突破,将多种特征提取进行有效的组合是提高蛋白质结构类预测的一种有效方法:
2蛋白质结构类预测算法
预测算法是蛋白质结构类预测过程中重要环节之一,也是呕需挑战开发研究的。机器学习利用统计学理论观测数据,寻找规律,通过这些规律对未知的数据进行预测。在蛋白质分美的研究中,许多机器学习算法也应用到蛋白质分美研究中,例如决策树(DecisionTree),概率神经网络,K-最邻近算法(K-Nearestneighhors,KNN),神经网络,自组织映射网络等。本文重点对支持向量机、神经网络方法、K-近邻法作详细介
2.1支持向量机。支持向量机是Vapnik等人基于统计学理论提出的机器学习算法提出的。由于该算法其有简洁的数学形式,直观的几何解释、运算速度快分类准确等特点,受到越来越多学者的关注。SVM与其他学习算法相比有较强的泛化能力,在处理高维稀疏蛋白质数据上有着明显的优势,其核方法更易于处理非向量的输入等优点,所以该算法在蛋白质折叠识别,蛋白质业细胞定位的预测以及蛋白子结构类预测等各种模式识别研究领域中广泛的运用。
2.2神经网络方法。人工神经网络是对人类大脑特性的一种描述。它是用计算机程序来模拟的一个数学模型,是人工智能研究的一种方法。人工神经网络是一个并行、分布处理结构,它由处理单元互相连成。人工神经网络的信息处理是由网络单元的输人、输出特性、网络的拓扑结构、权值的大小和神经元的阅值所决定。1986年,Rumelhart和McCel-and提出BP神经网络,是一种按照误差逆传播算法训练的多层前馈网络。BP神经网络的优点是具有较好的推广及泛化能力面且学习准确率较高,所以可以作为一个比较通用的函数模拟器。BP神经网络还具有很强的容错性及很快的处理速度等优点,但由于其学习速率是固定不变的,所以存在算法收效性比较慢的缺点
2.3K-近法。1968年,Cover和Hart提出最初的近邻法,发展至今成为模式识别非参数法中最重要的方法之一。k-近邻方法是一种预测性的分类算法,因受噪声数据影响较小、计算较为简单的优点,故 K-NN算法在生物信息学中已经被用来预测蛋白质二级结构、折叠和蛋白质亚细胞定位等。
随着研究的不断深人,将多种预测方法进行融合研究,也是蛋白质结构类预测研究的趋势。赵禹等人采用离散增量结合支持向量机方法预测蛋白质结构类多种算法的融合,在提高预测的精度同时,也提升了运行速度。
参考文献
[1]张券建.蛋白质结构分类与结构类型预测研究中国科学基金, 2000,5:298299
通讯作者简介:代球(1979-),男,河南商丘人,博士,主要从事生物信息学方面的研究