
科技论坛
基于SVM的蛋白质质谱高通量分析方法研究
徐丽莉邹修明
(淮明师范学院物理与电子电气工程学院,江苏淮安223300)
·149·
摘要:癌蛋白质质语数据中包含了大量未知的内部结构和变量。针对高通量癌蛋白质质谱数据这些特点,分别采用基于 PCA-SVM和直接降维+SVM的方法对典型卵果癌蛋白质质谱数据的进行分类对比实验,实验表明PCA-SVM方法随着PCA降维袖取维数的增加,正确率明显增加,可以较好的对测试样本进行识别和分类
关键词:卵果癌质请数据;PCA-SVM;特征提取
1概述
蛋白质是生物体中含量最高、功能最重要的生物大分子,存在于所有生物细胞,约占细胞干质量的50%以上。作为生命的物质基础之一,蛋白质在催化生命体内各种反应进行、调节代谢,抵御外来物质人侵及控制遗传信息等方面都起着至关重要的作用。固此蛋白质也是生命科学中极为重要的研究对象。质谱分析就是利用计算机算法(如分类决策树、人工神经网络、支持向量机等生物信息学分析方法)分析这些多维海量数据,分辨出蛋白峰,检测出健康体和癌症体之间表达差异的未知蛋白峰(丰度上升或者下降),建立蛋白质指纹图谱模型以进一步用于肿瘤标志物的筛查。
2主成分分析(PCA)
鉴于在基因表达谱研究中涉及的基固数量很多,而且有许多基固之间的相关性很高,为了从数学上简化这些变量和有关研究的简化,常使用主成分分析方法。研究中经常会遇到多指标的间题.这些指标间往往存在一定的相关关系,直接用于分析不仅计算复杂,而且可能因变量间多元共线性而无法得出正确结论。主成分分析是一种通过降维技术把多个变量化为少数几个主成分的统计分析方法,通过线性变换将原来的多个指标组合成相互独立的几个能充分反映总体信息的指标。在主成分分析中,提取出的每个新的综合因子都是原来多个指标的线性组合并且因子变量之间是相互正交的.即:
2,=v;1x1+v,2x2+***+v,nxn
r (z, z)=0(i, j=1,2,---, n, i±j
式中,x为原指标;2为新指标;v;为特征向量。
A=(v,)n×n=(a,a),"-,a,)为正交矩阵,Ra=入;αi,R为相关系数矩阵,,入:是相应的单位特征向量和特征值,且入入3· 入。≥0,特征值的大小表示了对应主成分能够描述原有信息的多少。-般情况下,前几个主成分的特征值相对较大,且方差贡献率足以反映原变量的信息,可以达到降维的目的。
3支持向量机(SVM)
支持向量机((SuppxortVectorMachines,SVM)是Vapnik等人提出的一种基于统计学习理论的机器学习方法,它以最大化分类间隔构造最优分类超平面来提高分类器的泛化能力,具有训练样本小、学习速度快、泛化能力强等特点,在解决小样本,非线性及高维模式识别间题中表现出许多特有的优势,已经在模式识别、分类和回归等方面取得了良好的应用和效果。假定有一个多分类(n个类)任务与 L个样本点:(x)..(xy.),其中X,ER"属于其中的一个类y:E(y,"",y.],=1,2,l。对这些样本点进行分类,就是用一个支持向量机来寻求具有最大分差的分离的超平面。为了使用线性超平面解决这一分类间题,支持向量机需要有一个从输入空间到高维特征空间 Z的映射,比如z=9(x)。对于线性可分分类间题,线性支持向量机将被使用并且超平面可被表示成z"w+h=0。这个超平面根据下面的函数可以对一个样本点x;归类:
f(x)=sgn(w*,+b), x;E R*
(1)
对于线性可分的情况,求最大超平面的间题可转化为二次规划间题:Min1/2 IIW II
约束条件:y,(wx,+h)≥1,i=1,2,---,1
(2)
使用KKT条件和拉格朗日乘数,能够形成以下等价的对偶间
题。A,(,)
约束条件为:-0,≥0,-1,2.
现在被修改成v(w*x+b)≥1一,非负&0是那此不符合式(2)的训练样本点x。转化为二次规划间邀为:
Min 1/2II W II +C Ze.
约束条件:vfw*x+b)≥1—和S≥0,i=1,2.-.-.1
(4)
使用KKT条件和拉格朗日乘数,能够形成以下等价的对偶间
Caroa:
约束条件为:
,, = 0,α, ≥ 0,{ = 1,2,--,I
本文所用核函数为:高斯函数 4实验方法与实验结果
(5)
本文中,分别采用基于PCA-SVM和直接降维+SVM的差异蛋白峰选择方法,构建了蛋白相关性生物标记物提取、选择及识别框架,所处理的数据是卵巢癌症蛋白的质谱数据,主要是对里面提取的荷质比和离子强度数据进行处理,提取其中的特征并进一步分类。这里面的数据有正常人蛋白的数据,也有瘤症患者蛋白的数据,我们要我到那些在癌症蛋白中稳定的特征谱,从而为对机器学习方法的训练做准备,最终实现疾病的识别。本试验卵巢癌数据集总共包含253例样本,其中,卵巢瘤患者样本162例,正常体样本91 例。数据用一个m*n矩阵表示,m为样本的数量,1n-1列为每个样本的维数,最后一列为样本的标记,对于卵巢癌数据集为 253*15155矩阵。采用十字交叉验证法.将样本集随机分为10份其中9份作为训练数据集,而另外的1份作为验证数据集,循环10 次,直到所有10份数据全部被选择一通为止,用验证集来验证所得分类器正确率,最后分类器性能指标为这10次得到的正确率的平均值。两种方法中,直接降维+SVM是从15154维中随机选取7000 维作为特征,再通过SVM训练学习与测试分类,PCA-SVM是通过 PCA降维,分别抽取50,100,200维作为特征.再通过SVM训练学习与测试分类,分类正确率如下表,
直接降维+SVM 取其7000维
5结论与讨论
正确率 0.6394
PCA SVM 50维 100维 200
正确率 0. 6386 0. 6399 0. 6411
从以上的实验结果看.正确分类识别率只有64%左右,不算高,而且两种方法除了运算时间上有差异外,识别率无明显差别,但随着 PCA降维抽取维数的增加,正确率明显增加,由此说明PCA在质谱数据降维选择特征方面有一定的优势,可以较好的对测试样本进行识别和分类。许多文献显示质谱特征选择领域,模拟退火算法、小波技术、hoosting方法、遗传算法、统计假设检验方法都有较好的表现下阶段工作,可在以上数据集上尝试不同特征选择方法,以期找到更适合质谱数据分析的方法。
参考文献
[目]清义,郑波,向杰,文志宁,习元波,李梦龙遗传算法-偏最小二来法用于卵果癌虫清蛋白质组数据的特在抗选[J]四川大学学报,2007,44
(4):867872
[2]孟范静,刘毅慧,王洪国,成金勇.SVM在基因微阵列癌症数据分奠(3)
中的应用[J]计算机工程与应用,2007,43(34):246248.
对于非线性非可分间题,引人非负变量≥0。该等价间题(2)