技术标签:蛋白质,结构预测,结构频谱,序列特征,关联规则
产业分类:经济分类:科学研究、技术服务和地质勘查业
成果所属人:海南大学技术成熟度:小试阶段
是否指派:否计划转让金额:面议
合作方式:联系人:牛老师
联系电话:联系邮箱:niujj@ige-live.com
中图分类:Q51
学科分类:180.17
成果类别:基础理论
成果水平:未评价
研究起止时间:2010-01~2011-12
评价形式:验收
①生物信息学中的蛋白质结构预测在后基因时代中地位重要,在过去的几十年间,蛋白质结构预测算法方兴未艾,它包括很多子问题,涉及蛋白质二级结构预测、结构域预测、三级结构预测、蛋白质相互作用位点的预测、功能位点预测等等。项目组对各种主要研究进行调研和总结分析,综评了蛋白质结构预测的研究现状。 ②组成蛋白质的基本单位氨基酸对于蛋白质分类预测问题、氨基酸序列特征提取方法是一个非常重要的因素。基于氨基酸组成的方法实现简单、计算量小,且对所有的氨基酸序列都适用,但丢失了氨基酸的顺序信息以及其间的相互作用;基于氨基酸位置信息或理化特性等方法计算量非常大。项目组对基于氨基酸组成、位置的特征提取算法如熵密度、n阶耦联组成和基于氨基酸性质的特征提取方法如自相关函数、伪氨基酸组成等方法进行了阐述和评价,为后续研究奠定基础。 ③以蛋白质数据银行中PDB文本数据作为数据源,提取所有蛋白质氨基酸序列并以此建立特征样本数据库,提出一种易于修改的蛋白质二级结构预测算法。针对α螺旋,β折叠分别利用基于散列辞典的不同改进方法编程实现蛋白质二级结构序列片段预测。在此基础上,建立了蛋白质结构频谱集空间数据库,进行结构频谱的特征提取。 ④在蛋白质三维结构比较的研究中,我们发现蛋白质的结构频谱表现出一些特有的特点,与蛋白质序列之间存在某种关联。项目组以蛋白质数据库PDB为数据源,建立蛋白质α螺旋,β折叠和无规则卷曲等二级结构数据库,选取其疏水值,解离常数等特征,利用K均值聚类对二级结构进行分类,从而建立起蛋白质一级结构与三维结构间的关联规则。 ⑤蛋白质二级结构是在一定的氨基酸残基的组成和排列顺序(即蛋白质一级结构)的基础上形成的,不同的氨基酸残基由于具有不同的理化特性形成不同的蛋白质二级结构。项目组利用所建立二级结构数据库,选取疏水值,等电点等特征,对二级结构进行蚁群聚类,发现其结果所表现出的特征符合既有规律,为后期的预测工作提供了依据。 ⑥使用基于密度的聚类方法,通过自定义蛋白质二级结构序列片段之间的相似度矩阵,以此为聚类度量源数据,对蛋白质二级结构中的alfa螺旋、beta折叠以及无规则卷曲分别进行聚类,该聚类结果能够很好的观察出三种不同类别序列之间的特征。聚类结果显示,该方法能够有效地对具有相同特征的蛋白质残基序列进行归类,同时充分体现出三种蛋白质二级结构的不同特点。海南省有很多独特的热带生物资源和海洋生物资源,现有的技术能够测得这些生物资源的蛋白质序列,但海南省目前还没有条件测这些蛋白质的三维结构,因此,如果能通过蛋白质的序列对其三维结构进行预测并显示,将给相关的研究工作带来有力的支持,也会促进医药研究领域的快速发展,产生很好的社会效益和经济效益。