基于序列信息的转录因子结合位点和启动子理论预测资料下载.pdf
《基于序列信息的转录因子结合位点和启动子理论预测资料下载.pdf》由会员分享,可在线阅读,更多相关《基于序列信息的转录因子结合位点和启动子理论预测资料下载.pdf(49页珍藏版)》请在冰豆网上搜索。
内蒙古大学硕士学位论文基于序列信息的转录因子结合位点和启动子理论预测姓名:
@#@杨科利申请学位级别:
@#@硕士专业:
@#@生物物理学指导教师:
@#@李前忠20070420基于序列信息的转录因子结合位点和启动子理论预测摘要基因转录调控一直是生物信息学研究的一个重要内容,转录因子结合位点和启动子的识别是研究基因转录调控的重要环节,是构建基因调控网络的一个核心问题。
@#@本文基于已知的转录因子结合位点和启动子序列数据,从序列信息出发,提出了整合位点保守型参量和位置权重矩阵预测转录因子结合位点的位置权重矩阵打分函数方法以及联合位置权重矩阵和离散增量预测启动子的支持向量机方法。
@#@基于转录因子结合位点序列通常比较短且保守,引入矩阵模型描述转录因子结合位点的特性,同时依据转录因子结合位点的位点保守性各不相同,将碱基保守性参数引入矩阵模型,从而提出预测转录因子结合位点的位置权重打分函数算法(PWMSA)。
@#@首先将四种碱基随机出现的频率作为背景频率,以单碱基位点保守性参量结合单碱基位置权重矩阵的PWMSA算法对22种转录因子结合位点进行预测,总体Self_consistency检验为8759,10-foldcrossvalidation检验为8548。
@#@然后考虑到基因序列中的四种碱基并非随机出现,以四种碱基实际出现的频率作为背景频率,用PWMSA算法对酵母九种转录因子结合位点进行预测,Self-consistency检验预测成功率达8314,10-foldcrossvalidation检验预测成功率为775I。
@#@同时,引进两种最新的评价指标,将PWMSA算法与现有的10种预测转录因子结合位点的软件进行比较,结果表明PWMSA算法的评价指标均高于现有的算法,在核昔酸和结合位点片段两种评价水平上,预测成功率分别高出其他算法4,7个百分点。
@#@考虑到转录因子结合位点之间存在碱基相互作用共同贡献与蛋白的亲和力,利用已知的9种酵母转录因子结合位点序列构建近邻核苷酸二联体位置权重矩阵,计算位点近邻二联体核苷酸保守性参量,使用PWMSA算法对9种酵母转录因子结合位点进行预测,Selfconsistency检验和J0-foldcrossvalidation检验预测成功率分别达到8804,8110,明显高于单碱基位置权重矩阵的结果。
@#@基于启动子序列的内容特征和信号特征与非启动子序列的区别,利用离散量方法提取启动子序列的内容特征;@#@构建核心启动子元件的位置权重矩阵,使用位置权重矩阵提取启动子序列的信号特征,最后提取启动子和非启动子序列碱基组份特征。
@#@构建了基于综合启动子序列的内容特征和信号特征预测启动子序列的支持向量机分类器,并对人类PolII启动子进行预测,10-foldCrOSSvalidation检验为9570,对另外选取的独立测试集预测成功率为9830,同时与现有的7种预测启动子的软件和算法进行比较,我们的算法预测成功率敏感性为9700,特异性为9798,结果明显优于现有的预测算法和软件。
@#@关键词:
@#@转录因子结合位点,启动子,位置权重矩阵,离散增量,支持向量机BASEDONTHEINFORMATIONoFSEQUENCEST0PREDICTTHETRANSCRIPTIONFACTORBINDINGSITESANDPROMOTERABSTRACTThegenetranscriptionregulationisacentralchallengeofbioinformatics;@#@animportantstepinthischallengeistheabilitytoidentifytranscriptionfactorbindingsitesandpromoterBasedontheknowntranscriptionfactorbindingsitesandpromotersequences,anewpositionweightmatricesscoringalgorithm(PWMSA)forpredictingtranscriptionfactorbindingsitesispresentedInaddition,thesupportvectormachine(SVM)modelcombinedwithincrementofdiversityisusedtOpredictpromotersBasedonthedifferenceofnucleotideprobabilityineverypositionoftranscriptionfactorbindingsites,thesitesconservationindexesMjarecalculatedAnovelpositionweightmatricesscoringalgorithm(PWMSA)forpredictingtranscriptionfactorbindingsitesispresentedTranscriptionfactorbindingsites(TFBS)canbepredictedbyusingofsitesconservationindexesandthepositionweightmatrices(PWM)Atfirst,theTFBSfor22kindsoftranscriptionfactorinEcolik12genomearepredictedbyusingPWMSAByusingoftheself-consistencytestandthe10-foldCROSSvalidationtest,theresultsshowthattheoverallpredictionaccuraciesare8759and8645,respectivelyAfterthat,theTFBSfor9kindsoftranscriptionfactorinsdccharomycescerevisiaegenomearealsopredictedbyusingPWMSATheresultsinselfconsistencytestandthe10-foldcross-validationtestshowthattheoverallpredictionaccuraciesare8314and7751。
@#@respectivelyBycomparingouralgorithmwithothertensoftwaresusingthesameperformancemeasuresandbenchmarkeddatabase,theresultsshowthattheoverallpredictionaccuraciesofPWMSAare4and7morethantheothertenalgorithms,respectively,atbindingsitessegmentlevelandnucleotidelevel一Thethird,byconsideringtheinterdependenteffectsbetweenbasesintranscriptionfactorbindingsitessequences,thepairwisenucleotidedependentPWMandthePre-conservativeindexvectorsareincorporatedinPWMSATheresultsofpredictionfor9kindsoftranscriptionfactorsinSaccharomycescerevisiaegenomearefurtherimprovedTheresultsshowthattheoverallpredictionaccuraciesare8804and8110,byu