生物信息学实验报告.docx
《生物信息学实验报告.docx》由会员分享,可在线阅读,更多相关《生物信息学实验报告.docx(37页珍藏版)》请在冰豆网上搜索。
生物信息学实验报告
生物信息学
实验报告
班级:
:
学号:
日期:
实验一核酸和蛋白质序列数据的使用
实验目的
了解常用的序列数据库,掌握基本的序列数据信息的查询方法。
教学基本要求
了解和熟悉NCBI核酸和蛋白质序列数据库,可以使用BLAST进行序列搜索,解读BLAST搜索结果,可以利用PHI-BLAST等工具进行蛋白质序列的结构域搜索,解读蛋白质序列信息,可以在蛋白质三维数据库中查询相关结构信息并进行显示。
实验容提要
在序列数据库中查找某条基因序列(BRCA1),通过相关一系列数据库的搜索、比对与结果解释,回答以下问题:
1.该基因的基本功能?
2.编码的蛋白质序列是怎样的?
3.该蛋白质有没有保守的功能结构域(NCBICD-search)?
4.该蛋白质的功能是怎样的?
5.该蛋白质的三级结构是什么?
如果没有的话,和它最相似的同源物的结
构是什么样子的?
给出示意图。
实验结果及结论
1.该基因的基本功能?
Thisgeneencodesanuclearphosphoproteinthatplaysaroleinmaintaininggenomicstability,anditalsoactsasatumorsuppressor.Theencodedproteincombineswithothertumorsuppressors,DNAdamagesensors,andsignaltransducerstoformalargemulti-subunitproteincomplexknownastheBRCA1-associatedgenomesurveillancecomplex(BASC).ThisgeneproductassociateswithRNApolymeraseII,andthroughtheC-terminaldomain,alsointeractswithhistonedeacetylasecomplexes.Thisproteinthusplaysaroleintranscription,DNArepairofdouble-strandedbreaks,andrecombination.Mutationsinthisgeneareresponsibleforapproximately40%ofinheritedbreastcancersandmorethan80%ofinheritedbreastandovariancancers.Alternativesplicingplaysaroleinmodulatingthesubcellularlocalizationandphysiologicalfunctionofthisgene.Manyalternativelysplicedtranscriptvariants,someofwhicharedisease-associatedmutations,havebeendescribedforthisgene,butthefull-lengthnaturesofonlysomeofthesevariantshasbeendescribed.Arelatedpseudogene,whichisalsolocatedonchromosome17,hasbeenidentified.[providedbyRefSeq,May2009]
2.编码的蛋白质序列是怎样的?
[Homosapiens]
1mdlsalrveevqnvinamqkilecpiclelikepvstkcdhifckfcmlkllnqkkgpsq
61cplcknditkrslqestrfsqlveellkiicafqldtgleyansynfakkennspehlkd
121evsiiqsmgyrnrakrllqsepenpslqetslsvqlsnlgtvrtlrtkqriqpqktsvyi
181elgsdssedtvnkatycsvgdqellqitpqgtrdeisldsakkaacefsetdvtntehhq
241psnndlnttekraaerhpekyqgssvsnlhvepcgtnthasslqhenssllltkdrmnve
301kaefcnkskqpglarsqhnrwagsketcndrrtpstekkvdlnadplcerkewnkqklpc
361senprdtedvpwitlnssiqkvnewfsrsdellgsddshdgesesnakvadvldvlnevd
421eysgssekidllasdphealickservhsksvesniedkifgktyrkkaslpnlshvten
481liigafvtepqiiqerpltnklkrkrrptsglhpedfikkadlavqktpeminqgtnqte
541qngqvmnitnsghenktkgdsiqneknpnpieslekesafktkaepisssisnmelelni
601hnskapkknrlrrksstrhihalelvvsrnlsppnctelqidscssseeikkkkynqmpv
661rhsrnlqlmegkepatgakksnkpneqtskrhdsdtfpelkltnapgsftkcsntselke
721fvnpslpreekeekletvkvsnnaedpkdlmlsgervlqtersvesssislvpgtdygtq
781esisllevstlgkaktepnkcvsqcaafenpkglihgcskdnrndtegfkyplghevnhs
841retsiemeeseldaqylqntfkvskrqsfapfsnpgnaeeecatfsahsgslkkqspkvt
901feceqkeenqgknesnikpvqtvnitagfpvvgqkdkpvdnakcsikggsrfclssqfrg
961netglitpnkhgllqnpyripplfpiksfvktkckknlleenfeehsmsperemgnenip
1021stvstisrnnirenvfkeasssninevgsstnevgssineigssdeniqaelgrnrgpkl
1081namlrlgvlqpevykqslpgsnckhpeikkqeyeevvqtvntdfspylisdnleqpmgss
1141hasqvcsetpddllddgeikedtsfaendikessavfsksvqkgelsrspspfththlaq
1201gyrrgakklesseenlssedeelpcfqhllfgkvnnipsqstrhstvateclsknteenl
1261lslknslndcsnqvilakasqehhlseetkcsaslfssqcseledltantntqdpfligs
1321skqmrhqsesqgvglsdkelvsddeergtgleennqeeqsmdsnlgeaasgcesetsvse
1381dcsglssqsdilttqqrdtmqhnliklqqemaeleavleqhgsqpsnsypsiisdssale
1441dlrnpeqstsekavltsqksseypisqnpeglsadkfevsadsstsknkepgversspsk
1501cpslddrwymhscsgslqnrnypsqeelikvvdveeqqleesgphdltetsylprqdleg
1561tpylesgislfsddpesdpsedrapesarvgnipsstsalkvpqlkvaesaqspaaahtt
1621dtagynameesvsrekpeltastervnkrmsmvvsgltpeefmlvykfarkhhitltnli
1681teetthvvmktdaefvcertlkyflgiaggkwvvsyfwvtqsikerkmlnehdfevrgdv
1741vngrnhqgpkraresqdrkifrgleiccygpftnmptdqlewmvqlcgasvvkelssftl
1801gtgvhpivvvqpdawtedngfhaigqmceapvvtrewvldsvalyqcqeldtylipqiph
1861shy
3.该蛋白质有没有保守的功能结构域(NCBICD-search)?
有保守的供能结构域。
Mov34/MPN/PAD-1family:
BRCC36,asubunitofBRCA1-Acomplex
4.该蛋白质的功能是怎样的?
同第一题答案。
5.该蛋白质的三级结构是什么?
如果没有的话,和它最相似的同源物的结
构是什么样子的?
给出示意图。
实验二双序列比对
实验目的
练习使用动态规划算法进行双序列比对;理解打分矩阵和参数对双序列比对结果的影响;理解动态规划算法的原理。
教学基本要求
动态规划算法是序列比对最基本的算法,可以确保找到最优比对。
分为全局比对(Needleman-Wunchalgorithm)和局部比对算法(Smith-Watermanalgorithm)。
通过本实验的练习,更好的理解动态规划算法。
实验容提要
对如下的两条序列进行双序列比对分析:
>DrosophilaSex-lethalprotein
ASNTNLIVNYLPQDMTDRELYALFRAIGPINTCRIMRDYKTGYSYGYAFVDFTSEMDSQRAIKVLNG
>MouseHucRBD
MDSKTNLIVNYLPQNMTQDEFKSLFGSIGDIESCKLVRDKITGQSLGYGFVNYSDPNDADKAINTLNGL
这些蛋白质包含一个RNA识别模体(RNARecognitionMotif,RRM)。
该模体
包含两个高度保守的两个功能区RNP1和RNP2(已用红色标记)。
1.RNP1和RNP2是否得到比对?
选择至少三个(差别大的)空位罚分和延伸值来进行比对,
2a.算法是否找到RNP1和RNP2的正确比对?
b.当空位开启罚分高时,结果发生什么变化?
c.当空位延伸罚分高时,结果发生什么变化?
d.为什么k个连续的空位罚分要小于k个间隔的空位罚分?
使用PAM250矩阵重复上述过程。
3.比对结果是否发生变化?
继续进行这两条序列的局部比对,通过ebi的在线工具完成练习,网址:
(.ebi.ac.uk/Tools/psa/emboss_water/)
4a.RNP1和RNP2是否在局部比对中得到比对?
b.局部比对的生物学意义是什么?
c.为什么在这种比对中我们选择局部比对而不是全局比对?
采用不同的打分参数和其它打分矩阵。
5.比对结果发生了什么变化?
实验结果及结论
1.RNP1和RNP2是否得到比对?
RNP1和RNP2得到了比对。
Gapopen10
Gapextender0.5
Gapopen20
Gapextender1
Gapopen1
Gapextender5
Gapopen100
Gapextender5
Gapopen1
Gapextender0.4
Gapopen20
Gapextender0.4
2.
a.算法是否找到RNP1和RNP2的正确比对?
算法找到了RNP1和RNP2的正确比对。
b.当空位开启罚分高时,结果发生什么变化?
比对结果中空位变少。
c.当空位延伸罚分高时,结果发生什么变化?
几乎没有变化。
d.为什么k个连续的空位罚分要小于k个间隔的空位罚分?
因为间隔的空位每个都是一次改变,连续的空位只是一次改变。
3.比对结果是否发生变化?
继续进行这两条序列的局部比对,通过ebi的在线工具完成练习,网址:
(.ebi.ac.uk/Tools/psa/emboss_water/)
比对结果没有发生变化。
Gapopen10
Gapextender0.5
Gapopen100
Gapextender0.5
Gapopen1
Gapextender0.5
Gapopen1
Gapextender0.0005
Gapopen1
Gapextender10
4.
a.RNP1和RNP2是否在局部比对中得到比对?
RNP1和RNP2在局部比对中得到了比对。
b.局部比对的生物学意义是什么?
更有可能得到序列保守域的比对。
c.为什么在这种比对中我们选择局部比对而不是全局比对?
尽可能的减少误差。
5.比对结果发生了什么变化?
打分矩阵不同,得分不同,blosum数值越小,结果相似度越高,pam矩阵则相反。
实验三序列的点阵分析
实验目的
点阵分析是双序列分析最直观的工具,通过本实验了解点阵分析的原理和方法。
教学基本要求
了解和熟悉点阵分析的原理和参数对分析结果的影响,可以对结果进行解读和解释。
实验容提要
本实验在如下网址完成:
myhits.isb‐sib.ch/cgi‐bin/dotlet首先学习根据dotlet的在线教程,快速学习其基本使用方法和参数设置。
然后进行如下的序列分析。
回答问题:
点阵分析的基本原理是什么?
1.重复序列
通过点阵分析可以很容易的发现序列中的重复,果蝇的一个蛋白质(索引号
码:
P24014)中具有几个重复片段,请通过dotlet分析,找到这些序列重复的
片段。
SLIT_DROME(P24014):
MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI
TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW
LSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTL
PDDTTDVRLEQNFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLL
LNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHKNPIETSGARCE
SPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNELGR
ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE
HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT
CTGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRLDLSNNQITILSNYTFANLTKLSTLIISYN
KLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQ
MKDKLILSTPSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNAT
CTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAK
CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHEC
KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV
ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDP
AQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLEN
KCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRSRQPLKYAKCVGGCGN
QCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY
从uniprot或者genbank数据库中的注释信息进行进一步确认你所发现的结果。
2.低复杂度区域
恶性疟原虫抗原蛋白前体(索引:
P69192)具有一段低复杂度区域的序列,通过点阵分析找到这个特点。
SERA_PLAFG(P69192):
MKSYISLFFILCVIFNKNVIKCTGESQTGNTGGGQAGNTVGDQAGSTGGSPQGSTGASQPGSSEPSNPVS
SGHSVSTVSVSQTSTSSEKQDTIQVKSALLKDYMGLKVTGPCNENFIMFLVPHIYIDVDTEDTNIELRTT
LKETNNAISFESNSGSLEKKKYVKLPSNGTTGEQGSSTGTVRGDTEPISDSSSSSSSSSSSSSSSSSSSS
SSSSSSSSSSSSSSSESLPANGPDSPTVKPPRNLQNICETGKNFKLVVYIKENTLIIKWKVYGETKDTTE
NNKVDVRKYLINEKETPFTSILIHAYKEHNGTNLIESKNYALGSDIPEKCDTLASNCFLSGNFNIEKCFQ
CALLVEKENKNDVCYKYLSEDIVSNFKEIKAETEDDDEDDYTEYKLTESIDNILVKMFKTNENNDKSELI
KLEEVDDSLKLELMNYCSLLKDVDTTGTLDNYGMGNEMDIFNNLKRLLIYHSEENINTLKNKFRNAAVCL
KNVDDWIVNKRGLVLPELNYDLEYFNEHLYNDKNSPEDKDNKGKGVVHVDTTLEKEDTLSYDNSDNMFCN
KEYCNRLKDENNCISNLQVEDQGNCDTSWIFASKYHLETIRCMKGYEPTKISALYVANCYKGEHKDRCDE
GSSPMEFLQIIEDYGFLPAESNYPYNYVKVGEQCPKVEDHWMNLWDNGKILHNKNEPNSLDGKGYTAYES
ERFHDNMDAFVKIIKTEVMNKGSVIAYIKAENVMGYEFSGKKVQNLCGDDTADHAVNIVGYGNYVNSEGE
KKSYWIVRNSWGPYWGDEGYFKVDMYGPTHCHFNFIHSVVIFNVDLPMNNKTTKKESKIYDYYLKASPEF
YHNLYFKNFNVGKKNLFSEKEDNENNKKLGNNYIIFGQDTAGSGQSGKESNTALESAGTSNEVSERVHVY
HILKHIKDGKIRMGMRKYIDTQDVNKKHSCTRSYAFNPENYEKCVNLCNVNWKTCEEKTSPGLCLSKLDT
NNECYFCYV
实验结果及结论
1.重复序列
通过点阵分析可以很容易的发现序列中的重复,果蝇的一个蛋白质(索引号
码:
P24014)中具有几个重复片段,请通过dotlet分析,找到这些序列重复的
片段。
2.低复杂度区域
恶性疟原虫抗原蛋白前体(索引:
P69192)具有一段低复杂度区域的序列,通过点阵分析找到这个特点。
实验四多序列比对
实验目的
在序列分析中,多序列比对具有广泛的应用,是许多其他分析的基础和前提,比如进化发生分析、构建位置特异性打分矩阵、找到一致序列等,本实验的目的是熟悉多序列比对相关的操作和编辑方法。
教学基本要求
了解和熟悉多序列比对的原理和基本方法。
实验容提要
1.使用CLUSTALW算法,比对一组蛋白质序列,该序列属于RAD51‐RECA,
在DNA的复制阶段起重要作用,这些序列可以从NCBIgenbank、Uniprot等序列
服务器获取,序列的索引为:
P25454,P25453,P0A7G6,P48295。
将这些
序列保存在一个文本文件。
如果查询到的序列不止一个的话,选择第一个。
>P25454.1Full=DNArepairproteinRAD51
MSQVQEQHISESQLQYGNGSLMSTVPADLSQSVVDGNGNGSSEDIEATNGSGDGGGLQEQAEAQGEMEDE
AYDEAALGSFVPIEKLQVNGITMADVKKLRESGLHTAEAVAYAPRKDLLEIKGISEAKADKLLNEAARLV
PMGFVTAADFHMRRSELICLTTGSKNLDTLLGGGVETGSITELFGEFRTGKSQLCHTLAVTCQIPLDIGG
GEGKCLYIDTEGTFRPVRLVSIAQRFGLDPDDALNNVAYARAYNADHQLRLLDAAAQMMSESRFSLIVVD
SVMALYRTDFSGRGELSARQMHLAKFMRALQRLADQFGVAVVVTNQVVAQVDGGMAFNPDPKKPIGGNIM
AHSSTTRLGFKKGKGCQRLCKVVDSPCLPEAECVFAIYEDGVGDPREEDE
>P25453.1Full=MeioticrecombinationproteinDMC1
MSVTGTEIDSDTAKNILSVDELQNYGINASDLQKLKSGGIYTVNTVLSTTRRHL