生物信息学实验报告Word格式文档下载.docx
《生物信息学实验报告Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《生物信息学实验报告Word格式文档下载.docx(17页珍藏版)》请在冰豆网上搜索。
国际NCBI、EBI、ExPASy,EMBL、SIB、TIGR以及国内CBI、BioSino的熟悉及内容的了解。
核酸序列数据库:
genbank/EMBL-bank/DDBJ
NCBI网址:
.ncbi.nlm.nih.gov/
EBI网址:
.ebi.ac.uk/
EMBL网址:
.ebi.ac.uk/embl
蛋白质序列数据库:
SwissProt、ExPASy网址:
expasy.org/
Uniprot网址:
.uniprot.org/
蛋白质结构数据库:
PDB网址:
.rcsb.org/pdb/
(2)数据库内容、结构与注释的浏览
分别读取ThespikeproteinofSARS-CoronaVirus在NCBI中的核酸序列、SWISS-PROT蛋白质序列以及PDB蛋白质结构序列,熟悉数据库记录的结构,学会看懂其中的注释。
核酸序列:
SWISS-PROT蛋白质序列:
PDB蛋白质结构序列:
其PDB文件见附件SARS-CoronaVirus.PDB文件
分别读取HeamagglutininGenesofH9N2SubtypeInfluenzaAViruses(禽流感H9N2亚型HA基因)在NCBI中的核酸序列、SWISS-PROT蛋白质序列以及PDB蛋白质结构序列,熟悉数据库记录的结构,学会看懂其中的注释。
SWISS-PROT蛋白质序列
PDB蛋白质结构序列
其PDB文件见附件H9N2.PDB文件
(3)文献信息的查找与管理
有效地使用NCBIPubMed提供的各种主要功能,查询并下载相关课题或研究方向的论文文摘与文献全文。
查询InfluenzaAViruses分子进化研究方向的文章。
三.实验要求:
(1)以其中的一个信息中心为例,列举其中的主要资源(数据库、网上分析、生物计算、数据下载等)。
以NCBI为例,其主要数据库:
BioProject(formerlyGenomeProject)、ConservedDomainDatabase(CDD)、DatabaseofGenotypesandPhenotypes(dbGaP)、GenBank、InfluenzaVirus、JournalsinNCBIDatabases、MeSHDatabase、NucleotideDatabase、OnlineMendelianInheritanceinAnimals(OMIA)、ProteinClusters、ProteinDatabas、PubMed、ReferenceSequence(RefSeq)、Structure(MolecularModelingDatabase)、ThirdPartyAnnotation(TPA)Database、UniGene、ViralGenomes等
网上分析:
BLAST、VecScreen、ORFFinder、COGnitor等
生物计算:
数据下载功能如下:
(2)能够解释给定序列或基因组数据的含义。
(3)检索文献的技巧和效率。
实验二序列多重比对及进化分析
1.学习序列比对工具BLAST以及ClustalW等的使用,能够对序列数据进行初步的分析。
2.掌握基于DNA序列和蛋白质序列构建系统进化树的常用方法和常用工具。
1.在GeneBank数据库中,检索10条轮状病毒(Homosapiens,Rotavirus)VP7基因的DNA序列,并使用CLUSTALW软件对序列进行多重序列比对;
检索结果详见电子稿附件VP7文件夹:
senquence1.fasta-senquence10.fasta
多重序列比对结果:
多重序列比对结果详见电子稿附件:
senquence.aln文件
2.在GeneBank数据库中检索10条SARS病毒Spike蛋白的氨基酸序列,使用CLUSTALX软件对这十条序列进行多重序列比对;
检索结果详见电子稿附件sara文件夹:
s0.fasta–s9.fasta
多重序列比对结果
多重序列比对结果详见电子稿附件sara文件夹:
s9.aln
3.使用ClustalW软件或其他软件包构建上述DNA分子系统发生树。
系统发生树如下:
1.提交使用CLUSTALX及PHYLIP软件进行多重序列比对及构建系统发生树的结果;
2.总结多重序列比对及构建系统发生树的关键事项。
选择合适的比对算法,构建系统发生树时适当选择独立关系的分支序列。
实验三蛋白质结构分析及结构预测
1、掌握蛋白质序列检索的操作方法;
2、熟悉蛋白质基本性质分析;
3、熟悉基于序列同源性分析的蛋白质功能预测,了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测;
4、了解蛋白质结构预测。
5.学会运用结构浏览软件对生物大分子的结构进行观察。
1.给出实例了解生物大分子结构数据库PDB及MMDB中的记录方式,看懂记录中的内容并会运用Rasmol或3D软件观察蛋白质的三维结构。
PDB文件1J4N.pdb的记录方式分析见附录。
下图为在Rasmal软件中观察的结果:
丝带模型
线框模型
球棒模型
2.使用Entrez或SRS信息查询系统检索水通道(Aquaporin-1,AQP1)蛋白质序列。
AQP1蛋白质序列:
MQSGMGWNVLDFWLADGVNSGQGLGIEIIGTLQLVLCVLATTDRRRRDLGGSAPLAIGLSVALGHLLAIDYTGCGINPARSFGSAVITHNFSNHWIFWVGPFIGGALAVLIYDFILAPRSSDLTDRVKVWTSGQVEEYDLDADDINSRVEMKPK
详见附件AQP1.fasta
3.使用BioEdit软件对上述蛋白质序列进行分子质量、氨基酸组成和疏水性等基本性质分析。
分子量、氨基酸组成
Protein:
gi|297307120|ref|NP_001171991.1|aquaporin-1isoform4[Homosapiens]
Length=154aminoacids
MolecularWeight=16676.11Daltons
AminoAcidNumberMol%
AlaA127.79CysC21.30AspD127.79
GluE42.60PheF63.90GlyG1811.69
HisH31.95IleI127.79LysK31.95
LeuL1811.69MetM31.95AsnN63.90
ProP53.25GlnQ42.60ArgR85.19
SerS117.14ThrT74.55ValV127.79TrpW53.25TyrY31.95
疏水性分析:
4.
对水通道蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析;
5.对水通道蛋白质序列进行motif结构分析;
6.对水通道蛋白质序列进行二级结构和三维结构预测。
二级结构预测:
三级结构预测:
数据库显示结构:
1、提交使用上述软件对人水通道蛋白质序列进行基本性质分析、同源性分析、motif结构分析以及二级结构和三维结构预测的结果;
2、相互对比结果,说明产生不同结果的原因,总结进行上述分析所需注意的关键事项。
实验四核酸序列分析
一.实验目的
1、掌握已知或未知序列接受号的核酸序列检索的基本步骤;
2、掌握使用BioEdit软件进行核酸序列的基本分析;
3、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析);
二.实验原理
针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。
在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。
一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;
如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;
在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;
其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATABox等相匹配等。
一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:
对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;
选用预测程序时要注意程序的物种特异性;
要弄清程序适用的是基因组序列还是cDNA序列;
很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。
三.实验内容
1、使用Entrez或SRS信息查询系统检索人瘦素(leptin)的mRNA、基因组DNA、外显子等核酸序列,连接提取该序列内容,阅读序列格式的解释,理解其含义;
2、使用BioEdit软件对上述核酸序列进行分子质量、碱基组成、碱基分布、序列变换等基本分析,并从BioEdit软件的“help”栏了解该软件的其它功能;
DNAmolecule:
gi|169790920|ref|NM_000230.2|Homosapiensleptin(LEP),mRNA
Length=3444basepairs
MolecularWeight=1045471.00Daltons,singlestranded
MolecularWeight=2093627.00Daltons,doublestranded
G+Ccontent=49.97%
A+Tcontent=50.03%
NucleotideNumberMol%
A90326.22
C80123.26
G92026.71
T82023.81
4、使用BioEdit软件对人瘦素(leptin)的mRNA序列进行可读框架分析;
起始密码位置和编码区X围:
4、使用NCBI查询系统进行人瘦素(leptin)的基因组序列分析。
ATGCATTGGGGAACCCTGTGCGGATTCTTGTGGCTTTGGCCCTATCTTTTCTATGTCCAAGCTGTGCCCATCCAAAAAGTCCAAGATGACACCAAAACCCTCATCAAGACAATTGTCACCAGGATCAATGACATTTCACACACGCAGTCAGTCTCCTCCAAACAGAAAGTCACCGGTTTGGACTTCATTCCTGGGCTCCACCCCATCCTGACCTTATCCAAGATGGACCAGACACTGGCAGTCTACCAACAGATCCTCACCAGTATGCCTTCCAGAAACGTGATCCAAATATCCAACGACCTGGAGAACCTCCGGGATCTTCTTCACGTGCTGGCCTTCTCTAAGAGCTGCCACTTGCCCTGGGCCAGTGGCCTGGAGACCTTGGACAGCCTGGGGGGTGTCCTGGAAGCTTCAGGCTACTCCACAGAGGTGGTGGCCCTGAGCAGGCTGCAGGGGTCTCTGCAGGACATGCTGTGGCAGCTGGACCTCAGCCCTGGGTGCTGA
四.实验方法
1、调用Internet浏览器,并在其地址栏输入Entrez网址:
.ncbi.nlm.nih.gov/gquery/gquery.fcgi;
2、在输入栏输入homosapiensleptin;
3、点击go后显示搜索结果;
4、在搜索结果中选择nucleotide前的数字,显示序列接受号及序列名称等;
5、查找人leptin(obesityhomolog,mouse)mRNA序列(提示:
NM_000230),点击序列接受号后显示序列详细信息;
6、将序列转为FASTA格式保存
7、根据从NM_000230了解的基因定位信息查找人瘦素的基因组DNA(Contig)的序列接受号及序列识别号,点击序列接受号显示序列详细信息;
8、根据从NM_000230了解的HGNC:
6553,进入GENATLAS查找人瘦素5’mRNA、基因组DNA、外显子等核酸序列;
9、将上述核酸序列输入BioEdit和DNAClub软件进行序列基本分析;
10、打开BioEdit软件,点击“help”栏,阅读“contents”;
11、将人瘦素(leptin)的mRNA序列输入BioEdit软件进行可读框架分析:
打开BioEdit软件→将人瘦素(leptin)mRNA的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击sequence栏→选择nucleicacid→点击findnextORF→查看起始密码位置和编码区X围(57→557)。
五.实验要求
1、归纳对人瘦素(leptin)的核酸序列分析的结果,列出主要的分析结果;
2、总结核酸序列分析的基本步骤,相互对比结果,指出应注意的事项。