生物信息学实验报告.docx
《生物信息学实验报告.docx》由会员分享,可在线阅读,更多相关《生物信息学实验报告.docx(32页珍藏版)》请在冰豆网上搜索。
生物信息学实验报告
生物信息学实验报告
***************
学号:
___03*******____
**************
南京航空航天大学
2011年11月
实验一生物信息数据库的检索
一.实验目的:
1.了解生物信息学的各大门户网站以及其中的主要资源。
2.了解主要数据库的内容及结构,理解各数据库注释的含义。
3.以PubMed为例,学会文献数据库的基本查询检索方法。
二.实验内容:
(1)国际与国内的生物信息中心
国际NCBI、EBI、ExPASy,EMBL、SIB、TIGR以及国内CBI、BioSino网站的熟悉及内容的了解。
核酸序列数据库:
genbank/EMBL-bank/DDBJ
NCBI网址:
http:
//www.ncbi.nlm.nih.gov/
EBI网址:
http:
//www.ebi.ac.uk/
EMBL网址:
http:
//www.ebi.ac.uk/embl
蛋白质序列数据库:
SwissProt、ExPASy网址:
http:
//expasy.org/
Uniprot网址:
http:
//www.uniprot.org/
蛋白质结构数据库:
PDB网址:
http:
//www.rcsb.org/pdb/
(2)检索练习:
ThespikeproteinofSARS-CoronaVirus在NCBI中的核酸记录序列:
LOCUSCS2444393897bpDNAlinearPAT17-JUL-2006
DEFINITIONSequence3fromPatentWO2005118813.
ACCESSIONCS244439
VERSIONCS244439.1GI:
84659113
KEYWORDS.
SOURCESARScoronavirus
ORGANISMSARScoronavirus
Viruses;ssRNApositive-strandviruses,noDNAstage;Nidovirales;
Coronaviridae;Coronavirinae;Betacoronavirus.
REFERENCE1
AUTHORSAltmeyer,R.,Nal-Rogier,B.,Chan,C.,Kien,F.,Kam,Y.W.,Siu,Y.L.,
Tse,K.S.,Staropoli,I.andManuguerra,J.C.
TITLENucleicacids,polypeptides,methodsofexpression,andimmunogenic
compositionsassociatedwithsarscoronavirusspikeprotein
JOURNALPatent:
WO2005118813-A2315-DEC-2005;
INSTITUTPASTEUR(FR);HongKongPasteurResearchCentreLimited
(CN)
FEATURESLocation/Qualifiers
source1..3897
/organism="SARScoronavirus"
/mol_type="unassignedDNA"
/db_xref="taxon:
227859"
CDS44..3847
/note="unnamedproteinproduct"
/codon_start=1
/protein_id="CAJ56183.1"
/db_xref="GI:
84659114"
/translation="MFIFLLFLTLTSGSDLDRCTTFDDVQAPNYTQHTSSMRGVYYPDEIFRSDTLYLTQDLFLPFYSNVTGFHTINHTFGNPVIPFKDGIYFAATEKSNVVRGWVFGSTMNNKSQSVIIINNSTNVVIRACNFELCDNPFFAVSKPMGTQTHTMIFDNAFNCTFEYISDAFSLDVSEKSGNFKHLREFVFKNKDGFLYVYKGYQPIDVVRDLPSGFNTLKPIFKLPLGINITNFRAILTAFSPAQDIWGTSAAAYFVGYLKPTTFMLKYDENGTITDAVDCSQNPLAELKCSVKSFEIDKGIYQTSNFRVVPSGDVVRFPNITNLCPFGEVFNATKFPSVYAWERKKISNCVADYSVLYNSTFFSTFKCYGVSATKLNDLCFSNVYADSFVVKGDDVRQIAPGQTGVIADYNYKLPDDFMGCVLAWNTRNIDATSTGNYNYKYRYLRHGKLRPFERDISNVPFSPDGKPCTPPALNCYWPLNDYGFYTTTGIGYQPYRVVVLSFELLNAPATVCGPKLSTDLIKNQCVNFNFNGLTGTGVLTPSSKRFQPFQQFGRDVSDFTDSVRDPKTSEILDISPCSFGGVSVITPGTNASSEVAVLYQDVNCTDVSTAIHADQLTPAWRIYSTGNNVFQTQAGCLIGAEHVDTSYECDIPIGAGICASYHTVSLLRSTSQKSIVAYTMSLGADSSIAYSNNTIAIPTNFSISITTEVMPVSMAKTSVDCNMYICGDSTECANLLLQYGSFCTQLNRALSGIAAEQDRNTREVFAQVKQMYKTPTLKYFGGFNFSQILPDPLKPTKRSFIEDLLFNKVTLADAGFMKQYGECLGDINARDLICAQKFNGLTVLPPLLTDDMIAAYTAALVSGTATAGWTFGAGAALQIPFAMQMAYRFNGIGVTQNVLYENQKQIANQFNKAISQIQESLTTTSTALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHLMSFPQAAPHGVVFLHVTYVPSQERNFTTAPAICHEGKAYFPREGVFVFNGTSWFITQRNFFSPQIITTDNTFVSGNCDVVIGIINNTVYDPLQPELDSFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELGKYEQYIKWPWYVWLGFIAGLIAIVMVTILLCCMTSCCSCLKGACSCGSCCKFDEDDSEPVLKGVKLHYTGPGGDYKDDDDK"
ORIGIN
1ctatagggcgaattgggtaccgctagcggatccgcgcgccaccatgtttattttcctgct
61gtttctgactctgaccagcggcagtgacctggaccggtgcaccacttttgatgatgtgca
121ggctcctaattacactcagcatacttcctctatgaggggcgtgtactatcctgatgaaat
181ttttagatccgacactctgtatctgactcaggatctgtttctgccattctattctaatgt
241gacaggctttcatactattaatcatacctttggcaaccctgtgatcccttttaaggatgg
301catctattttgctgccacagagaagtccaatgtggtgcggggatgggtgttcggctctac
361catgaacaacaagtcccagtccgtgattattattaacaattctactaatgtggtgatccg
421agcctgtaactttgaactgtgtgacaacccattctttgctgtgtctaagcccatgggcac
481acagacacatactatgatcttcgataatgcctttaattgcactttcgagtacatctctga
541tgccttttccctggatgtgtccgaaaagtccggcaactttaagcacctgcgagagtttgt
601gtttaagaataaggatggctttctgtatgtgtataagggctatcagcctatcgacgtggt
661gcgcgatctgccttctggctttaacactctgaagcctatttttaagctgcctctgggcat
721taacattacaaattttcgggccattctgacagcctttagccctgctcaggacatttgggg
781cacctctgctgccgcctattttgtgggctatctgaagccaactacctttatgctgaagta
841tgatgaaaatggcacaatcacagatgctgtggattgttctcagaatccactggctgaact
901gaagtgctctgtgaagagctttgagattgacaagggaatctaccagacctctaatttccg
961cgtggtgccctctggagatgtggtgagattccctaatattacaaacctgtgtccttttgg
1021agaagtgtttaatgctactaagttcccttctgtgtatgcctgggagagaaagaagatttc
1081taattgtgtggctgattactctgtgctgtacaactccacattttttagcacctttaagtg
1141ctatggcgtgtctgccactaagctgaatgatctgtgcttctccaatgtgtatgccgattc
1201ttttgtggtgaagggagatgatgtgagacagatcgccccaggacagactggcgtgattgc
1261tgattacaattataagctgccagatgatttcatgggctgtgtgctggcttggaatactag
1321gaacattgatgctacttccactggcaattataattacaagtatcggtatctgagacatgg
1381caagctgaggccctttgagagagacatctctaacgtgcctttcagccctgatggcaagcc
1441ttgcaccccacctgctctgaattgttattggccactgaatgattatggcttttacaccac
1501tactggcattggctaccagccttacagagtggtggtgctgtcttttgaactgctgaatgc
1561ccctgccacagtgtgtggaccaaagctgtccactgacctgattaagaaccagtgtgtgaa
1621ctttaactttaatggactgactggcactggcgtgctgactccttctagcaagagatttca
1681gccatttcagcagtttggccgggatgtgtctgatttcactgattccgtgcgagatcctaa
1741gacatctgaaatcctggacatttccccttgctcttttggcggcgtgagcgtgattacacc
1801tggaacaaatgcttcctctgaagtggctgtgctgtatcaggatgtgaactgcactgatgt
1861gtctacagccatccatgccgatcagctgacaccagcttggcgcatctattctactggaaa
1921caatgtgttccagactcaggccggctgtctgatcggagctgagcatgtggacacttctta
1981tgagtgcgacattcctattggagctggcatttgtgctagttaccatacagtgtctctgct
2041gcggagtactagccagaagtctattgtggcttatactatgtctctgggcgctgatagttc
2101cattgcttactctaataacaccattgctatccctactaacttttccattagcattactac
2161agaagtgatgcctgtgtctatggctaagacctccgtggattgtaatatgtacatctgcgg
2221agattctaccgaatgtgctaatctgctgctgcagtatggcagcttttgcacacagctgaa
2281tcgggctctgtctggcattgctgctgaacaggatcgcaacacacgggaagtgttcgctca
2341agtgaagcagatgtataagaccccaactctgaagtattttggcggctttaatttttccca
2401gatcctgcctgaccctctgaagcccactaagcggtcttttattgaggacctgctgtttaa
2461caaagtgacactggctgatgctggctttatgaagcagtatggcgaatgcctgggcgatat
2521taatgctagagatctgatttgtgcccagaagttcaatggcctgacagtgctgcctcctct
2581gctgactgatgatatgattgctgcctacactgctgctctggtgtctggcactgccactgc
2641tggatggacatttggcgctggcgctgctctgcagatcccttttgctatgcagatggccta
2701tcggttcaatggcattggagtgacccagaatgtgctgtatgagaaccagaagcagattgc
2761caaccagtttaacaaggccattagtcagattcaggaatccctgacaacaacatccactgc
2821cctgggcaagctgcaggacgtggtgaaccagaatgctcaggccctgaacacactggtgaa
2881gcagctgagcagcaattttggcgccatttccagtgtgctgaatgatatcctgtcccgact
2941ggataaagtggaggccgaagtgcagattgacaggctgattacaggcagactgcagagcct
3001gcagacctatgtgacacagcagctgatcagggctgctgaaatcagggcttctgccaatct
3061ggctgctactaagatgtctgagtgtgtgctgggacagtccaagagagtggacttttgtgg
3121aaagggctaccacctgatgtccttcccacaggctgcccctcatggagtggtgttcctgca
3181tgtgacctatgtgccatcccaggagaggaacttcaccacagccccagccatttgtcatga
3241aggcaaggcctacttccctcgggaaggcgtgttcgtgtttaatggcacttcttggtttat
3301tacacagcggaacttctttagcccacagatcatcactacagacaatacatttgtgtccgg
3361aaattgtgatgtggtgattggcatcattaacaacacagtgtatgatcctctgcagcctga
3421gctggactccttcaaggaagagctggacaagtacttcaagaatcatacatccccagatgt
3481ggatctgggcgacatttccggcattaacgcttctgtggtgaacattcagaaggaaattga
3541ccgcctgaatgaagtggctaagaatctgaatgaatccctgattgacctgcaggaactggg
3601caagtatgagcagtatattaagtggccttggtatgtgtggctgggcttcattgctggact
3661gattgccatcgtgatggtgacaatcctgctgtgttgcatgacctcctgttgcagttgcct
3721gaagggcgcttgctcttgtggatcttgctgcaagtttgatgaggatgactctgagccagt
3781gctgaagggcgtgaagctgcattacacagggcccggcggcgactacaaggacgatgacga
3841caagtgatagatcgatgcatggatccgtttaaaccgagctccagctttgttccctta
ThespikeproteinofSARS-CoronaVirus在SWISS-PROT蛋白质序列:
ThespikeproteinofSARS-CoronaVirus在PDB蛋白质结构序列:
(3)文献信息的查找与管理
有效地使用NCBIPubMed提供的各种主要功能,查询并下载相关课题或研究方向的论文文摘与文献全文。
查询InfluenzaAViruses分子进化研究方向的文章。
(3)NCBI数据库简介:
Nucleotide
该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国HinxtonHall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。
这三个组织联合组成国际核苷酸序列数据库协作体,每天交换各自数据库中的新增序列记录实现数据共享。
其中的序列数据也通过与基因组序列数据库(GSDB)合作获取;专利序列数据通过与美国专利与商标局、国际专利局合作获取。
Genome
即基因组数据库,提供了多种基因组、完全染色体、Contiged序列图谱以及一体化基因物理图谱。
Structure
即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据。
MMDB的数据从PDB(ProteinDataBank)获得。
NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D,可以很容易地从Entrez获得分子的分子结构间相互作用的图像。
Taxonomy
即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。
PopSet
包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。
PopSet既包含核酸序列数据又包含蛋白质序列数据。
Entrez
功能强大,在于它的大多数记录可相互链接,既可在同一数据库内链接,也可在数据库之间进行链接。
当运用BLAST软件比较某氨基酸或DNA序列与库中其他氨基酸或DNA序列差异即进行相似性检索时,则会涉及到蛋白质库或核苷酸库的库内链接。
库间链接发生在核苷酸数据库内的记录与PubMed库中已发表序列的引文间的链接,或蛋白质序列记录与核苷酸序列库中编码它的核苷酸序列间的链接。
NCBI数据库检索
NCBI数据库的检索方法很简单,在检索框中输入检索词,检索词间默认逻辑关系为AND,检索规则基本同PubMed。
可以通过下拉菜单选择记录的显示格式,通常选择GenBankReport格式或FASTAReport格式。
当选择GenBankReport格式后,屏幕显示较完整的基因记录,其内容包括:
基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、核酸编号(NID)、关键词(Keywords)、来源(Source)、组织分类(Organism)、参考文献(Reference)、著者(Author)、题目(Title)、期刊Journal)、Medline存取号(Medline)、序列特征(Features)、基因(Gene)、CDS(cDNA)、等位基因(Allele)对等的肽(Mat-Peptide)、计算碱基数(BaseCount)、原序列(Origin)。
而FASTAReport格式仅包括检出序列的简要特征描述。
OMIM
孟德尔遗传学(OMIM)数据库是人类基因和基因疾病的目录数据库。
该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。
主页如图3所示。
BLAST相似性检索
BLAST(BasicLocalAlignmentSearchTool)是用于序列相似性检索的一个重要数据库,是区分基因和基因特征的工具。
该软件能在15秒内完成整个DNA数据库的序列检索。
BLAST记录的相关度有明确的统计学解释,以便更容易地将相关记录与随机的数据库记录相区分。
在NCBI主页的左工具条中,点击BLAST图标,即进入BLAST主页。
BLAST主页提供了几种BLAST检索软件。
其中BLAST2.0是一种新的BLAST检索工具,它在原有基础上作了改进,运行速度更快,灵敏度更高,同时具有GappedBLAST和PSI-BLAST两种软件的新功能。
GappedBLAST允许在对准的序列中引入空位(碱基缺失或插入),引入空位(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。
这些空位对准的记分系统更能反映相关序列的类似程度。
PSI-BLAST的全称是Position-SpecificIteratedBALST,即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源的有效工具。
三.实验要求:
(1)以其中的一个信息中心网站为例,列举其中的主要资源(数据库、网上分析、生物计算、数据下载等)。
(2)能够解释给定序列或基因组数据的含义。
(3)检索文献的技巧和效率。
实验二序列多重比对及进化分析
一.实验目的:
1.学习序列比对工具BLAST以及ClustalW等的使用,能够对序列数据进行初步的分析。
2.掌握基于DNA序列和蛋白质序列构建系统进化树的常用方法和常用工具。
二.实验内容:
1.在GeneBank数据库中,检索10条轮状病毒(Homosapiens,Rotavirus)VP7基因的DNA序列,并使用CLUST