生物信息学实验报告.docx

上传人:b****2 文档编号:20766207 上传时间:2023-04-25 格式:DOCX 页数:32 大小:1.60MB
下载 相关 举报
生物信息学实验报告.docx_第1页
第1页 / 共32页
生物信息学实验报告.docx_第2页
第2页 / 共32页
生物信息学实验报告.docx_第3页
第3页 / 共32页
生物信息学实验报告.docx_第4页
第4页 / 共32页
生物信息学实验报告.docx_第5页
第5页 / 共32页
点击查看更多>>
下载资源
资源描述

生物信息学实验报告.docx

《生物信息学实验报告.docx》由会员分享,可在线阅读,更多相关《生物信息学实验报告.docx(32页珍藏版)》请在冰豆网上搜索。

生物信息学实验报告.docx

生物信息学实验报告

生物信息学实验报告

 

***************

学号:

___03*******____

**************

 

南京航空航天大学

2011年11月

 

实验一生物信息数据库的检索

一.实验目的:

1.了解生物信息学的各大门户网站以及其中的主要资源。

2.了解主要数据库的内容及结构,理解各数据库注释的含义。

3.以PubMed为例,学会文献数据库的基本查询检索方法。

二.实验内容:

(1)国际与国内的生物信息中心

国际NCBI、EBI、ExPASy,EMBL、SIB、TIGR以及国内CBI、BioSino网站的熟悉及内容的了解。

核酸序列数据库:

genbank/EMBL-bank/DDBJ

NCBI网址:

http:

//www.ncbi.nlm.nih.gov/

EBI网址:

http:

//www.ebi.ac.uk/

EMBL网址:

http:

//www.ebi.ac.uk/embl

蛋白质序列数据库:

SwissProt、ExPASy网址:

http:

//expasy.org/

Uniprot网址:

http:

//www.uniprot.org/

蛋白质结构数据库:

PDB网址:

http:

//www.rcsb.org/pdb/

(2)检索练习:

ThespikeproteinofSARS-CoronaVirus在NCBI中的核酸记录序列:

LOCUSCS2444393897bpDNAlinearPAT17-JUL-2006

DEFINITIONSequence3fromPatentWO2005118813.

ACCESSIONCS244439

VERSIONCS244439.1GI:

84659113

KEYWORDS.

SOURCESARScoronavirus

ORGANISMSARScoronavirus

Viruses;ssRNApositive-strandviruses,noDNAstage;Nidovirales;

Coronaviridae;Coronavirinae;Betacoronavirus.

REFERENCE1

AUTHORSAltmeyer,R.,Nal-Rogier,B.,Chan,C.,Kien,F.,Kam,Y.W.,Siu,Y.L.,

Tse,K.S.,Staropoli,I.andManuguerra,J.C.

TITLENucleicacids,polypeptides,methodsofexpression,andimmunogenic

compositionsassociatedwithsarscoronavirusspikeprotein

JOURNALPatent:

WO2005118813-A2315-DEC-2005;

INSTITUTPASTEUR(FR);HongKongPasteurResearchCentreLimited

(CN)

FEATURESLocation/Qualifiers

source1..3897

/organism="SARScoronavirus"

/mol_type="unassignedDNA"

/db_xref="taxon:

227859"

CDS44..3847

/note="unnamedproteinproduct"

/codon_start=1

/protein_id="CAJ56183.1"

/db_xref="GI:

84659114"

/translation="MFIFLLFLTLTSGSDLDRCTTFDDVQAPNYTQHTSSMRGVYYPDEIFRSDTLYLTQDLFLPFYSNVTGFHTINHTFGNPVIPFKDGIYFAATEKSNVVRGWVFGSTMNNKSQSVIIINNSTNVVIRACNFELCDNPFFAVSKPMGTQTHTMIFDNAFNCTFEYISDAFSLDVSEKSGNFKHLREFVFKNKDGFLYVYKGYQPIDVVRDLPSGFNTLKPIFKLPLGINITNFRAILTAFSPAQDIWGTSAAAYFVGYLKPTTFMLKYDENGTITDAVDCSQNPLAELKCSVKSFEIDKGIYQTSNFRVVPSGDVVRFPNITNLCPFGEVFNATKFPSVYAWERKKISNCVADYSVLYNSTFFSTFKCYGVSATKLNDLCFSNVYADSFVVKGDDVRQIAPGQTGVIADYNYKLPDDFMGCVLAWNTRNIDATSTGNYNYKYRYLRHGKLRPFERDISNVPFSPDGKPCTPPALNCYWPLNDYGFYTTTGIGYQPYRVVVLSFELLNAPATVCGPKLSTDLIKNQCVNFNFNGLTGTGVLTPSSKRFQPFQQFGRDVSDFTDSVRDPKTSEILDISPCSFGGVSVITPGTNASSEVAVLYQDVNCTDVSTAIHADQLTPAWRIYSTGNNVFQTQAGCLIGAEHVDTSYECDIPIGAGICASYHTVSLLRSTSQKSIVAYTMSLGADSSIAYSNNTIAIPTNFSISITTEVMPVSMAKTSVDCNMYICGDSTECANLLLQYGSFCTQLNRALSGIAAEQDRNTREVFAQVKQMYKTPTLKYFGGFNFSQILPDPLKPTKRSFIEDLLFNKVTLADAGFMKQYGECLGDINARDLICAQKFNGLTVLPPLLTDDMIAAYTAALVSGTATAGWTFGAGAALQIPFAMQMAYRFNGIGVTQNVLYENQKQIANQFNKAISQIQESLTTTSTALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHLMSFPQAAPHGVVFLHVTYVPSQERNFTTAPAICHEGKAYFPREGVFVFNGTSWFITQRNFFSPQIITTDNTFVSGNCDVVIGIINNTVYDPLQPELDSFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELGKYEQYIKWPWYVWLGFIAGLIAIVMVTILLCCMTSCCSCLKGACSCGSCCKFDEDDSEPVLKGVKLHYTGPGGDYKDDDDK"

ORIGIN

1ctatagggcgaattgggtaccgctagcggatccgcgcgccaccatgtttattttcctgct

61gtttctgactctgaccagcggcagtgacctggaccggtgcaccacttttgatgatgtgca

121ggctcctaattacactcagcatacttcctctatgaggggcgtgtactatcctgatgaaat

181ttttagatccgacactctgtatctgactcaggatctgtttctgccattctattctaatgt

241gacaggctttcatactattaatcatacctttggcaaccctgtgatcccttttaaggatgg

301catctattttgctgccacagagaagtccaatgtggtgcggggatgggtgttcggctctac

361catgaacaacaagtcccagtccgtgattattattaacaattctactaatgtggtgatccg

421agcctgtaactttgaactgtgtgacaacccattctttgctgtgtctaagcccatgggcac

481acagacacatactatgatcttcgataatgcctttaattgcactttcgagtacatctctga

541tgccttttccctggatgtgtccgaaaagtccggcaactttaagcacctgcgagagtttgt

601gtttaagaataaggatggctttctgtatgtgtataagggctatcagcctatcgacgtggt

661gcgcgatctgccttctggctttaacactctgaagcctatttttaagctgcctctgggcat

721taacattacaaattttcgggccattctgacagcctttagccctgctcaggacatttgggg

781cacctctgctgccgcctattttgtgggctatctgaagccaactacctttatgctgaagta

841tgatgaaaatggcacaatcacagatgctgtggattgttctcagaatccactggctgaact

901gaagtgctctgtgaagagctttgagattgacaagggaatctaccagacctctaatttccg

961cgtggtgccctctggagatgtggtgagattccctaatattacaaacctgtgtccttttgg

1021agaagtgtttaatgctactaagttcccttctgtgtatgcctgggagagaaagaagatttc

1081taattgtgtggctgattactctgtgctgtacaactccacattttttagcacctttaagtg

1141ctatggcgtgtctgccactaagctgaatgatctgtgcttctccaatgtgtatgccgattc

1201ttttgtggtgaagggagatgatgtgagacagatcgccccaggacagactggcgtgattgc

1261tgattacaattataagctgccagatgatttcatgggctgtgtgctggcttggaatactag

1321gaacattgatgctacttccactggcaattataattacaagtatcggtatctgagacatgg

1381caagctgaggccctttgagagagacatctctaacgtgcctttcagccctgatggcaagcc

1441ttgcaccccacctgctctgaattgttattggccactgaatgattatggcttttacaccac

1501tactggcattggctaccagccttacagagtggtggtgctgtcttttgaactgctgaatgc

1561ccctgccacagtgtgtggaccaaagctgtccactgacctgattaagaaccagtgtgtgaa

1621ctttaactttaatggactgactggcactggcgtgctgactccttctagcaagagatttca

1681gccatttcagcagtttggccgggatgtgtctgatttcactgattccgtgcgagatcctaa

1741gacatctgaaatcctggacatttccccttgctcttttggcggcgtgagcgtgattacacc

1801tggaacaaatgcttcctctgaagtggctgtgctgtatcaggatgtgaactgcactgatgt

1861gtctacagccatccatgccgatcagctgacaccagcttggcgcatctattctactggaaa

1921caatgtgttccagactcaggccggctgtctgatcggagctgagcatgtggacacttctta

1981tgagtgcgacattcctattggagctggcatttgtgctagttaccatacagtgtctctgct

2041gcggagtactagccagaagtctattgtggcttatactatgtctctgggcgctgatagttc

2101cattgcttactctaataacaccattgctatccctactaacttttccattagcattactac

2161agaagtgatgcctgtgtctatggctaagacctccgtggattgtaatatgtacatctgcgg

2221agattctaccgaatgtgctaatctgctgctgcagtatggcagcttttgcacacagctgaa

2281tcgggctctgtctggcattgctgctgaacaggatcgcaacacacgggaagtgttcgctca

2341agtgaagcagatgtataagaccccaactctgaagtattttggcggctttaatttttccca

2401gatcctgcctgaccctctgaagcccactaagcggtcttttattgaggacctgctgtttaa

2461caaagtgacactggctgatgctggctttatgaagcagtatggcgaatgcctgggcgatat

2521taatgctagagatctgatttgtgcccagaagttcaatggcctgacagtgctgcctcctct

2581gctgactgatgatatgattgctgcctacactgctgctctggtgtctggcactgccactgc

2641tggatggacatttggcgctggcgctgctctgcagatcccttttgctatgcagatggccta

2701tcggttcaatggcattggagtgacccagaatgtgctgtatgagaaccagaagcagattgc

2761caaccagtttaacaaggccattagtcagattcaggaatccctgacaacaacatccactgc

2821cctgggcaagctgcaggacgtggtgaaccagaatgctcaggccctgaacacactggtgaa

2881gcagctgagcagcaattttggcgccatttccagtgtgctgaatgatatcctgtcccgact

2941ggataaagtggaggccgaagtgcagattgacaggctgattacaggcagactgcagagcct

3001gcagacctatgtgacacagcagctgatcagggctgctgaaatcagggcttctgccaatct

3061ggctgctactaagatgtctgagtgtgtgctgggacagtccaagagagtggacttttgtgg

3121aaagggctaccacctgatgtccttcccacaggctgcccctcatggagtggtgttcctgca

3181tgtgacctatgtgccatcccaggagaggaacttcaccacagccccagccatttgtcatga

3241aggcaaggcctacttccctcgggaaggcgtgttcgtgtttaatggcacttcttggtttat

3301tacacagcggaacttctttagcccacagatcatcactacagacaatacatttgtgtccgg

3361aaattgtgatgtggtgattggcatcattaacaacacagtgtatgatcctctgcagcctga

3421gctggactccttcaaggaagagctggacaagtacttcaagaatcatacatccccagatgt

3481ggatctgggcgacatttccggcattaacgcttctgtggtgaacattcagaaggaaattga

3541ccgcctgaatgaagtggctaagaatctgaatgaatccctgattgacctgcaggaactggg

3601caagtatgagcagtatattaagtggccttggtatgtgtggctgggcttcattgctggact

3661gattgccatcgtgatggtgacaatcctgctgtgttgcatgacctcctgttgcagttgcct

3721gaagggcgcttgctcttgtggatcttgctgcaagtttgatgaggatgactctgagccagt

3781gctgaagggcgtgaagctgcattacacagggcccggcggcgactacaaggacgatgacga

3841caagtgatagatcgatgcatggatccgtttaaaccgagctccagctttgttccctta

ThespikeproteinofSARS-CoronaVirus在SWISS-PROT蛋白质序列:

ThespikeproteinofSARS-CoronaVirus在PDB蛋白质结构序列:

(3)文献信息的查找与管理

有效地使用NCBIPubMed提供的各种主要功能,查询并下载相关课题或研究方向的论文文摘与文献全文。

查询InfluenzaAViruses分子进化研究方向的文章。

(3)NCBI数据库简介:

Nucleotide  

该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国HinxtonHall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。

这三个组织联合组成国际核苷酸序列数据库协作体,每天交换各自数据库中的新增序列记录实现数据共享。

其中的序列数据也通过与基因组序列数据库(GSDB)合作获取;专利序列数据通过与美国专利与商标局、国际专利局合作获取。

Genome

  即基因组数据库,提供了多种基因组、完全染色体、Contiged序列图谱以及一体化基因物理图谱。

Structure

  即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据。

MMDB的数据从PDB(ProteinDataBank)获得。

NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D,可以很容易地从Entrez获得分子的分子结构间相互作用的图像。

Taxonomy

  即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。

PopSet

  包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。

PopSet既包含核酸序列数据又包含蛋白质序列数据。

Entrez

功能强大,在于它的大多数记录可相互链接,既可在同一数据库内链接,也可在数据库之间进行链接。

当运用BLAST软件比较某氨基酸或DNA序列与库中其他氨基酸或DNA序列差异即进行相似性检索时,则会涉及到蛋白质库或核苷酸库的库内链接。

库间链接发生在核苷酸数据库内的记录与PubMed库中已发表序列的引文间的链接,或蛋白质序列记录与核苷酸序列库中编码它的核苷酸序列间的链接。

NCBI数据库检索

NCBI数据库的检索方法很简单,在检索框中输入检索词,检索词间默认逻辑关系为AND,检索规则基本同PubMed。

可以通过下拉菜单选择记录的显示格式,通常选择GenBankReport格式或FASTAReport格式。

当选择GenBankReport格式后,屏幕显示较完整的基因记录,其内容包括:

基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、核酸编号(NID)、关键词(Keywords)、来源(Source)、组织分类(Organism)、参考文献(Reference)、著者(Author)、题目(Title)、期刊Journal)、Medline存取号(Medline)、序列特征(Features)、基因(Gene)、CDS(cDNA)、等位基因(Allele)对等的肽(Mat-Peptide)、计算碱基数(BaseCount)、原序列(Origin)。

而FASTAReport格式仅包括检出序列的简要特征描述。

OMIM

  孟德尔遗传学(OMIM)数据库是人类基因和基因疾病的目录数据库。

该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。

主页如图3所示。

BLAST相似性检索

  BLAST(BasicLocalAlignmentSearchTool)是用于序列相似性检索的一个重要数据库,是区分基因和基因特征的工具。

该软件能在15秒内完成整个DNA数据库的序列检索。

BLAST记录的相关度有明确的统计学解释,以便更容易地将相关记录与随机的数据库记录相区分。

在NCBI主页的左工具条中,点击BLAST图标,即进入BLAST主页。

BLAST主页提供了几种BLAST检索软件。

其中BLAST2.0是一种新的BLAST检索工具,它在原有基础上作了改进,运行速度更快,灵敏度更高,同时具有GappedBLAST和PSI-BLAST两种软件的新功能。

GappedBLAST允许在对准的序列中引入空位(碱基缺失或插入),引入空位(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。

这些空位对准的记分系统更能反映相关序列的类似程度。

PSI-BLAST的全称是Position-SpecificIteratedBALST,即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源的有效工具。

三.实验要求:

(1)以其中的一个信息中心网站为例,列举其中的主要资源(数据库、网上分析、生物计算、数据下载等)。

(2)能够解释给定序列或基因组数据的含义。

(3)检索文献的技巧和效率。

实验二序列多重比对及进化分析

一.实验目的:

1.学习序列比对工具BLAST以及ClustalW等的使用,能够对序列数据进行初步的分析。

2.掌握基于DNA序列和蛋白质序列构建系统进化树的常用方法和常用工具。

二.实验内容:

1.在GeneBank数据库中,检索10条轮状病毒(Homosapiens,Rotavirus)VP7基因的DNA序列,并使用CLUST

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 电力水利

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1