《生物信息学》课程期末报告.docx

资源描述

《生物信息学》课程期末报告.docx

《《生物信息学》课程期末报告.docx》由会员分享，可在线阅读，更多相关《《生物信息学》课程期末报告.docx（18页珍藏版）》请在冰豆网上搜索。

《生物信息学》课程期末报告.docx

《生物信息学》课程期末报告

兰州理工大学

《生物信息学》课程期末报告

姓名：

学号：

XXXXXXXX

班级：

一班

专业：

生物工程

2014年12月15日

1描述NCBI或ExPASy主页结构和主要内容

答：

首先，输入网址http:

//www.ncbi.nlm.nih.gov/，进入NCBI主页，其主页面如下图所示。

本文将从以下两个方面介绍NCBI：

AbouttheNCBI（关于NCBI）、Resources（资源）及部分常用数据库的简单介绍。

1.AbouttheNCBI（关于NCBI）

使用NCBI查找需要的信息之前，我们不妨先了解一下NCBI。

点击位于主页中央的“AbouttheNCBI”选项（即“WelcometoNCBI”下方），可以进入一个新页面如下图所示，其主要包含NCBIataGlance、DatabasesandTools、OutreachandEducation和News四部分内容。

NCBIataGlance（NCBI概览）为我们提供了以下五个方面的信息以便我们更好了解NCBI：

OurMission（任务）-知道NCBI是如何促进NIH完成“揭示新知识”的目标；ProgramsandActivities（项目和活动）-了解NCBI的基本研究项目和由他们发展和传播的软件及工具；OrganizationalStructure（建制）-清楚组成NCBI的各个分部及其功能；ResearchersatNCBI（NCBI的研究者）-了解NCBI的研究者所做的基础研究；ContactInformation（联系方式）-可以直接咨询的地方。

DatabasesandTools（数据库和工具）为我们汇总了NCBI中所有的资源，也即主页中点击“AllResourcrs”打开后的页面。

OutreachandEducation（宣传和教育）中提供各种教育资源，包括教程，习题集，在线工具，常见问题解答和文档，与Databases中的“NCBIEducationPage”指向同一页面。

News会更新有关NCBI的各种消息，部分内容会以时间顺序展示在主页的右下方的“NCBIAnnouncements（公告）”一栏中。

2.Resources（资源）

NCBI提供的各种资源可以说是组成NCBI的主体部分，访问者可以利用这些资源查询或获取所需要的有用的信息。

最简单的查询方式是在首页上方的查询栏里输入关键词，在左边下拉选项中选中合适的数据库，再点击“search”即可。

或者先进入合适的数据库和工具页面后再查询。

如何在主页上找到合适的资源？

方法有三种。

第一种是点击主页右边第二行的“ResourcesList（A-Z）”则进入站点地图，所有资源以字母排列顺序汇总于此，通过名称找到所需要的资源。

第二种是点击“AllResources”,这里是将所有资源分成Databases（数据库）、Downloads（下载）、Submissions（上传）、Tools（工具）等不同功能类型便于查找，如下图所示。

第三种方法中，资源根据内容不同被划分成十四类，即主页左边浅蓝色方框的后十四栏：

Chemicals&Bioassay（化学与生物测定）、Data&Software（数据及应用软件）、DNA&RNA（DNA和RNA）、Domains&Structures（结构域和三维结构）、Genes&Expression（基因和表达）、Genetics&Medicine（遗传学与医学）、Genomes&Maps（基因组和遗传图谱）、Homology（同源性）、Literature（文献）、Proteins（蛋白质）、SequenceAnalysis（序列分析）、Taxonomy（分类）、Training&Tutorials（培训教程）、Variation（变异）。

我们可以通过需要查询的内容不同在这十四个分类中更快地找到合适的资源。

而且每个分类下同样有Databases、Downloads、Submissions、Tools四种小类型。

另外，在右边还将展示该分类中常用的QuickLinks（快速链接），类似于主页中的PopularResources（热门资源）的作用，将使用频率较高的资源单独列出，减少繁琐的查找步骤，节约时间。

另外，值得一提的是，所有资源都会有附有“howto”或者各种“HelpManual”帮助我们学习使用NCBI来完成特定的任务，Training&Tutorials即是汇总了所有这类帮助的资源，甚至可以在这里找到视频教程。

3.部分常用数据库的简单介绍

GenBank：

一个有来自于70,000多种生物的核苷酸序列的数据库。

每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。

GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

访问GenBank通过EntrezNucleotides来查询。

用accessionnumber，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。

用BLAST来在GenBank和其他数据库中进行序列相似搜索。

用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。

另外一种选择是可以用FTP下载整个的GenBank和更新数据。

MMDB（分子模型数据库）：

一个关于三维生物分子结构的数据库，结构来自于X-ray晶体衍射和NMR色谱分析。

MMDB是来源于Brookhaven蛋白数据库（PDB）三维结构的一部分，排除了那些理论模型。

MMDB重新组织和验证了这些信息，从而保证在化学和大分子三维结构之间的交叉参考。

数据的说明书包括生物多聚体的空间结构，这个分子在化学上是如何组织的，以及联系两者的一套指针。

利用将化学，序列，和结构信息整合在一起，MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。

PubMed：

一个关于生物医药科学的检索系统，包括引用，摘要，和杂志的索引术语。

它包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。

PubMed包括MEDLINE和PREMEDLINE的完整内容。

它还包括一些被MEDLINE认为超出范围的文章和杂志，（这些文章或杂志）由于内容或在某一时期不在索引范围内。

因此PubMed是比MEDLINE的更大的集合。

Entrez：

对GenBank,EMBL,DDBJ,PIR-International,PRF,Swiss-Prot,andPDB数据库中的核酸和蛋白，包括了来自〉70000个物种的序列序列数据提供整合的访问，同时提供对3D蛋白结构，基因组图谱信息和PubMedMEDLINE的访问。

Entrez包含了对每个数据库记录的预先计算好的相似搜索，产生一个相关序列，结构，和MEDLINE记录的表。

Entrez可以用很广泛的文本方式来搜索，比如作者名字，杂志名字，基因或蛋白名字，物种，唯一的标号（如：

accessionnumber，序列ID，PubMedID，MEDLINEUID），和其他的术语，根据被搜索的数据库来确定。

使用新的Linkout服务，外部资源可以被链接到Entrez纪录。

BLAST：

一个NCBI开发的序列相似搜索程序，还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

2SearchthehumanpreproinsulinsequencefromtheNCBIdatabases.Describeyoursearchingprocessandresults.

答：

打开NCBI主页在“nucleotide”数据库中输入“preproinsulin”点击“search”，在右边分类中选择“homosapiens”缩小范围，共得到28个结果，如下图，并选择第1个打开。

点开第一条，可以在GenBank中得到一些基本信息如下图：

将数据库信息下载并用snapgene打开后可以更直观的对其序列进行分析，如下图：

同时，我们还可以获得其他很有价值的信息，比如下图显示的都是关于研究人类胰岛素的比较新的成果，但两者的所给出的DNA长度有显著差异。

然后找到它们（包括前面找到的第一条信息）能够翻译成preproinsulin的区域进行对比，部分结果如下图所示：

由此可见，它们这一段区域几乎是相同的，所以虽然信息来源不同，侧重点不同，因此不可避免的所展示的部分也有差别，可是核心序列仍然是一致的。

除此之外，我们还能在NCBI中找到关于人类preproinsulin的mRNA及蛋白质序列信息，如下图：

总结：

前胰岛素原在人胰腺β细胞内质网合成，含有信号肽（24AA）、A链（21AA）、C链（35AA）和B链（30AA）。

前胰岛素原在胰岛β细胞高尔基体中脱去信号肽，形成含86个氨基酸残基的胰岛素原，经蛋白酶将C链水解，A，B链由2个二硫键相连成为有生物活性的胰岛素（A链本身还有一个链内二硫键）。

3.将人，猪，牛，狗，鼠，羊，马，兔的前胰岛素原氨基酸序列制成进化树。

答：

在NCBI中找到人类的propreinsulin的蛋白质序列后，点击右边的“runblast”进行操作。

进入新页面后选择需要的物种序列进行下载，如下图：

下载后保存为FASTA格式或者TXT格式。

首先使用CLCDNAworkbench6.6软件进行建树，将每个序列输入并保存，然后右击选择先对比（要保存）再建树，如下图操作：

得到对比结果如下图：

得到NJ树如下图所示：

可以从CLCDNAworkbench建构的NJ树中看到，人类和灵长类哺乳动物（大猩猩、食蟹猴）的前胰岛素原的氨基酸序列极为相似。

但如果使用mega6.6同样构造NJ树，过程如下：

（先对比再建树）

系统进化树的测试方法Test of Phylogeny，通常要选择Bootstrap method，也可以选择不进行测试；重复次数No. of bootstrap Replications—通常设定500或1000，其中“test of phylogeny”即测试系统选择“Bootstrap method” 即自展值，是用来检验你所计算的进化树分支可信度的。

简单地讲就是把序列的位点都重排，重排后的序列再用相同的办法构树，如果原来树的分枝在重排后构的树中也出现了，就给这个分枝打上一分，如果没出现就给0分，这样经过你给定的repetitions次（至少1000次）重排构树打分后，每个分枝就都得出分值，计算机会给你换算成bootstrap值。

得到NJ树如下图：

用mega6.6尝试做MP树，但耗时较长，得到结果如下：

对于以上进化树节点的数值代表可信度，即那些数值bootstrap值，代表物种（属）之间的种属相似度，数值越大，亲缘关系越近，枝长代表遗传距离。

一般通过NJ构建进化树，并且进行Bootstrap分析所得到的结果已足够。

如果序列近缘，可以再使用MP构建进化树，进行比较。

使用两种方法得到的树，如果差别不大，并且Bootstrap总体较高，则得到的进化树较为可靠。

结论：

从三个进化树结果来看，与人类前胰岛素原蛋白质序列较相似，亲缘关系较近的是灵长类哺乳动物。

但bootstrap值有半数左右小于70，可信度并不非常高，且三个树相似度同样不非常高。

原因可能是建树的方法或者参数不合适，也可能是在blast过程中选择了同源性不高的序列进行对比建树。

更重要的是需要加深对进化树的理论知识的了解，才能把握构造进化树的方法。

4Searchingstructureofhumanpreproinsulinpositionof-s-s-。

答：

打开NCBI主页在“structure”中输入“preproinsulin”，得到四个结果，但都不符合所需的人类前胰岛素原结构。

因此以“insulinhuman”为关键词继续查找。

选择第12个“人类胰岛素的单斜晶体形式（Insulin,MonoclinicCrystalForm[Hormone]）”，打开页面如下：

从右上角可以获知该结构的基本信息，左边是参考文献。

点击图形右边的“viewstructure”可下载3D图形，如下图则分别是胰岛素六聚体和单体三维图：

还可以从右上角点击进入PDB数据库在线或者下载查看蛋白质的三维结构图：

结论：

A链第7个半胱氨酸（Cys）与B链第7个Cys，A链第20个Cys与B链第19个Cys中的巯基形成链间二硫键。

另外，A链的第6个Cys和A链第11个Cys的巯基形成链内的二硫键。

展开阅读全文