dbSNP数据库PPT文档格式.ppt

上传人:b****2 文档编号:15553759 上传时间:2022-11-04 格式:PPT 页数:39 大小:2.75MB
下载 相关 举报
dbSNP数据库PPT文档格式.ppt_第1页
第1页 / 共39页
dbSNP数据库PPT文档格式.ppt_第2页
第2页 / 共39页
dbSNP数据库PPT文档格式.ppt_第3页
第3页 / 共39页
dbSNP数据库PPT文档格式.ppt_第4页
第4页 / 共39页
dbSNP数据库PPT文档格式.ppt_第5页
第5页 / 共39页
点击查看更多>>
下载资源
资源描述

dbSNP数据库PPT文档格式.ppt

《dbSNP数据库PPT文档格式.ppt》由会员分享,可在线阅读,更多相关《dbSNP数据库PPT文档格式.ppt(39页珍藏版)》请在冰豆网上搜索。

dbSNP数据库PPT文档格式.ppt

)。

n2001年二月,美、英等国宣布完成了人类基因体定序及分析初稿,这项划时代的创举将人类基因体科技带入新的境界,也连带开启了分子生物学、蛋白质体学、药物基因体学等新研究趋向。

人类基因译码初稿的完成,象征着人类基因体解读计划的第一阶段已告一段落。

但接下来对于基因定序数据的检测与分析,以及运用这份草图来寻找个体间基因序列差异性个体间基因序列差异性的任务,才刚刚开始。

n了解个体间基因序列差异性的研究,不但对族群遗传学、演化学的研究相当重要,在利用连锁不平衡(LinkageDisequilibrium)进行复杂性遗传疾病(multiplegenesdiseases)的相关性研究上也扮演重要的角色。

SNP概念及其类型概念及其类型nnSNPSNP,念法为snIp,是SingleNucleotidePolymorphism的英文简称,其中文译为“单一核苷酸多型性”,意思是“DNA序列中的单一碱基对(basepair)变异”,也就是DNA序列中A、T、C、G的改变,即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性,它是人类可遗传的变异中最常见的一种。

占所有已知多态性的90%以上。

SNP在人类基因组中广泛存在,平均每5001000个碱基对中就有1个,估计其总数可达300万个甚至更多。

目前科学界已发现了约400万个SNPs。

nnSNPSNP所表现的多态性只涉及到所表现的多态性只涉及到单个碱基单个碱基单个碱基单个碱基的变异,这种变异的变异,这种变异可由单个碱基的可由单个碱基的转换转换转换转换(transitiontransition)或)或颠换颠换颠换颠换(transversiontransversion)所引起,也可由碱基的)所引起,也可由碱基的插入插入插入插入或或缺失缺失缺失缺失所致。

所致。

但通常所说的但通常所说的SNPSNP并不包括后两种情况。

并不包括后两种情况。

DNA分子示意图DNA变异类型部分密码子:

UAU酪氨酸,UCU丝氨酸,UAC酪氨酸,UUG亮氨酸,UGC半胱氨酸,UUU苯丙氨酸,AUG甲硫氨酸编码连编码连基因示意图基因的表达过程一一对应一一对应基因表达一一对应基因的表达碱基的碱基的互补配互补配对原则对原则nT-AnA-UnC-G保证了保证了遗传信遗传信息准确息准确无误地无误地表达。

表达。

模板链模板链(无义链(无义链)非模板链非模板链(有义链(有义链或编码连)或编码连)密码子密码子表dbSNP简介简介nndbSNPdbSNP:

databaseofSNPdatabaseofSNP(WikipediaWikipedia:

TheTheSingleNucleotidePolymorphismSingleNucleotidePolymorphismDatabaseDatabase)nn单核苷酸多态性数据库单核苷酸多态性数据库dbSNPdbSNP(http:

/www3.ncbi.nlm.nih.gov/SNhttp:

/www3.ncbi.nlm.nih.gov/SNP/)P/)是由是由NCBINCBI与人类基因组研究所(与人类基因组研究所(NationalNationalHumanGenomeResearchInstituteHumanGenomeResearchInstitute)合作建)合作建立的,它是关于单碱基替换以及短插入、删除多立的,它是关于单碱基替换以及短插入、删除多态性的资源库。

态性的资源库。

n因为开发dbSNP是为了补充和辅助GenBank,所以它包含了来自任何生物体的核苷酸序列。

ndbSNP接收来自公共实验室和私人组织的提交。

dbSNP简介n每个提交至少包括以下10个主要数据元素:

侧翼序列上下文DNA或cDNA、等位基因、方法、种群、样本大小、特定种群的等位基因频率、特定种群的基因型频率、特定种群的杂合度估计、个体基因型、验证信息。

dbSNP最新版本公告:

可以通过不同的组件获取想要的信息dbSNP的数据库结构nn完整的数据以完整的数据以多种格式多种格式多种格式多种格式存于存于ftpftp站点:

站点:

ftp:

/ftp.ncbi.nih.gov/snp/ftp:

/ftp.ncbi.nih.gov/snp/nn数据库结构:

自版本数据库结构:

自版本125125起,起,dbSNPdbSNP的设计改为的设计改为“中心和辐条中心和辐条中心和辐条中心和辐条”模型模型模型模型,其中,其中dbSNP_maindbSNP_main表格为表格为车轮的中心,其存储着数据库的主要表格,而车车轮的中心,其存储着数据库的主要表格,而车轮的辐条是具体生物体的数据库,其包含着具体轮的辐条是具体生物体的数据库,其包含着具体生物体的最新数据。

生物体的最新数据。

nndbSNPdbSNP使用标准的使用标准的SQLSQLDDLDDL(Data(DataDefinitionDefinitionLanguage)Language)为表格和索引创建模式表(为表格和索引创建模式表(schemaschematablestables)、视图。

)、视图。

FTPFTP数据库目录数据库目录(ftp:

/(ftp:

/ftp.ncbi.nih.gov/snp/databaseftp.ncbi.nih.gov/snp/database/)/)包含包含模式(模式(schemaschema)、数据、创建表格和索引的)、数据、创建表格和索引的SQLSQL语句。

语句。

dbSNP的数据库结构nnshared_schemashared_schema(ftp:

/ftp.ncbi.nih.gov/snp/database/shared_schemaftp.ncbi.nih.gov/snp/database/shared_schema/)/)子目录包含子目录包含dbSNP_maindbSNP_main中中表格的模式表格的模式DDL(SQLDataDefinitionLanguage)。

nnshared_datashared_data(ftp:

/ftp.ncbi.nih.gov/snp/database/shared_dataftp.ncbi.nih.gov/snp/database/shared_data/)/)子目子目录包含所有生物体录包含所有生物体共享的共享的dbSNP_main的数据。

的数据。

nnorganism_schemaorganism_schema(ftp:

/ftp.ncbi.nih.gov/snp/database/organism_schemaftp.ncbi.nih.gov/snp/database/organism_schema/)/)子目录包含每子目录包含每种生物体具体数据库的种生物体具体数据库的模式模式DDLDDL的链接的链接。

nn主表格的表主表格的表索引索引索引索引提供于位于提供于位于shared_schemashared_schema子目录中的子目录中的dbSNP_main_index_constraint.sql.gzdbSNP_main_index_constraint.sql.gz和和dbSNP_main_foreign_key.sql.gzdbSNP_main_foreign_key.sql.gz文件。

文件。

nn每种生物体具体数据库的每种生物体具体数据库的表索引表索引表索引表索引位于位于organism_schemaorganism_schema子目录中的子目录中的organism_taxID_constraint.sql.gzorganism_taxID_constraint.sql.gz和和organism_taxID_index.sql.gzorganism_taxID_index.sql.gz文件。

nn包含表格和列描述的包含表格和列描述的数据字典数据字典位于位于http:

/http:

/www.ncbi.nlm.nih.gov/SNP/snp_db_list_table.cgiwww.ncbi.nlm.nih.gov/SNP/snp_db_list_table.cgi。

nnSNPSNP的模式的模式实体联系图实体联系图位于位于ftp:

/ftp.ncbi.nih.gov/snp/database/b124/ftp:

/ftp.ncbi.nih.gov/snp/database/b124/mssqlmssql/schema/erd_dbS/schema/erd_dbSNP.pdfNP.pdf。

创建dbSNP本地拷贝的资源需求n软件需求:

软件需求:

nn关系数据库软件关系数据库软件,如,如Sybase,MicrosoftSQLserver,Sybase,MicrosoftSQLserver,或或OracleOracle。

NCBI的的dbSNP运行于运行于MSSQLserverversion2000。

nn数据加载工具数据加载工具:

将:

将dbSNPFTPdbSNPFTP站点数据加载到一个数据库需要批量站点数据加载到一个数据库需要批量数据加载工具,如伴随数据加载工具,如伴随SybaseSybase的的bcpbcp(bulk-copy)(bulk-copy)实用程序或实用程序或MSSQLserverMSSQLserver的的“bulkinsertbulkinsert”命令。

命令。

nn解压解压ftpftp文件的文件的winzip/gzipwinzip/gzip压缩软件压缩软件。

n硬件需求:

硬件需求:

计算机平台计算机平台/OS/OS、磁盘空间(、磁盘空间(500GB500GB)、内存()、内存(4G4G)、)、InternetInternet连接连接。

nn创建创建dbSNPdbSNP本地拷贝的具体步骤本地拷贝的具体步骤见:

见:

http:

/www.ncbi.nlm.nih.gov/books/NBK2http:

/www.ncbi.nlm.nih.gov/books/NBK21088/1088/dbSNP所用的数据库dbSNP目录结构dbSNP目录结构nndbSNPdbSNP包含了包含了许多目录,其中最有用的是:

包含了包含了许多目录,其中最有用的是:

organisms/、database/、specs/nnFTPFTP的的“organisms/”目录包含了一列有目录包含了一列有SNPSNP数据的生物体数据的生物体目录,其按通用名目录,其按通用名后接后接NCBINCBI分类分类idid号号来组织的。

来组织的。

点击特定的生物体子点击特定的生物体子目录即可访问其中的目录即可访问其中的ftpftp报表文件。

报表文件。

dbSNP目录结构nn比如你点击了比如你点击了human_9606human_9606目录,那么你会发现人体组织子目录包目录,那么你会发现人体组织子目录包含以下子目录:

含以下子目录:

nnASN1_bin/ASN1_bin/nnASN1_flat/ASN1_flat/nnXML/XML/nnVCF/VCF/nnchr_rptschr_rpts/nngene_reportgene_report/nnGenome_reportGenome_report/nnrs_fastars_fasta/nnss_fastass_fasta/n

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 城乡园林规划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1