Haploview使用方法图解StepByStep.docx

资源描述

Haploview使用方法图解StepByStep.docx

《Haploview使用方法图解StepByStep.docx》由会员分享，可在线阅读，更多相关《Haploview使用方法图解StepByStep.docx（17页珍藏版）》请在冰豆网上搜索。

Haploview使用方法图解StepByStep.docx

Haploview使用方法图解StepByStep

用搜狗浏览器下载下来的文件打不开，必须换IE浏览器打开网页再下载数据！

我觉得Haploview最好的课件就是在他的官网，里面有一个“UserManual”：

实验三、BrowsersandToolsforGeneticVariantsAnalysis　　4学时　基础性

主要内容：

HapMapGenericGenomeBrowser,NCBIdbSNPs,Haploview

教学要求：

了解三者的主要内容，及主要功能。

HapMapphaseI，phaseII是全面的有关人类遗传变异数据库，NCBIdbSNP存储了所有的人类SNP数据，Haploview是通用的LD分析软件。

理解dbSNP所存储的所有人类SNP数据，质量并不是都很可靠的，因此dbSNP为每一个SNP专门设置了“ValidationStatus”信息。

掌握从HapMap和dbSNP中获取一段染色体片断相关的遗传变异信息。

重点：

掌握从HapMap和dbSNP中获取一段染色体片断相关的遗传变异信息。

难点：

如何使用Haploview工具进行LD分析。

其它教学环节：

实验课刚开始，授课老师结合ppt，以人类BRCA2基因为例，讲授本次实验课的主要内容，并布置本次实验作业。

在实验过程中，授课老师提议同一个小组的学生一起讨论，有问题向授课老师或助教提问。

同时，学生可以在论坛中（专门为生物信息学试验课设计的）发表自己的见解、交流学习心得。

Haploview是一个进行单倍型分析的一个软件，该软件具有如下功能：

1.连锁不平衡与单倍型分析

2.单倍型人群频率估算

与单倍型关系分析

4.相互关系的排列测验

5.可以从HapMap上直接下载基因型信息

网址：

下载：

Windows版：

Mac/Unix/Linux（安装：

java-jar）JAVA下载在安装该软件之前，必须先安装一个“JAVA”，Haploview必须在JAVA环境下才能运行。

首先要选择要分析数据的类型，包括Linkageformat、Hapsformat、Hapmapformat、Phaseformat等。

我们主要选Hapmapformat这种类型。

这种类型的数据可以直接从Hapmap网站中直接下载。

1，进入Hapmap网站。

依次：

Data/GenericGenomeBrowser（数据/通用基因组浏览器）。

输入要查询的基因名称，如xrcc1，在右面选择“显示SNPgenotypedata”,点击配置

根据需要选择CHB（中国汉族人群）。

Outputformat（打开格式）选择OpendirectlyinHaploView（输出后的文件可直接导入Haploview软件）。

点击“执行”，将文件保存到指定位置比如桌面。

打开haploview软件，选择Hapmapformat，点击browse，选择刚刚下载下来的文件。

左边的LDPlot表示该基因所以snp的的连锁情况，各个方块的颜色由浅至深（白——红），表示连锁程度由低到高，深红色表示完全连锁。

在方块上点击右键，可以看到连锁的具体信息。

点击“tagger”，可以进一步选择标签snp。

r2指的是两个位点间的统计学关联。

一般认为两点间的r2大于或等于，就可以用一个点代表另外一个点。

点击“RunTagger”,即可出现符合条件的taggersnp（标签snp）。

----------------------------

Hapmap网站简介：

国际人类基因组单体型图计划（简称HapMap计划）是由加拿大、中国、日本、尼日利亚、英国和美国共同资助和合作进行的项目，旨在建立一个将帮助研究者发现人类疾病及其对药物反应的相关基因的公众资源。

Haploview can be cited with the following paper:

Barrett JC, Fry B, Maller J, Daly MJ. Haploview:

analysis and visualization of LD and haplotype maps. Bioinformatics. 2005 Jan 15 [PubMed ID:

]

Information about the exact test for HW can be found in the following paper:

Wigginton JE, Cutler DJ, Abecasis GR. A note on exact tests of Hardy-Weinberg equilibrium. Am J Hum Genet. 2005 May;76（5）:

887-93.

Information about parenTDT can be found in the following paper:

Purcell S, Sham P, Daly MJ. Parental phenotypes in family-based association analysis. Am J Hum Genet. 2005 Feb;76

（2）:

249-59.

Visualization and analysis of SNP genotype data.

Barrett JC.

Cold Spring Harb Protoc. 2009 Oct;2009（10）:

PMID:

[PubMed - indexed for MEDLINE]

Related citations

analysis and visualization of LD and haplotype maps.

Barrett JC, Fry B, Maller J, Daly MJ.

Bioinformatics. 2005 Jan 15;21

（2）:

263-5. Epub 2004 Aug 5.

bioinfotech 16:

40:

Haploview:

Visualization and analysis of SNP genotype data.

Barrett JC.

Cold Spring Harb Protoc. 2009 Oct;2009（10）:

bioinfotech 16:

51:

01:

我现在在mayoclinic做postdoc，主要做药物遗传学的。

对SNP和Affymetrix和illumina的Chips有些了解（我们实验室有几百万美元的mRNAChips），鉴于这一领域内容比较新，国内做的较少，所以愿意跟大家探讨，分享我的一些想法和体会。

title有些夸大，主要是为了吸引更多的人进来。

当然也可以给我的信箱留言：

。

HapMap介绍

HapMap是国际上针对人类基因组的又一重大合作项目.

该计划的目标为：

determinethecommonpatternsofDNAsequencevariationandfindTagSNPsrepresentingallSNPsinthehumangenome.构建人类DNA序列中多态位点的常见模式，找出代表整个人类基因图谱之中的SNP集合的标签

SNP。

ThegoaloftheInternationalHapMapProjectistodeterminethecommonpatternsofDNAsequencevariationinthehumangenomeandtomakethisinformationfreelyavailableinthepublicdomain.

HapMap的工作内容：

Aninternationalconsortiumisdevelopingamapofthesepatternsacrossthegenomebydeterminingthegenotypesofonemillionormoresequencevariants,theirfrequenciesandthedegreeofassociationbetweenthem,inDNAsamplesfrompopulationswithancestryfrompartsofAfrica,AsiaandEurope.

HapMap完成后的意义：

TheHapMapwillallowthediscoveryofsequencevariantsthataffectcommondisease,willfacilitatedevelopmentofdiagnostictools,andwillenhanceourabilitytochoosetargetsfortherapeutic、发现常见疾病的序列变异2、为研究者提供方便的诊断工具3、增强我们进行治疗时选择治疗目标的能力。

官方网站为：

在看文这篇文章以后将对HapMap这个网站的内容进行详细的分析。

Non-synonymoussinglepolymorphisms（nsSNP）

Haploview使用方法图解StepByStep

Haploview是一个进行单倍型分析的一个软件，该软件具有如下功能：

1.连锁不平衡与单倍型分析

2.单倍型人群频率估算

与单倍型关系分析

4.相互关系的排列测验

5.可以从HapMap上直接下载基因型信息

该软件网址

用户可以点击左面的"download"下载该软件

（配置SNPgenotypedata上的下拉框，现在没有RS号了啊，只有fwd和rev.

我选fwd或rev下载后，用你说的方法导入Haploview，但是显示出错。

是为什么？

是不是下载的rs号的文件和fwd的文件不一样）

在方块上点击右键，可以看到连锁的具体信息。

点击“tagger”，可以进一步选择标签snp。

r2指的是两个位点间的统计学关联。

一般认为两点间的r2大于或等于，就可以用一个点代表另外一个点。

在安装该软件之前，必须先安装一个“JAVA”,Haploview必须在JAVA环境下才能运行.JAVA”和Haploview均可在该网站免费下载，安装好的界面如下：

首先要选择要分析数据的类型，包括Linkageformat、Hapsformat、Hapmapformat、Phaseformat等。

我们主要选Hapmapformat这种类型。

这种类型的数据可以直接从Hapmap网站中直接下载。

输入要查询的基因名称，如xrcc1，在右面选择“显示SNPgenotypedata”,配置。

选择CHB（中国汉族人群）

Outputformat（打开格式）选择OpendirectlyinHaploView

图片:

点击“执行”，将文件保存到指定位置比如桌面。

打开haploview，选择Hapmapformat，点击browse，选择刚刚下载下来的文件。

左边的LDPlot表示该基因所以snp的的连锁情况，各个方块的颜色由浅至深（白——红），表示连锁程度由低到高，深红色表示完全连锁。

在方块上点击右键，可以看到连锁的具体信息。

点击“tagger”，可以进一步选择标签snp。

r2指的是两个位点间的统计学关联。

一般认为两点间的r2大于或等于，就可以用一个点代表另外一个点。

点击“RunTagger”,即可出现符合条件的taggersnp（标签snp）。

（完）

按这个方法在不同时期从Hapmap网站中下载过两个Hapmapformat类型的分析数据，最后显示的tagSNP的结果不一致，是数据库更新的原因吗，

TagSNP选择，根据你指定的标准，无论你使用软件还是直接在Hapmap网站直接操作，都是随机产生组合，所以每一次操作结果可能不同，但都是代表整个基因的SNP。

这就像，比如一共有3种水果：

苹果、香蕉、西瓜用来代表所有的水果，规定是你选择2个既可以代表所有水果，那么就可以有3中组合。

以此类推！

国际人类基因组单体型图计划的目标是构建人类DNA序列中多态位点的常见模式，即单体型图，简称HapMap。

HapMap将成为研究人员确定对人类健康和疾病以及对药物和环境的反应有影响的相关基因的关键信息。

这一项目所产生的一切数据将供免费使用。

HapMap计划将由日本、英国、加拿大、中国、尼日利亚和美国的科学家们合作完成【见参加机构】。

项目正式开始于2002年10月27-29日的HapMap计划第一次会议（），预计进行3年。

人类单倍体型图计划-遗传多态性和单体型图的用途

大多数常见的疾病，如糖尿病、癌症、中风、心脏病、抑郁症、哮喘等，受众多基因以及环境因子共同作用。

尽管任意两个不相关的人的DNA序列有%是一致的，剩下的那%由于包含了遗传上的差异因素而非常重要。

这些差异造成人们罹患疾病的不同风险和对药物的不同反应。

发现这些与常见疾病相关的DNA序列上的多态位点，是了解引起人类疾病的复杂原因的最重要途径之一。

在基因组中，不同个体的DNA序列上的单个碱基的差异被称作单核苷酸多态性（SNPs）。

例如，某些人的染色体上某个位置的碱基是A，而另一些人的染色体的相同位置上的碱基则是G。

同一位置上的每个碱基类型叫做一个等位位点。

除性染色体外，每个人体内的染色体都有两份。

一个人所拥有的一对等位位点的类型被称作基因型（genotype）。

对上述SNP位点而言，一个人的基因型有三种可能性，分别是AA，AG或GG（请参考了解基本的遗传学知识）。

基因型这一名称即可以指个体的某个SNP的等位位点，也可以指基因组中很多SNPs的等位位点。

检定一个人的基因型，被称作基因分型（genotyping）。

人类的所有群体中大约存在一千万个SNP位点，其中稀有的SNP位点的频率至少有1%。

相邻SNPs的等位位点倾向于以一个整体遗传给后代。

位于染色体上某一区域的一组相关联的SNP等位位点被称作单体型（haplotype）。

大多数染色体区域只有少数几个常见的单体型（每个具有至少5%的频率），它们代表了一个群体中人与人之间的大部分多态性。

一个染色体区域可以有很多SNP位点，但是只用少数几个标签SNPs，就能够提供该区域内大多数的遗传多态模式。

单体型图将描述人类常见的遗传多态模式。

它包括染色体上具有成组紧密关联SNPs的区域，这些区域中的单体型，以及这些单体型的标签SNPs。

同时，单体型图还将标示出那些SNP位点关联不紧密的区域。

研究者一般通过比较患者和非患者来发现影响某种疾病例如糖尿病的基因。

在两组单体型频率不同的染色体区域，就有可能包含疾病相关基因。

理论上，研究者通过对全部一千万个SNP位点都进行基因分型，也能够寻找到这样的区域。

但是，目前用这种方法进行检定的成本是过于昂贵。

通过单体型图计划将鉴定出20~100万个标签SNP位点，从而提供与一千万个SNP位点大致相同的图谱信息。

这样将大幅度地减少成本使研究易于进行。

人类单倍体型图计划-人群和样品

大多数常见的单体型存在于所有的人类群体中，但它们在不同人群中频率不同。

因此，为了选择标签SNPs，有必要获得几个人群的数据。

先期的研究发现，单体型频率在尼日利亚（Yoruba）、日本、中国和美国（1980年由Centred'EtudeduPolymorphismeHumain【CEPH】采集并曾用于其它人类遗传图谱研究的北欧和西欧后裔的样品）人群样本中有着显著的差异。

这些差异性保证了通过对这些人群进行大规模的单体型分析的合理性，因而自上述人群的绘制的单体型图应当对世界上所有的人群有益。

然而，增加其他人群会获得多少更多信息将通过一项检查其他样品的若干染色体区域的单体型的平行研究做出确切回答。

用于构建单体型图计划的DNA样品共有270份，分别来自90个尼日利亚Ibadan的Yoruba人（30个父母加一个后代组成的三体家系），45个东京的日本人（无关个体），45个北京的汉族（无关个体），和90份CEPH样品（30个三体家系）。

样品的数目能使通过单体型图计划发现几乎全部频率大于5%的单体型。

在经过恰当的社群参与（communityengagement）或公众咨询以及个人的知情同意后，本项目所有新样品的采集程序都获得了相应的伦理委员会的批准。

设计社群参与的目的则是为了对具有不同文化背景的取样社群产生的对知情同意和样本采集程序的特殊疑问有所理解和反馈。

CEPH样品是从非盈利的Coriell医学研究所获得（）。

2004年，经相应的伦理委员会批准后，Coriell将为进一步的研究提供其他血样的DNA或细胞系。

样品中只有人群和性别的标识而没有医学或个体的可辨别信息。

每一个采集新样品的社群将成立一个咨询委员会，以保持同Coriell的联络并确保这些样品将来的使用与知情同意书上的条款是一致的。

伦理学问题：

这一项目包含若干伦理学问题。

因为所研究的样本并不包含捐献者的个人标识，所以泄漏个人信息的风险很小。

不过，为了以后研究者能够针对所研究人群选择最佳的标签SNPs，每一个样本将按人群标记。

标签SNPs的选择将以单体型频率为基础。

如果基因组中某些特定区域的单体型在不同的人群中有显著不同的频率，那么这些区域的标签SNPs也可能因人群而异。

所以，每个人群的SNP和单体型频率将被计算和用于比较研究。

在这种情况下，如果在一个人群中发现了一个高频的疾病相关的变异位点，而且与此位点相关的疾病风险在该人群中高于所有或大多数其他人群，就有可能产生对这个群体的诬蔑和歧视。

本研究另一个潜在的顾虑是人群的含义来自祖先的居住地域，这可能导致“种族”的划分，而这种更多具有社会含义的划分常被错误地以为是有准确的生物学含义的。

项目将通过社群参与来了解目标人群对这些问题的看法或疑问。

科学策略

为了构建单体型图，要对样本的至少100万SNPs进行全基因组规模的基因分型检测。

在本研究计划起步时，dbSNP公共数据库中共有280万个SNPs。

然而，很多染色体区域的SNPs太少，另有很多SNPs则因为频率太低而无法使用。

所以，构建单体型图还需要数百万更多的SNP位点。

截止到2003年9月，本项目又发现的280万SNPs。

现在这项工作仍在继续进行。

整个SNP分型工作将由加拿大、中国、日本、英国和美国的10个研究中心进行。

每个中心将针对所承担的染色体对所有的研究样本进行基因分型检定。

这些中心共采用了5种检定分型技术。

项目的初期目标（至2004年6月左右）是构建出一个约由60万个在人类基因组中均匀分布的SNPs构成的图谱，其SNP密度约为每5000个碱基一个位点。

然后将针对需要定义单体型边界的区域进行更多的SNP位点的检定。

分型结果的质量将通过重复样本、所有中心对一组同样SNPs进行检测、以及对一定数量的已检定结果进行不同中心的互相检测来保证。

数据分析

此项研究的基本数据是各人群共计270个样品的SNP等位位点的频率和基因型。

为了构建单体型和选择标签SNP位点，本研究将采用标准的SNP连锁分析如D'和r2，同时发展新的分析方法。

因为本研究的所有数据将免费共享，其他研究者也可以用另外的手段来分析数据或是改进分析方法。

本研究产生的数据将显示常见的人类基因组遗传的多态模式，包括个体间遗传多态位点的数量，人群间具有不同单体型频率的区域和不同染色体区域SNPs的连锁范围。

获得数据和知识产权政策

HapMap项目将向公众公布所有的实验数据，以让任何研究者利用这些信息。

新的SNP位点、SNP基因分型实验设计、SNP检定结果和频率，以及构建的单体型一经产生，将很快发布。

当对染色体区域进行了足够的SNP分型来确定紧密连锁的区域时，这些区域的单体型、个体的基因型和标签SNPs将无条件地公开发布。

然而，对那些还没有足够分型密度数据的区域，要获得个体的基因分型结果，就要遵守数据访问政策。

这项政策只有很小的约束，既使用者必须同意不能使其他人访问这些数据有所减少，同时只能与也同意这个政策的人士共享这些数据。

这个暂时性的政策的唯一目的就是为了保证项目的所有数据能被公众所享有。

项目完成时，任何还未发布的数据都将公开。

本研究项目不包含将遗传多态性落实到表现型的有特殊利用价值的研究，如疾病易感或对药物的反应。

项目的参加者认为将还未有产生特殊用途的SNP位点、基因型或单体型用于专利发明是不适当的。

只要使用者不影响其他人获得本研究的数据，数据访问政策不阻止使用者对他们已经显示有特殊利用价值的SNP位点或单体型图申请专利。

在数据公布以前，项目参加者不会将本项目的数据用于自己实验室的其它研究。

内部数据访问政策

在数据发布至dbSNP数据库（如SNP位点、SNP检测设计、等位位点及其频率）或数据协调中心的基因型数据库（如个体的基因型和单体型）之前，国际“人类基因组单体型图计划”的参加者不能将本项目的数据用于自己实验室的其它研究项目（包括他们自己产生的数据）。

国际“人类基因组单体型图计划”的参加者使用与其他使用者一样的数据访问政策。

对于基因型和单体型数据来讲，也使用公众数据访问政策的协议。

所有参加者已经确认他们接受与其他使用者一样的许可协议。

如果没有确认的用途／功能（即与表现型相关），项目参加者不能对本研究产生的SNP位点或单体型申请专利。

参加者如果有功能证据或其他已确认的用途，可以对与疾病或功能相关的SNP位点或单体型申请专利。

但是，因为HapMap计划不含有产生功能或应用信息的研究，所以这些结果只能通过HapMap项目以外的研究获得。

如果项目参加者想使用本计划的数据进行其它研究，只能通过已对外公布的dbSNP库或数据协调中心的数据库获得信息。

如果参加者申请了专利并获得批准，他们不能就此妨碍其他人访问HapMap的数据。

NCBIdbSNPGenotypeServer批量下载Genotype。

NCBIdbSNPGenotypeServer

说明：

NCBI2006年8月29日发布的服务，可按照SNP的rs收录号、染色体上的起始位置、基因的名称，大批量的检索

Genotype，并且，返回的结果很人性化，界面很友好，可以有html、xml、text和haploview多种格式。

检索主界面：

帮助说明：

使用方法：

网页友好界面，用法很简单，一般有3步，step1、step2、step3按照其说明向下检索即可。

超过20000个Genotype的检索结果以xml形式发送至指定的email。

个人经验：

批量下载SNP数据不错，可直接导入Haploview很方便。

再找感兴趣的位点的LD，或查找Haplotype，tSNP等。

这个工具可以同时输入不多于750个SNP的rs，然后输出相应的frequency或者是感兴趣人群的所有的genotype

现在仍未解决的问题是：

1.需要查询多个基因的SNP数据或者是tagSNP数据

2.同时得到这些SNP在基因中的位置（

展开阅读全文