Haploview导入数据的格式.docx

资源描述

Haploview导入数据的格式.docx

《Haploview导入数据的格式.docx》由会员分享，可在线阅读，更多相关《Haploview导入数据的格式.docx（16页珍藏版）》请在冰豆网上搜索。

Haploview导入数据的格式.docx

Haploview导入数据的格式

不要haploview在线生成的那种，这个我也会。

谁能发个从excel-----text----ped到input的图呢？

我做过一些病例对照研究，下面的截图是基本的输入格式，你可以参照一下：

从excel转换成text文本

我做过一些病例对照研究，下面的截图是基本的输入格式，你可以参照一下：

缺失的基因型怎么表示，没缺失的怎么表示

Haploview需要导入数据的格式（linkage格式）

Haploview的第一个主界面的linkage格式需要输入两个文件，点击左侧的LinkageFofmat就会看到有两个导入文件的地方，一个是DataFile，另一个是LocusInformationFile。

下面详细的介绍一下这两个数据的格式，我们以Haploview自带的数据文件为例。

在haploview安装的目录下（一般为C:

\ProgramFiles\HaploView）有两个数据文件：

（1）sample.ped

（2）sample.info。

具体就是DataFile处导入sample.ped文件，LocusInformationFile处导入sample.info数据。

当然两个文件的扩展名你可以自己随意的起，Haploview有一个默认关联，即：

如果你的两文件主要名称一样（比如chrom），扩展名分别为ped（chrom.ped）和info（chrom.info），则只要导入ped文件，haploview会自动导入info文件。

下面以sample.ped和sample.info为例介绍一下DataFile和LocusInformationFile需要输入文件格式。

一、DataFile 需输入文件格式

DataFile处应当导入的文件格式同sample.ped显示的一样，下面列出sample.ped文件

sample.ped文件部分内容：

IBD05443000101 33 14 1

IBD054412430431221 31 34 1

IBD05443100203 33 31 1

IBD05843800103 33 31 1

IBD058470438444223 33 31 1

IBD05844400203 33 31 1

IBD06954300103 33 31 1

IBD069516543513123 33 31 1

IBD06951300203 33 31 1

IBD07657300100 03 14 1

IBD076565573574120 03 31 1

IBD07657400200 03 31 1

IBD092101100103 33 31 1

IBD0926391011641123 33 31 1

在这个文件中，每一行代表一个样本个体，前六列是表头，从第七列开始每2列代表一个SNP位点（当然这个SNP位点叫什么，在那条染色体上，Haploview用另一个文件给出，比如sample.ped这个文件对应的SNP描述的信息在sample.info中）。

有多少个位点后面就是位点数的2倍的列数。

sample.ped文件的总列数为

总列数=6+2*位点数

下面具体解释一下每一列：

1、

第一列：

代表的是家系的ID，如果你做的是家系的研究，那么你的数据家系的编号应该放到第一位。

如果你分析的是无关个体，则第一列不能用同一个ID，建议用自然序号1,2,3….来替代。

2、

第二列表示个体的ID，就是你研究的所有个体的编号。

在同一个家系内不可以重复，不同的家系间可以重复。

如果做无关个体的研究则每个个体的编号不能重复。

3、

第三列和第四列代表同第二列个体之间的家系关系，第三列代表父亲的ID，第四列代表母亲的ID，如果个体的父亲、母亲中某一个没有测到样本的话，则标记为0，如果你做无关个体的研究，则第三列，第四列都赋值为0。

例：

一个核心家系的数据，来自于sample.ped文件的前三行

IBD05443000101 33 14 1

IBD054412430431221 31 34 1

IBD05443100203 33 31 1

表示家系编号为IBD054，这个家系中有三个个体430,412,和431。

第一个个体430的父亲的信息没有检测到，所以第一行第三列用0表示，他的母亲的信息也没测到，所以第一行第四列用0表示。

第二个个体412的父亲为430，母亲为431，所以第二行第三列为430，第二行第四列为431。

. 第三个个体431的父亲的信息没有检测到，所以第三行第三列用0表示，他的母亲的信息也没测到，所以第三行第四列用0表示。

4、

第五列表示对应第二列个体的性别信息。

1代表男性，2代表女性。

5、

第六列表示第二列个体的患病状态。

0表示疾病状态未知；1表示个体未患病，2代表个体患病。

6、

第七列以后，每两列代表一个SNP位点（由于是二倍体，所以同一个位置有两个值），1代表碱基A；2代表碱基C；3代表碱基G；4代表碱基T。

缺失数据用0表示。

当然你也不用这个编码，可以自己任意的定义（比如每个位点都是二态的，就可以用1,2分别代表该位点的2个等位，但需要用额外的文件记录好你每个位点1代表什么，2代表什么）

实例详解：

IBD05443000101 33 14 1

IBD054412430431221 31 34 1

IBD05443100203 33 31 1

总的来说，以上面三行数据为例，第一行：

表示，个体430是IBD054中的一个个体，父亲未知，母亲未知，是个男性，疾病状态未知，第一个SNP位点的两个等位为1,3 （也可以写为3,1）；第二个SNP位点的两个等位为3,1（也可以写为1,3）；第三个SNP位点的两个等位为4,1（也可以写为1,4）。

第二行：

表示，个体412是IBD054中的一个个体，父亲是439，母亲是431，是个女性，疾病状态为患病个体，第一个SNP位点的两个等位为1,3；第二个SNP位点的两个等位为1,3；第三个SNP位点的两个等位为4,1。

这样，就得到了每个个体的详细的SNP等位的信息。

但是我们仍然不知道每个SNP位点在染色体的什么位置，这就需要另外一个专门描述信息的文件sample.info，也就是LocusInformationFile需要输入文件格式。

二、LocusInformationFile需要输入文件格式

LocusInformationFile处应当导入的文件格式同sample.info显示的一样，下面列出sample.ped文件：

IGR1118a_1274044

IGR1119a_1274541

IGR1143a_1286593

IGR1144a_1287261

IGR1169a_2299755

IGR1218a_2324341

IGR1219a_2324379

IGR1286a_1358048

TSC0101718366811

IGR1373a_1395079

这个文件包含两列，第一列为SNP的名字，第二列为SNP的物理位置（bp）。

很多情况下我们使用的SNP的名字为dbSNP中的名字，是用rs#表示的。

因此第一列很多情况下rs开头的名称。

第二列一般都是从小到大的。

这个文件的行数必须和sample.ped文件中的第七列以后的SNP数目相同，并且一一对应，千万不能错。

下面再展示一个以rs开头的文件。

rs13434344274044

rs234524345274541

rs24552352286593

rs245435545 287261

rs534534534 299755

rs5345345345 324341

rs6456454555 324379

有了这两个文件，我们就可以知道每个个体的，家系情况，性别，患病情况，测量了那些SNP位点（SNP名和染色体上的物理位置）还有每个SNP位置的同源染色提上的2个等位的详细信息。

可以利用这些基本的信息进行后续的分析。

第1步,制备基因型的文档,我用的是EXCEL,如图,从左至右依次为:

pedigree/samplename,individualID,Father'sID,Mother'sID,sex（M=1,F=2）,Affectionstatus （0=UNKNOWN,1=UNAFFECTED,2=AFFECTED）. 然后是每个SNP的基因型....

第2步:

由于软件无法识别ATCG,需要将其转化一下,一般为:

A=1,C=2,G=3,T=4.I=1,D=2,分别为insertionanddeletion.

直接CTRL+H就行了.无基因型的以（00）表示,注意,两数字中间有一个空格. （4.2以上的版本可以识别ATCG滴，不需要分成2列吗）

第3步,制备样品LOCUS的位置文档.也就是以第一个SNP为1,第2个SNP与第1个相差N个bp,N=两个SNP的position之差.制备成如下的表格.（postion可以用BLAST得到其物理地址）此图A列为SNP_ID,B列为相对位置. （注意：

只有2列，一个为SNP，一个为locus）

然后将制备好的表格另存为.txt.注意:

两文档必须是一一对应的,也就是SNP的数目要一致.然后分别上传.第一个文档至DATAFILE..

完成,你不光会得到图,还会得到其它信息.你也可以根据一些设置调整图的算法或色彩.

以下是一些步骤图片：

第一步示意图（不要表头的）

第二步示意图（4.2版本滴就不需要转换了）

第三步示意图（只有2列，这个SNP的locus可以用相对距离，也可以用绝对距离）

第四步示意图

第五步示意图

看到有朋友发了利用HAPMAP制备HAPLOVIEW分析.

我顺便发一下,如何利用试验获得的数据制备HAPLOVIEW,请大家讨论.

第1步,制备基因型的文档,我用的是EXCEL,如图,从左至右依次为:

pedigree/samplename,individualID,Father'sID,Mother'sID,sex（M=1,F=2）,Affectionstatus

（0=UNKNOWN,1=UNAFFECTED,2=AFFECTED）.

然后是每个SNP的基因型....

查看原图

投票14收藏146回帖85浏览7675

向左向右

推荐帖

prevnext

∙【求助】什么叫基因单倍型，如何分析（是不是太弱了）

∙【求助】haploview数据输入

∙【资源】SNP单体型分析软件PHASE和fastPHASE免费下载地址

∙【求助】如何将实验中所得的SNP数据用Haploview进行分析

∙【求助】关于挑选tagsnps和分析单体型前先做LD分析的困惑

∙【求助】求助高手指点haploview结果分析

∙【求助】分别使用SHEsis和haploview分别单体型结果怎么不一致

∙【求助】haploview单倍型分析后怎么做case-control

∙【求助】haploview和hapstat分析单倍型的疑惑

∙【求助】关于haploviewLD结果的问题

draco603editedon2009-11-2402:

17举报

∙

draco603

常驻站友

∙3

积分

∙26

得票

∙45

粉丝

加关注

2009-11-2402:

消息引用分享

分享到哪里？

∙复制网址

∙新浪微博

∙腾讯微博

∙人人网

∙丁香客

2楼

第2步:

由于软件无法识别ATCG,需要将其转化一下,一般为:

A=1,C=2,G=3,T=4.

I=1,D=2,分别为insertionanddeletion.

直接CTRL+H就行了.无基因型的以（00）表示,注意,两数字中间有一个空格.

查看原图

投票2收藏4

∙•承德医学院真火了

draco603

常驻站友

∙3

积分

∙26

得票

∙45

粉丝

加关注

2009-11-2402:

消息引用分享

分享到哪里？

∙复制网址

∙新浪微博

∙腾讯微博

∙人人网

∙丁香客

3楼

第3步,制备样品LOCUS的位置文档.

也就是以第一个SNP为1,第2个SNP与第1个相差N个bp,N=两个SNP的position之差.制备成如下的表格.（postion可以用BLAST得到其物理地址）

此图A列为SNP_ID,B列为相对位置.

投票1收藏2

draco603editedon2009-11-2402:

13举报

∙

draco603

常驻站友

∙3

积分

∙26

得票

∙45

粉丝

加关注

2009-11-2402:

消息引用分享

分享到哪里？

∙复制网址

∙新浪微博

∙腾讯微博

∙人人网

∙丁香客

4楼

然后将制备好的表格另存为.txt.注意:

两文档必须是一一对应的,也就是SNP的数目要一致.

然后分别上传.第一个文档至DATAFILE...

查看原图

投票+收藏2

∙JXFSTPRP-24高通量多样品快速研磨仪/珠磨仪

draco603

常驻站友

∙3

积分

∙26

得票

∙45

粉丝

加关注

2009-11-2402:

消息引用分享

分享到哪里？

∙复制网址

∙新浪微博

∙腾讯微博

∙人人网

∙丁香客

5楼

完成,你不光会得到图,还会得到其它信息.

你也可以根据一些设置调整图的算法或色彩.

查看原图

展开阅读全文