Haploview导入数据的格式.docx
《Haploview导入数据的格式.docx》由会员分享,可在线阅读,更多相关《Haploview导入数据的格式.docx(16页珍藏版)》请在冰豆网上搜索。
Haploview导入数据的格式
不要haploview在线生成的那种,这个我也会。
谁能发个从excel-----text----ped到input的图呢?
回复
我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:
回复
我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:
从excel转换成text文本
回复
我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:
回复
我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:
回复
我做过一些病例对照研究,下面的截图是基本的输入格式,你可以参照一下:
回复
缺失的基因型怎么表示,没缺失的怎么表示
Haploview需要导入数据的格式(linkage格式)
Haploview的第一个主界面的linkage格式需要输入两个文件,点击左侧的LinkageFofmat就会看到有两个导入文件的地方,一个是DataFile,另一个是LocusInformationFile。
下面详细的介绍一下这两个数据的格式,我们以Haploview自带的数据文件为例。
在haploview安装的目录下(一般为C:
\ProgramFiles\HaploView)有两个数据文件:
(1)sample.ped
(2)sample.info。
具体就是DataFile处导入sample.ped文件,LocusInformationFile处导入sample.info数据。
当然两个文件的扩展名你可以自己随意的起,Haploview有一个默认关联,即:
如果你的两文件主要名称一样(比如chrom),扩展名分别为ped(chrom.ped)和info(chrom.info),则只要导入ped文件,haploview会自动导入info文件。
下面以sample.ped和sample.info为例介绍一下DataFile和LocusInformationFile需要输入文件格式。
一、DataFile 需输入文件格式
DataFile处应当导入的文件格式同sample.ped显示的一样,下面列出sample.ped文件
sample.ped文件部分内容:
IBD05443000101 33 14 1
IBD054412430431221 31 34 1
IBD05443100203 33 31 1
IBD05843800103 33 31 1
IBD058470438444223 33 31 1
IBD05844400203 33 31 1
IBD06954300103 33 31 1
IBD069516543513123 33 31 1
IBD06951300203 33 31 1
IBD07657300100 03 14 1
IBD076565573574120 03 31 1
IBD07657400200 03 31 1
IBD092101100103 33 31 1
IBD0926391011641123 33 31 1
在这个文件中,每一行代表一个样本个体,前六列是表头,从第七列开始每2列代表一个SNP位点(当然这个SNP位点叫什么,在那条染色体上,Haploview用另一个文件给出,比如sample.ped这个文件对应的SNP描述的信息在sample.info中)。
有多少个位点后面就是位点数的2倍的列数。
sample.ped文件的总列数为
总列数=6+2*位点数
下面具体解释一下每一列:
1、
第一列:
代表的是家系的ID,如果你做的是家系的研究,那么你的数据家系的编号应该放到第一位。
如果你分析的是无关个体,则第一列不能用同一个ID,建议用自然序号1,2,3….来替代。
2、
第二列表示个体的ID,就是你研究的所有个体的编号。
在同一个家系内不可以重复,不同的家系间可以重复。
如果做无关个体的研究则每个个体的编号不能重复。
3、
第三列和第四列代表同第二列个体之间的家系关系,第三列代表父亲的ID,第四列代表母亲的ID,如果个体的父亲、母亲中某一个没有测到样本的话,则标记为0,如果你做无关个体的研究,则第三列,第四列都赋值为0。
例:
一个核心家系的数据,来自于sample.ped文件的前三行
IBD05443000101 33 14 1
IBD054412430431221 31 34 1
IBD05443100203 33 31 1
表示家系编号为IBD054,这个家系中有三个个体430,412,和431。
第一个个体430的父亲的信息没有检测到,所以第一行第三列用0表示,他的母亲的信息也没测到,所以第一行第四列用0表示。
第二个个体412的父亲为430,母亲为431,所以第二行第三列为430,第二行第四列为431。
. 第三个个体431的父亲的信息没有检测到,所以第三行第三列用0表示,他的母亲的信息也没测到,所以第三行第四列用0表示。
4、
第五列表示对应第二列个体的性别信息。
1代表男性,2代表女性。
5、
第六列表示第二列个体的患病状态。
0表示疾病状态未知;1表示个体未患病,2代表个体患病。
6、
第七列以后,每两列代表一个SNP位点(由于是二倍体,所以同一个位置有两个值),1代表碱基A;2代表碱基C;3代表碱基G;4代表碱基T。
缺失数据用0表示。
当然你也不用这个编码,可以自己任意的定义(比如每个位点都是二态的,就可以用1,2分别代表该位点的2个等位,但需要用额外的文件记录好你每个位点1代表什么,2代表什么)
实例详解:
IBD05443000101 33 14 1
IBD054412430431221 31 34 1
IBD05443100203 33 31 1
总的来说,以上面三行数据为例,第一行:
表示,个体430是IBD054中的一个个体,父亲未知,母亲未知,是个男性,疾病状态未知,第一个SNP位点的两个等位为1,3 (也可以写为3,1);第二个SNP位点的两个等位为3,1(也可以写为1,3);第三个SNP位点的两个等位为4,1(也可以写为1,4)。
第二行:
表示,个体412是IBD054中的一个个体,父亲是439,母亲是431,是个女性,疾病状态为患病个体,第一个SNP位点的两个等位为1,3;第二个SNP位点的两个等位为1,3;第三个SNP位点的两个等位为4,1。
.
这样,就得到了每个个体的详细的SNP等位的信息。
但是我们仍然不知道每个SNP位点在染色体的什么位置,这就需要另外一个专门描述信息的文件sample.info,也就是LocusInformationFile需要输入文件格式。
二、LocusInformationFile需要输入文件格式
LocusInformationFile处应当导入的文件格式同sample.info显示的一样,下面列出sample.ped文件:
IGR1118a_1274044
IGR1119a_1274541
IGR1143a_1286593
IGR1144a_1287261
IGR1169a_2299755
IGR1218a_2324341
IGR1219a_2324379
IGR1286a_1358048
TSC0101718366811
IGR1373a_1395079
这个文件包含两列,第一列为SNP的名字,第二列为SNP的物理位置(bp)。
很多情况下我们使用的SNP的名字为dbSNP中的名字,是用rs#表示的。
因此第一列很多情况下rs开头的名称。
第二列一般都是从小到大的。
这个文件的行数必须和sample.ped文件中的第七列以后的SNP数目相同,并且一一对应,千万不能错。
下面再展示一个以rs开头的文件。
rs13434344274044
rs234524345274541
rs24552352286593
rs245435545 287261
rs534534534 299755
rs5345345345 324341
rs6456454555 324379
有了这两个文件,我们就可以知道每个个体的,家系情况,性别,患病情况,测量了那些SNP位点(SNP名和染色体上的物理位置)还有每个SNP位置的同源染色提上的2个等位的详细信息。
可以利用这些基本的信息进行后续的分析。
第1步,制备基因型的文档,我用的是EXCEL,如图,从左至右依次为:
pedigree/samplename,individualID,Father'sID,Mother'sID,sex(M=1,F=2),Affectionstatus (0=UNKNOWN,1=UNAFFECTED,2=AFFECTED). 然后是每个SNP的基因型....
第2步:
由于软件无法识别ATCG,需要将其转化一下,一般为:
A=1,C=2,G=3,T=4.I=1,D=2,分别为insertionanddeletion.
直接CTRL+H就行了.无基因型的以(00)表示,注意,两数字中间有一个空格. (4.2以上的版本可以识别ATCG滴,不需要分成2列吗)
第3步,制备样品LOCUS的位置文档.也就是以第一个SNP为1,第2个SNP与第1个相差N个bp,N=两个SNP的position之差.制备成如下的表格.(postion可以用BLAST得到其物理地址)此图A列为SNP_ID,B列为相对位置. (注意:
只有2列,一个为SNP,一个为locus)
然后将制备好的表格另存为.txt.注意:
两文档必须是一一对应的,也就是SNP的数目要一致.然后分别上传.第一个文档至DATAFILE..
完成,你不光会得到图,还会得到其它信息.你也可以根据一些设置调整图的算法或色彩.
以下是一些步骤图片:
第一步示意图(不要表头的)
第二步示意图(4.2版本滴就不需要转换了)
第三步示意图(只有2列,这个SNP的locus可以用相对距离,也可以用绝对距离)
第四步示意图
第五步示意图
看到有朋友发了利用HAPMAP制备HAPLOVIEW分析.
我顺便发一下,如何利用试验获得的数据制备HAPLOVIEW,请大家讨论.
第1步,制备基因型的文档,我用的是EXCEL,如图,从左至右依次为:
pedigree/samplename,individualID,Father'sID,Mother'sID,sex(M=1,F=2),Affectionstatus
(0=UNKNOWN,1=UNAFFECTED,2=AFFECTED).
然后是每个SNP的基因型....
查看原图
投票14收藏146回帖85浏览7675
向左向右
推荐帖
prevnext
∙【求助】什么叫基因单倍型,如何分析(是不是太弱了)
∙【求助】haploview数据输入
∙【资源】SNP单体型分析软件PHASE和fastPHASE免费下载地址
∙【求助】如何将实验中所得的SNP数据用Haploview进行分析
∙【求助】关于挑选tagsnps和分析单体型前先做LD分析的困惑
∙【求助】求助高手指点haploview结果分析
∙【求助】分别使用SHEsis和haploview分别单体型结果怎么不一致
∙【求助】haploview单倍型分析后怎么做case-control
∙【求助】haploview和hapstat分析单倍型的疑惑
∙【求助】关于haploviewLD结果的问题
draco603editedon2009-11-2402:
17举报
∙
draco603
常驻站友
∙3
积分
∙26
得票
∙45
粉丝
加关注
2009-11-2402:
02
消息引用分享
分享到哪里?
∙复制网址
∙新浪微博
∙腾讯微博
∙人人网
∙丁香客
2楼
第2步:
由于软件无法识别ATCG,需要将其转化一下,一般为:
A=1,C=2,G=3,T=4.
I=1,D=2,分别为insertionanddeletion.
直接CTRL+H就行了.无基因型的以(00)表示,注意,两数字中间有一个空格.
查看原图
投票2收藏4
举报
∙•承德医学院真火了
draco603
常驻站友
∙3
积分
∙26
得票
∙45
粉丝
加关注
2009-11-2402:
05
消息引用分享
分享到哪里?
∙复制网址
∙新浪微博
∙腾讯微博
∙人人网
∙丁香客
3楼
第3步,制备样品LOCUS的位置文档.
也就是以第一个SNP为1,第2个SNP与第1个相差N个bp,N=两个SNP的position之差.制备成如下的表格.(postion可以用BLAST得到其物理地址)
此图A列为SNP_ID,B列为相对位置.
投票1收藏2
draco603editedon2009-11-2402:
13举报
∙
draco603
常驻站友
∙3
积分
∙26
得票
∙45
粉丝
加关注
2009-11-2402:
08
消息引用分享
分享到哪里?
∙复制网址
∙新浪微博
∙腾讯微博
∙人人网
∙丁香客
4楼
然后将制备好的表格另存为.txt.注意:
两文档必须是一一对应的,也就是SNP的数目要一致.
然后分别上传.第一个文档至DATAFILE...
查看原图
投票+收藏2
举报
∙JXFSTPRP-24高通量多样品快速研磨仪/珠磨仪
draco603
常驻站友
∙3
积分
∙26
得票
∙45
粉丝
加关注
2009-11-2402:
10
消息引用分享
分享到哪里?
∙复制网址
∙新浪微博
∙腾讯微博
∙人人网
∙丁香客
5楼
完成,你不光会得到图,还会得到其它信息.
你也可以根据一些设置调整图的算法或色彩.
查看原图