蛋白质PDB文件说明.docx

上传人:b****6 文档编号:7418559 上传时间:2023-01-23 格式:DOCX 页数:111 大小:60.43KB
下载 相关 举报
蛋白质PDB文件说明.docx_第1页
第1页 / 共111页
蛋白质PDB文件说明.docx_第2页
第2页 / 共111页
蛋白质PDB文件说明.docx_第3页
第3页 / 共111页
蛋白质PDB文件说明.docx_第4页
第4页 / 共111页
蛋白质PDB文件说明.docx_第5页
第5页 / 共111页
点击查看更多>>
下载资源
资源描述

蛋白质PDB文件说明.docx

《蛋白质PDB文件说明.docx》由会员分享,可在线阅读,更多相关《蛋白质PDB文件说明.docx(111页珍藏版)》请在冰豆网上搜索。

蛋白质PDB文件说明.docx

蛋白质PDB文件说明

字符集合

只是一些非控制型字符,象空格和结束符,出现在PDB文件记录中。

也就是:

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ

90

`-=[]\;',./~!

@#$%^&*()_+{}|:

"<>

空格和结束符。

结束符根据系统而定,Unix用一行字符,而其他的系统可能就用一个回车来表示。

特殊字符

希腊字母就详细的拼写出来。

比如:

α,β,γ

原子用DOT表示。

右箭头用-->表示。

左箭头用<--表示。

上标用两个等号表示开始和结束。

比如:

S==2+==

下标用一个等号来表示开始和结束。

比如:

F=c=

如果等号两边至少有一边有一个空格,那么这个字符就是表示等号。

比如:

2+4=6

逗号,冒号和括号用来表示文档中的分界苻,也就是下面几种中的一种:

List

SList

SpecificationList

Specification

如果逗号,冒号或者括号在任何一片文档中使用不是作为分界苻的话,那么肯定有字符被漏掉了。

比如下边例子中第四行的"\":

COMPNDMOL_ID:

1;

COMPND2MOLECULE:

GLUTATHIONESYNTHETASE;

COMPND3CHAIN:

NULL;

COMPND4SYNONYM:

GAMMA-L-GLUTAMYL-L-CYSTEINE\:

GLYCINELIGASE

COMPND5(ADP-FORMING);

COMPND6EC:

6.3.2.3;

COMPND7ENGINEERED:

YES

COMPNDMOL_ID:

1;

COMPND2MOLECULE:

S-ADENOSYLMETHIONINESYNTHETASE;

COMPND3CHAIN:

A,B;

COMPND4SYNONYM:

MAT,ATP\:

L-METHIONINES-ADENOSYLTRANSFERASE;

COMPND5EC:

2.5.1.6;

COMPND6ENGINEERED:

YES;

COMPND7BIOLOGICAL_UNIT:

TETRAMER;

COMPND8OTHER_DETAILS:

TETRAGONALMODIFICATION

数据类型-------------------------------------

该部分该部分主要用来描述试验和记录中该大分子的一些基本信息,有

以下几种记录:

HEADER,OBSLTE,TITTITLE,CAVEAT,COMPND,SOURCE,KEYWDS,EXPDTA,

AUTHOR,REVDAT,SPRSDE,JRNL和REMARK部分。

以下来具体说明一下各个记录。

记录类型--------------------------------------

按照在记录中出现的频率区分:

SINGLE

一个文件中只出现一次.按字母顺序列出如下:

记录类型说明

CRYST1晶胞参数

END结束

HEADER分子类,公布日期,ID号

MASTER版权拥有者

ORIGXn直角-PDB坐标

SCALEn直角部分结晶学坐标

如果这些记录在一个记录中重复出现是错误的。

SINGLECONTINUED

在记录中概念性的只出现一次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:

记录类型说明

AUTHOR结构测定者

CAVEAT可能的错误提示

COMPND化合物名称

EXPDTA测定结构所用的试验方法

KEYWDS关键词

OBSLTE注明该id号已改为新号

SOURCE化合物来源

SPRSDE已撤消或更改的相关记录

TITLE说明试验方法类型

MULTIPLE

大部分记录类型多次出现,经常出现在这些组中,组中的信息理论上并没有连接,但已呈现为列表的组成部分.这种记录类型中的许多习惯连载可能不仅仅制定记录还和其他记录相联.按字母顺序列出如下:

记录类型说明

ANISOU温度因子

ATOM标准基因的原子坐标

CISPEP顺势残基

CONECT有关记录

DBREF其他序列库的有关记录

HELIX螺旋

HET非标准残基

HETSYM非标准残基的同义字

HYDBND氢键

LINK残基间化学键

MODRES对标准残基的修饰

MTRIXn显示非晶相对称

REVDAT修订日期及相关内容

SEQADVPDB与其它记录的出入

SEQRES残基序列

SHEET片层

SIGATM标准差

SIGUIJ温度因子

SITE特性位点

SLTBRG盐桥

SSBOND二硫键

TURN转折

TVECT转换因子

MultipleContinued

在记录中概念性的出现多次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:

记录类型说明

FORMUL非标准残基化学式

HETATM非标准集团原子坐标

HETNAM非标准残基的化学名称

Grouping

有三种记录类型用来聚合其他记录.按字母顺序列出如下:

记录类型说明

ENDMDL亚基结束

MODEL多亚基时,示亚基号

TER链末端

MODEL/ENDMDL记录包围着ATOM,HETATM,SIGATM,ANISOU,SIGUIJ,和TER记录.TER记录预示链的末端.

Other

其他记录类型有详细的内部结构.按字母顺序列出如下:

记录类型说明

JRNL发表坐标集的文献

REMARK注解

记录的表示                            

PDB数据库中的数据都应按照一定的规定来出现,强制记录类型必须出现在所有的记录中,当强制数据没有提供,记录名必须出现在记录中并以NULL表示当此条件存在时选择项表就变成强制记录类型。

以下表格是对这两种类型的具体划分和描述:

记录类型 

说明

变为强制的条件

HEADER 

强制

OBSLTE

可选

个别记录中强制

TITLE 

强制

CAVEAT 

可选

该记录中有错误

COMPND 

强制

SOURCE 

强制

KEYWDS 

强制

EXPDA 

强制

AUTHOR 

强制

REVDAT 

强制

SPRSDE 

可选

在被替代的记录中

JRNL 

可选

出版物描述了该试验

REMARK1 

可选

出版物描述了该试验

REMARK2

强制

REMARK3

强制

REMARKN

可选

一定条件下强制,如记录在备注描述

DBREF 

可选

每个缩氨酸链的长度大于十个残基并且核酸记录存在于核算蛋白库中(NDB)

SEQADV 

可选

有序列冲突

SEQRES 

可选

ATOM记录存在

MODRES 

可选

有修饰存在

HET 

可选

有不标准的残基除了水分子

HETNAM 

可选

有不标准的残基除了水分子

HETSYN 

可选

FORMUL 

可选

有不标准的残基或水

HELIX

可选

SHEET 

可选

TURN

可选

SSBOND 

可选

有二硫键存在

LINK 

可选

HYDBND

可选

SLTBRG 

可选

CISPEP 

可选

SITE 

可选

CRYST1 

强制

ORIGX1ORIGX2ORIGX3 

强制

SCALE1SCALE2SCALE3 

强制

MTRIX1MTRIX2MTRIX3  

可选

完全不对称单元

非晶相对称

TVECT 

可选

MODEL

可选

记录中多于一个MODEL

ATOM 

可选

有标准的残基存在

SIGATM 

可选

ANISOU 

可选

SIGUIJ 

可选

TER

可选

有ATOM记录存在

ENDMDL

可选

有MODEL存在

CONNECT

可选

不标准的团存在

MASTER

强制

END 

强制

记录部分的划分

Title

大概描述 

HEADER,OBSLTE,TITLE,CAVEAT,COMPND,SOURCE,KEYWDS,EXPDTA,AUTHOR,REVDAT,SPRSDE,JRNL

Remark 

参考书目,最大分辨率,注解等

REMARKs1,2,3andothers

Primarystructure

一级结构氨基酸或核苷酸序列和PDB序列与其他序列库的有关记录 

DBREF,SEQADV,SEQRES,MODRES

Heterogen 

不标准组的描述 

HET,HETNAM,HETSYN,FORMUL

Secondarystructure

二级结构 

HELIX,SHEET,TURN

Connectivityannotation

化学元素连接

SSBOND,LINK,HYDBND,SLTBRG,CISPEP 

Miscellaneousfeature 

大分子的特征

SITE

Crystallographic

晶体细胞描述 

CRYST1

Coordinatetransformation

坐标描述 

ORIGXn,SCALEn,MTRIXn,TVECT

Coordinate 

原子坐标数据 

MODEL,ATOM,SIGATM,ANISOU,SIGUIJ,TER,HETATM,ENDMDL

Connectivity

化学键连接 

CONECT

Bookkeeping 

概要信息和结束标志

MASTER,END

 

对数据类型的说明                   

数据类型

描述

Achar 

一个英文字母(A-Z,a-z)

Atom 

原子名

Character 

ASCII码和空格

Continuation

如果一行描述不完用此表示序列号,占两个字符右对齐,第一个用空格

Date 

占九个字符dd-mmm-yy,DD表日期,右对齐不足左补零;MMM表月份用常用的三个英文字母表示;YY表20世纪的一年,他们都必须是有效日期

IDcode 

占四个字符,第一个是阿拉伯数字(0-9),余下的三个由希腊数字组成,字母必须是大写的。

若第一个是阿拉伯数字零则对此蛋白质的描述中没有坐标数据

Integer

右对齐,不足的用空格填充的整型数据

Token 

由一组没有空格的字符组成,结尾部分紧跟着冒号和空格

List 

一个由逗号分开的字符串

Lstring 

字符串,任何空格都有意义必须保存

LString(n) 

有N个字符的Lstring

Real(n,m) 

实型

Recordname 

记录的名字,由六个字符组成,左对齐,不足的用空格补充

Residuename

右对齐格式标准氨基酸或核苷酸中的一个,后有列表.不标准组分在HET中详细说明

Slist 

由一些内容组成的字符串,有分号分开

Specification

由一些token记录组成的字符串,由冒号分开

Specificationlist

由Specifications组成的序列,由分号分开

String

由字符组成的序列,可能有些空格,但应该详细说明

String(n) 

由N个字符组成String

SymOP

由4-6个数字组成的整数,右对齐格式.详细资料在Appendix1

残基名字

在PDB格式中出现的标准残基的名字:

残基类型

残基名字

氨基酸

ALA,ARG,ASN,ASP,CYS,GLN,GLU,GLY,HIS,ILE,LEU,LYS

核酸 

A,C,G,T,U,I,+A,+C,+G,+T,+U,+I

其他 

UNK(unknown)

Appendix4中有更多关于标准残基名和缩写的信息,Appendix5中有他们的化学式和分子量.

标题部分

HEADER(分子类,公布日期、ID号)

综述

该记录包含三个方面的内容:

蛋白质的种类,被该数据库接收的日期和唯一区分该蛋白质的idCODE.

记录格式

列 

数据类型

字段名称 

定义描述

1–6

Recordname

"HEADER"

11–50

String(40) 

classification 

该蛋白质的分类

51–59

Date 

depDate

被数据库接收的日期

63–66

IDcode 

idCode 

唯一标识某个蛋白 

细节

改分类表示是左对齐的,并且由于分给字符位的限制,有时分类名太长,要用简写表示。

在KEYWDS记录中存着改分类的全称。

示例

        1        2        3        4        5        6        7

4567890

HEADER   MUSCLEPROTEIN                         02-JUN-93  1MYS

HEADER   HYDROLASE(CARBOXYLICESTER)           08-APR-93  2PHI

HEADER   COMPLEX(LECTIN/TRANSFERRIN)           07-JAN-94  1LGB

OBSLTE(注明此ID号已改为新号)         

综述

该记录出现在已经被收回的蛋白质的描述中,可以作为一个标志。

任何新的记录都能代替别回收的记录.这个版本允许多个新纪录代替现有记录.

记录格式

数据类型 

字段名称 

定义描述

1–6

Recordname

"OBSLTE"

9–10

Continuation

continuation 

允许多重记录串联表示不同行的顺序号

12–20

Date 

repDate

被替代的日期

22–25

IDcode 

idCode 

该记录的idcode

32–35

IDcode 

rIdCode 

替换的idcode

37–40

IDcode 

rIdCode 

替换的idcode

42–45

IDcode 

rIdCode 

替换的idcode

47-50 

IDcode 

rIdCode 

替换的idcode

52-55 

IDcode 

rIdCode 

替换的idcode

57–60

IDcode 

rIdCode 

替换的idcode

62–65

IDcode 

rIdCode 

替换的idcode

67–70

IDcode 

rIdCode 

替换的idcode

细节

只有第一个提交记录的人才有权利收回改蛋白质,所有回收的记录都有研究用途.

示例

        1        2        3        4        5        6        7

4567890

OBSLTE    31-JAN-941MBP     2MBP

TITLE(说明实验方法类型)                

综述

该记录描述试验的题目或者对它的一些分析。

该记录唯一区分一个蛋白质。

记录格式

列 

数据类型 

字段名称

定义描述

1-6 

Recordname

"TITLE"

9-10

Continuation 

顺序 

允许多重记录串联表示不同行的顺序号

11-70

String 

标题

试验题目

细节

1.描述记录内容和区别相似记录得程序或条件,使录入者有机会着重强调做这些特殊试验得根本目的.

2.TITLE可能包括得一些项目:

-实验类型

3.                        -对突变的描述

4.                        -记录中只给出α-碳原子.

示例

1234567

4567890

TITLERHIZOPUSPEPSINCOMPLEXEDWITHREDUCEDPEPTIDEINHIBITOR

TITLEBETA-GLUCOSYLTRANSFERASE,ALPHACARBONCOORDINATESONLY

CAVEAT(可能的错误提示)                  

综述

警告在蛋白质记录中中出现的错误。

记录格式

列 

数据类型

字段名称

定义描述

1-6 

Recordname

"CAVEAT"

9-10 

Continuation

continuation 

允许多重记录串联表示不同行的顺序号

12-15

IDcode 

idCode 

蛋白质的IDcode

20-70

String 

comment

警告的原因

细节

1.PDB在还未回收的错误记录中加此记录,用的比较保守只在外部评论后用.

2.PDB不能核实转化回晶胞时注意此记录,此时分子结构依然正确.

示例

        1        2        3        4        5        6        7

4567890

CAVEAT    1ABC   THECRYSTALTRANSFORMATIONISINERRORBUTIS

CAVEAT  21ABC   UNCORRECTABLEATTHISTIME

COMPND(化合物分子组成)                  

综述

描述蛋白质的组成

记录格式

列 

数据类型

字段名称

定义描述

1-6 

Recordname

"COMPND"

9-10 

Continuation

continuation

允许多重记录串联表示不同行的顺序号

11-70

Specificationlist 

compound 

对分子成分的描述

细节

对蛋白质组成的描述又细分为如下:

记号

确切涵义描述

MOL_ID 

每一成分的数目

MOLECULE 

分子名

CHAIN 

逗号分开链标识符,若空白用"NULL"表示

FRAGMENT 

对结构域或具体部分的详细描述

SYNONYM 

MOLECULE同义部分,逗号分开

EC 

酶学委员会相关号码,不止一个时用逗号分开

ENGINEERED 

分子通过重组产生或纯化学合成

MUTATION 

自野生型突变的描述

BIOLOGICAL_UNIT

完整功能单元描述

OTHER_DETAILS

增加的注释

对MUTATION以下举例说明惯用的几种突变类型:

突变类型

描述 

形式

简单替代 

Asn替代His57 

只在C链中Asn替代His57 

H57N

ChainC,H57[A]N

插入突变 

HisandPro插入Lys48前 

INS(HP-K48)

缺失突变

A链和C链的Arg141缺失,B链

中的不缺失 

His23到ARG26缺失DEL(23-26)

只B链的His23C和Arg26缺失 

ChainA,C,DEL(R141)

DEL(23-26)

ChainB,DEL(H23[C],R26)

如有多于十种突变:

-所有突变在SEQADV记录中列出

                 -一些突变可能在COMPND的MUTATION中列出来强调录入者认为最重要的部分.

示例

        1        2        3        4        5        6        7

4567890

COMPND   MOL_ID:

1;

COMPND  2MOLECULE:

HEMOGLOBIN;

COMPND  3CHAIN:

A,B,C,D;

COMPND  4ENGINEERED:

YES;

COMPND  5MUTATION:

CHAINB,D,V1A;

COMPND  6BIOLOGICAL_UNIT:

HEMOGLOBINEXISTSASANA1B1/A2B2

COMPND  7TETRAMER;

COMPND  8OTHER_DETAILS:

DEOXYFORM

COMPND   MOL_ID:

1;

COMPND  2MOLECULE:

COWPEACHLOROTICMOTTLEVIRUS;

COMPND  3CHAIN:

A,B,C;

COMPND  4SYNONYM:

CCMV;

COMPND  5MOL_ID:

2;

COMPND  6MOLECULE:

RNA(5'-(*AP*UP*AP*U)-3');

COMPND  7CHAIN:

D,F;

COMPND  8ENGINEERED:

YES;

COMPND  9MOL_ID:

3;

COMPND 10MOLECULE:

RNA(5'-(*AP*U)-3');

COMPND 11CHAIN:

E;

COMPND 12ENGINEERED:

YES

COMPND   MOL_ID:

1;

COMPND  2MOLECULE:

HEVAMINEA;

COMPND  3CHAIN:

NULL;

COMPND  4EC:

3.2.1.14,

COMPND  5OTHER_DETAILS:

PLANTENDOCHITINASE/LYSOZYME

SOURCE(化合物来源)                    

综述

用来详细描述记录中每个生物大分子的生物或化学来源。

用习惯命名和系统命名共同描述.

记录格式

列 

数据类型

字段名称

定义描述

1-6 

Recordname 

"SOURCE"

9-10 

Continuation 

continuation

允许多重记录串联表示不同行的顺序号

11-70 

Specificationlist

srcName 

分子来源名

细节

同COMPND一样,对SOURCE描述也细分为如下:

记号 

确切涵义描述

MOL_ID 

分子数目

S

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > IT认证

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1