转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx

上传人:b****6 文档编号:18690196 上传时间:2022-12-31 格式:DOCX 页数:18 大小:84.32KB
下载 相关 举报
转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx_第1页
第1页 / 共18页
转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx_第2页
第2页 / 共18页
转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx_第3页
第3页 / 共18页
转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx_第4页
第4页 / 共18页
转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx

《转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx》由会员分享,可在线阅读,更多相关《转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx(18页珍藏版)》请在冰豆网上搜索。

转录因子WRKY的同义密码子使用偏好性分析Word文档格式.docx

但实际上,同义密码子的使用并非随机的[1,2],而是不同的物种或同一物种的不同基因在编码氨基酸时倾向使用某些特定的同义密码子,这种现象称为同义密码子的使用偏好性(SynonymousCodonUsageBias)[3]。

同义密码子的使用偏好性广泛地存在于细菌、真菌、植物、动物及人类中,且对于不同生物,影响密码子使用偏性的因素也不尽相同,因此产生了多种解释密码子偏性使用的理论。

早期关于密码子偏性理论(如密码子的选择模式在进化过程中是保守的;

密码子的使用偏性与对应的同工tRNA丰度相关,从而有利于提高翻译的效率和准确性)的数据大多来源于大肠杆菌和酵母等单细胞生物[4]。

而后,关于密码子使用偏性与tRNA丰度的关系,在对多细胞生物果蝇和线虫的分析中得到了与大肠杆菌和酵母相似的结论。

Bierne等[5]通过分析果蝇中3种不同位点的多态性和分歧与密码子偏性的关系,认为蛋白质的选择压力是密码子偏性进化的主要原因。

而关于密码子偏性与翻译效率也有不同的看法,Kanaya等[6]在研究物种特异的密码子偏性时,通过对5个真核生物(酵母、线虫、果蝇、非洲爪蟾和人)的密码子使用模式进行比较分析发现,并不是所有的高表达基因都有显著的密码子使用偏好性现象,说明真核生物中密码子的偏性并不是由翻译效率决定的,而可能和基因组中的isochore结构及含GC二核苷酸的密码子使用有关,因为后者与哺乳动物中发现的通过GC二核苷酸甲基化来调节转录有关;

且在植物的密码子偏性分析中也得到了类似的结论[7]。

随着基因芯片技术的产生和发展,获得组织特异基因及其表达丰度成为可能,Zhang等[8]发现看家基因的进化速率低于组织特异基因,同时指出看家基因和组织特异基因的密码子使用模式基本相似,并提出基因表达水平是决定密码子使用偏好的主要因素。

产生密码子偏性的原因主要是自然选择的结果,但并非唯一因素。

其中自然选择、突变偏性和遗传漂移之间存在一种特殊的平衡点[9-11]。

通常翻译的效率和准确性会影响同义密码子的使用,主要是与对应的tRNA种类的丰度分布有关,例如最优密码子与细胞质中tRNA丰度最高的对应[12]。

在近几年的研究表明,同义密码子的偏向使用与基因的G+C含量,尤其是与GC3S紧密相关[13-18]。

例如,在一些单细胞生物如E.Coli.S.Cerevisiae中,高表达的基因密码子的使用偏性一般比较大,这主要是由基因的碱基组成和翻译过程中tRNA的选择性两大因素造成的。

另外,基因长度、mRNA、蛋白质的疏水性水平及氨基酸的保守性等都是影响密码子的偏好性因素。

同义密码子的使用偏好性与诸多生命活动过程如蛋白质的合成等有着密切联系,因此对同义密码子使用偏好性的研究具有重要的生物学意义。

1、通过同义密码子使用频率的研究,可以判断未知基因是高表达基因还是低表达基因[19],同时还可以判断基因表达的时间等[20],用于研究基因表达控制机制;

2、根据编码区和非编码区的密码子使用偏性的不同,可以对基因组进行扫描,从而发现编码区和非编码区,预测新的基因[21];

3、为从蛋白肽段序列逆翻译到核苷酸序列提供了翻译标准,可以实现从蛋白质序列到寡核苷酸探针的设计[22];

4、由于同义密码子的使用偏性与tRNA丰度有关,可以预测细胞中的核糖蛋白以及相关合成酶在细胞中的位置[23];

5、同义密码子的使用偏性还与基因功能相关,可以对待测基因的功能进行预测。

WRKY基因是植物特有的转录因子家族,通过与顺式作用元件W-盒特异结合从而调控下游目标基因表达,参与生物和非生物胁迫应答反应、信号分子传递、植物衰老和器官发育等一系列生理活动。

各种高等植物当机体受到机械损伤、病原物侵害或者非生物胁迫诱导时,WRKY基因都能大量而快速的表达。

因其成员都至少含有一个保守的由60个氨基酸组成的结构域,并且该结构域N端有高度保守的WRKYGQK核心序列而得名。

以WRKY结构域的系统发生关系及锌指结构的特征为基础,将其分为3个大组:

组包含两个WRKY结构域,锌指结构为C-X4-5-C-X22-23-H-X1-H;

组只含有一个WRKY结构域,锌指结构与

组相同;

组也只含有一个WRKY结构域,但锌指结构为C-X7-C-X23-H-X1-C。

在其进化关系上,

组代表最原始的基因形式,

组由

组进化而来,

组进化形成[24]。

目前在密码子使用偏性研究方面,主要集中在对已知全基因组序列的低等生物和模式生物如病毒、细菌、酵母、线虫、果蝇、人和拟南芥等的基因组密码子使用模式研究,对单一功能基因家族的密码子用法研究较少。

本文将对拟南芥和水稻的WRKY基因家族的密码子用法进行比较分析,明确该基因家族在单、双子叶植物中的密码子用法特点,为深入研究其进化、表达调控机制和提高该基因家族新成员预测的准确性等提供重要理论依据。

1材料和方法

1.1材料

1.1.1数据

从植物转录因子数据库(,http:

//ricetfdb.bio.uni-potsdam.de/)分别下载了拟南芥和水稻WRKY基因的CDS(CodingDNAsequence)序列(2007-8-3)。

拟南芥tRNA基因拷贝数来源于拟南芥基因组tRNA扫描分析数据库(http:

//lowelab.ucsc.edu/GtRNAdb/Athal/),水稻的相应数据来源参见Xi等的文献[25]。

采用C语言编写程序,筛选从数据库下载的CDS序列,筛选原则如下:

CDS长度大于或等于300bp;

以ATG为起始密码子,并以TAG、TGA或TAA为终止密码子;

不含除A、T、C、G字符以外的碱基。

最终筛选到符合条件的拟南芥84条CDS、水稻112条CDS作为本文的分析样本。

1.1.2软件

CodonW软件(version1.4,http:

//bioweb.pasteur.fr/seqanal/interfaces/codonw.html)用于对应性分析和计算各项同义密码子使用偏性的衡量指标。

MicrosoftEXCEL用于数据相关分析和图表绘制。

1.2方法

1.2.1基因分类

用C语言编写程序,根据其结构特点分别查找并整理出拟南芥和水稻的3类WRKY基因。

对于少数变异的基因[24],根据WRKY结构域和锌指结构的特点归于亲源关系相近的一类。

1.2.2密码子使用偏性相关数据量的计算

(1)密码子使用的相对概率(RelativeSynonymousCodonUsage,RSCU)对于某一特定的密码子i,RSCUi指编码同一氨基酸的密码子间的相对概率,它的计算方法如下公式。

如果密码子使用无偏好性,则RSCU值为1;

如果该密码子比其他同义密码子使用更频繁,则其RSCU值大于1;

反之亦然。

由于该指标计算简单,除出了氨基酸的组成对密码子使用的影响,而且比较直观的反映了同义密码子的使用偏好,因此应用最为广泛。

式中,Xij是编码第i个氨基酸的第j个密码子的出现次数,ni是编码第i个氨基酸的同一密码子数量(值为1-6)。

(2)GC含量(GC1、GC2和GC3)GCn指在密码子第一、二和三位上的GC含量分布。

GC3S不同于GC3,是指编码同一氨基酸的同义密码子的第三位的GC含量。

GC3S除去了氨基酸组成对密码子使用的影响,因此在研究密码子使用的频率与GC含量的关系时,多采用GC3S这一标准。

(3)有效密码子数量(Effectivenumberofcodons,Enc)[26,27]对于某一基因,Enc指基因中使用的有效密码子数量。

它的计算方法如下公式。

当基因的密码子使用偏性最大时,其值为18;

反之当密码子使用无偏性时,其值为59。

此值是描述密码子使用偏离随机选择的程度,能反映密码子家族中同义密码子非均衡使用的偏好程度。

已知高表达基因其密码子偏好程度大,从而Enc值较小;

低表达基因则含有较多种类的稀有密码子,Enc值也较大。

所以,当前普遍通过Enc值来确定内源基因的表达量的相对高低。

Enc=2+9/F2+1/F3+5/F4+3/F6

n>

1

其中n指基因中密码子使用的密码子总数,k为同义密码子的数量,pi为第i个密码子的使用频率。

1.2.3对应性分析

对应性分析(Correspondenceanalysis)是一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系,可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。

它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。

样本属性相近的在图上分布相对集中;

属性相差大的样本在图中分布较远。

为探究不同基因在密码子用法上的变异趋势,我们实现了针对RSCU值的对应性分析。

该方法通过计算将样本中所有基因分布到一个58维(58个同义密码子)的向量空间中,其中每一个点就代表一个同义密码子。

密码子用法特点通过图中的每一个点之间的位置体现出来。

应用这些结果能够探究基因间RSCU值的变异情况,从中可判别影响基因密码子使用的主要因素。

1.2.4最优密码子的确定

在高表达基因中使用频率最高的密码子称为最优密码子,本文将所有参试基因,根据其Enc值的大小对序列进行排序,选取该有序数据集的上下限区域各10%作为高表达和低表达基因样本,然后分别计算两个基因样本各个密码子的平均使用频次,然后进行χ2检验,在高表达基因中使用频率高且达到显著水平的密码子为最优密码子。

2结果与分析

2.1基因的碱基组成

表1分别列出了位于拟南芥和水稻WRKY基因编码序列的密码子各个位置的GC含量和GC3S值。

从表1可以看出,拟南芥WRKY基因家族密码子三个位置的GC含量均小于50%,GC1>

GC2>

GC3,GC3S为39.6%;

水稻密码子各位的GC含量均大于50%,其中第三位GC含量最高(72.4%),其次为GC2,GC3S为71.4%。

水稻WRKY基因密码子各位置的GC含量均高于拟南芥,尤其在密码子的第三位差异最大,表明水稻WRKY基因偏向使用以G或C碱基结尾的密码子,而拟南芥偏好使用A或T碱基结尾的密码子。

WRKY三类基因的GC含量比较可知,拟南芥

类基因在密码子的第一位和第二位GC含量有逐渐降低的趋势,但密码子第三位的GC含量却明显增加;

水稻三类基因在密码子三个位置上的GC含量均逐渐增加,第三位增加弧度最大。

由此可见,无论在单子叶还是双子叶植物中,WRKY基因的进化趋势一致,即密码子第三位的GC含量逐渐增加。

表1拟南芥和水稻的WRKY基因密码子不同位子的G+C含量和GC3S

Table1G+CcontentandGC3scontentofdifferentpositionofcodonsinWRKYgenesofArabidopsisandRice

typeI

typeII

typeIII

Allgenes

拟南芥

水稻

GC1

0.51

0.593

0.083

0.492

0.592

0.100

0.465

0.624

0.159

0.494

0.595

0.101

GC2

0.453

0.504

0.051

0.426

0.508

0.082

0.412

0.545

0.133

0.431

0.510

0.079

GC3

0.381

0.649

0.268

0.418

0.729

0.311

0.862

0.397

0.414

0.724

0.310

均值

0.448

0.582

0.134

0.445

0.610

0.165

0.447

0.677

0.230

0.446

0.164

GC3S

0.367

0.638

0.271

0.400

0.719

0.319

0.444

0.857

0.413

0.396

0.714

0.318

注:

△为拟南芥和水稻WRKY基因的GC含量的差异

Notes:

△indicatethediscrepancyofG+CcontentinWRKYhomologygenesbetweenRiceandArabidopsis

2.2WRKY基因密码子的对应性分析

对应性分析结果显示,拟南芥WRKY基因前4个因子轴对变异方差的贡献分别为12.05%、9.34%、7.13%和6.82%,水稻前4个轴对变异方差的贡献分别为50.25%、4.71%、4.19%和3.19%,其余各轴对变异方差的贡献更小。

由此可知,拟南芥各轴对变异方差的贡献差异较小,密码子使用偏性由多个因素共同作用;

水稻第一轴对变异方差的贡献高达50%以上,且远远高于其它各轴,表明第一轴是解释基因密码子使用偏好的主要参考轴,决定第一轴的因子是引起水稻WRKY基因密码子使用偏性的最主要因子。

各基因和各密码子在前两轴的分布见图1和图2。

从图1可以看出,拟南芥WRKY基因在1、2轴上分布相对较集中,说明这些基因的密码子用法相似;

而水稻的WRKY基因在第1轴上能得以基本分离,说明这些基因在密码子的使用上存在较大差异。

同时,从拟南芥和水稻WRKY基因的分布图可看出,第

类基因分布在第一轴的左侧,第

类基因分布在第一轴的右侧,而第

类基因则覆盖整个轴的绝大部分范围。

以A、T、C和G不同碱基结尾的密码子在1、2轴上的分布(图2)可知,拟南芥WRKY基因的密码子分布规律不明显,而水稻以A和T结尾的密码子分布于第一轴的左侧,以G和C结尾的密码子分布于第一轴的右侧。

对于拟南芥,对应分析中的第1轴与GC含量、Enc的相关系数分别为0.476715和0.081548,前者极显著相关,后者不相关,表明拟南芥的WRKY基因同义密码子的使用偏好受碱基组成(GC含量)影响,而不受基因表达的水平影响;

对于水稻,对应分析中的第1轴与GC、Enc的相关系数分别达到0.979379和-0.88301,均极显著相关,且相关系数较大,表明碱基组成和基因表达水平都是影响水稻WRKY基因同义密码子的使用偏好性的主要因素,受碱基组成的影响更大。

ArabidopsisWRKYgenesplots

RiceWRKYgenesplots

图1拟南芥和水稻WRKY基因在对应分析中前两个向量轴上的分布

Fig.1ProjectionofArabidopsisandRiceWRKYgenesonthefirsttwoprincipleaxesofcorrespondenceanalysis

ArabidopsisWRKYgenescodonplots

RiceWRKYgenescodonplots

图2拟南芥和水稻WRKY基因所使用的59种同义密码子在对应分析中的分布

Fig.2Projectionof59synonymycodonsonthefirsttwoprincipleaxesofcorrespondenceanalysis

2.3Enc-plot分析[16,17]

利用有效密码子数与GC3S含量绘制散点图能直观地反映出密码子使用的偏性情况(图3)。

通过Enc-GC3s分布图,比较实际值与理论值之间的关系可以判断除碱基组成限制外是否还有其他因素影响密码子用法。

如果GC3S唯一决定密码子用法,那么实际代表基因的点就将完全落在理论曲线上,或落在离理论曲线很近的区域内。

图3中的绿色连续曲线为无选择压力的情况下Enc和GC3S之间的对应关系。

从图知,拟南芥和水稻的WRKY基因均只有小部分基因恰好位于预期的Enc-plot曲线上,暗示这些基因的密码子用法几乎完全由GC3s造成;

但是绝大部分基因点都分布在该曲线的下面,表明除碱基组成偏性外,自然选择等其他因素对密码子的使用可能也有重要影响。

拟南芥WRKY基因的Enc随GC3S含量的增加而增加,Enc与GC3S含量之间呈极显著的正相关,相关系数为0.395;

水稻WRKY基因的Enc随GC3S含量的增加而减少,他们呈极显著负相关,相关系数为-0.89295。

以上分析表明,无论拟南芥还是水稻的WRKY基因,GC3S对密码子的使用偏性均有影响,其中水稻WRKY基因密码子的使用受GC3s影响更大。

ArabidopsisWRKYgenesplots(GC3s-EnC)

RiceWRKYgenesplots(GC3s-EnC)

图3GC3S相关的Enc

Fig.3EncplottedagainstGC3S

2.4最优密码子的确立

拟南芥和水稻WRKY基因家族的最优密码子分别为11个和27个(表2)。

拟南芥的最优密码子中,有4个以G结尾,6个以T结尾和1个以A结尾,而水稻WRKY基因家族的27个最优密码子均以G或C结尾。

从tRNA丰度来看,拟南芥的11个最优密码子中有7个密码子对应的tRNA丰度较高,水稻的27个最优密码子中有18密码子对应的tRNA丰度较高,表明WRKY基因家族同义密码子的偏好使用很大程度上受tRNA丰度影响,但并非唯一影响因素。

表2拟南芥和水稻WRKY基因59种同义密码子的使用频率

Table2Averagerelativefrequenceof59synonymouscodonsinhighlyexpressedandweaklyexpressedgenesofWRKYfamiliesofArabidopsisandRice

Arabidopsis

Rice

Aminoacid

Codon

Highexpressed

Weakexpressed

tRNAcopyno.

tRNAcopyno.

Phe

TTT**

1.240

0.380

TTT

0.040

1.180

TTC

0.760

1.630

16

TTC**

1.960

0.820

15

Leu

TTA

1.330

6

0.060

0.960

7

TTG**

1.640

0.580

10

TTG

0.170

1.350

9

CTT

1.520

1.080

12

0.220

1.710

19

CTC

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > IT认证

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1