ImageVerifierCode 换一换
格式:DOCX , 页数:14 ,大小:29.08KB ,
资源ID:27601682      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/27601682.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(微卫星基因组分布假定功能和突变机制.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

微卫星基因组分布假定功能和突变机制.docx

1、微卫星基因组分布假定功能和突变机制微卫星:基因组分布,假定功能和突变机制 You-Chun Li*, Abraham B. Korol, Tzion Fahima, Avigdor Beiles and Eviatar Nevo 摘要: 微卫星,又称简短*重复序列,在整个基因组中有大量分布并表现出较高水平的多态性。SSR的遗传进化机制尚不明了存在争议。在这里我们试图总结与SSR在基因组编码区与非编码区的分布和功能重要性方面能够获得的相关数据。大量证据表明SSR在基因组中的分布并非随机的。至少部分SSR座位长度的延伸或收缩是受选择的,这有可能是因为他们影响了染色质的组织,基因活性的调控,重组,细

2、胞的周期,错配修复系统。本文同时讨论了SSR 的两种可能突变机制复制滑动和重组,以及他们在SSR变异中的相互作用。 基因组的微卫星(simple sequence repeat;SSRs),16bp的核苷酸基序重复,在目前已分析过的所有生物基因组中都能检测到它的分布,而且它的频率通常比单纯依靠碱基组成的预测要高(Tautz & Renz 1984; Epplen et al. 1993)。Bell认为SSRs在整个基因组的丰度和长度分布可能来源于非偏移的一步随机移动(single-step random-walk)过程。一些学者认为SSRs是在选择上呈中性的序列随机或近似随机的分布在整个真核生

3、物基因组中(Schl?tterer & Wiehe 1999; Schl?tterer 2000)。Bachtrog et al. (1999)检测到一个重要的AT含量与(AT/TA)密度之间的正相关关系,表明SSR的起源发生是一个随机的过程。但是,他们也发现在他们分析的Drosophila melanogaster. SSRs连续序列中有39%不是随机分布的。 最近的文献中关于SSR进化解释也存在争议。大量的研究已经积累了关于与等位基因大小限制相关(Garza et al. 1995; Dermitzakis et al. 1998; Samadi et al. 1998; Li et al

4、. 2000c; 2002a)的SSR结构类型和功能重要性(reviewed in: Kashi et al. 1997; King et al. 1997; Kashi & Soller 1999; King & Soller 1999; Gur-Arie et al. 2000)方面的数据。尽管如此,但是SSRs一般被认为是在进化上呈中性的DNA标记(e.g. T achida & Iizuka 1992; Awadalla & Ritland 1997; Schl?tterer & Wiehe 1999)。这些争议需要更多SSR功能重要性的证据并证明关于基因组SSRs进化重要性的综合讨论

5、。一种方法是试图从定性即功能对中性的角度来分析SSR变异现象,这并不适合这一问题。实际上,如果这个问题从定量上而不是定性上系统阐述,SSR变异的相对解释可能就没有根本的冲突。关于SSRs和他们的多样效应方面有丰富的证据证实了这一方法。 目前的综述集中在以下几个方面:SSR在基因组编码区和非编码区的分布;(ii) 进化重要性和SSR基因组分布的动态学;(iii) SSR在基因表达和遗传紊乱,染色质组构,细胞周期和DNA 代谢过程中的效应/功能;(iv)复制滑动和DNA复制机制与重组对SSR突变的相对作用。SSR在非编码DNA中占了很大的比例而在蛋白质编码区却相对稀少。例如,在54个植物物种中发现

6、的所有101个单-,双-,四-核苷酸SSRs都在非编码区。在7个真核生物进化枝即accharomyces cerevisiae, Caenorhabditis elegans, Schizosaccharomyces pombe, Mus, Drosophila, plants, and primates所有类型的SSRs(从单-到六-核苷酸重复)大多数(与随机分布相比)都在基因组的非编码区(Wang et al. 1994). Morgante et al. (2002)报道除三核苷酸和六核苷酸外的所有SSR在六个植物物种(Arabidopsis, rice, soybean, maize,

7、 and wheat)中的25762个预测的蛋白质编码序列中的频率要明显的少于非编码区。在Japanese pufferfish, Fugu rubripes的基因组中,6042个SSRs中有11.6%能在蛋白质编码区中检测到(Edwards et al. 1998)。这是因为对编码区的移框突变有负选择作用(Metzgar et al. 2000)。以前,在fungi, protists, prokaryotes, viruses, organelles, plasmids and humans的基因组中发现三元SSRs在编码区和非编码区有相似的分布类型。但是,与疾病相关的三元重复大多是在人类

8、基因组的编码区发现的。同样Morgante et al. (2002) 最近发现三元SSRs在上述六个植物物种中编码区的频率加倍,这是因为突变压力以及对特异单核苷酸延伸。一些三元阵列在长时期内并不是广泛保守的即使他们形成了蛋白质编码序列的一部分,因为长三元重复在减数分裂或配子形成时是不稳定的。 在许多物种发现的大部分SSRs是双核苷酸的,但在灵长类中单核苷酸主要是,poly(A/T)序列是最多的一类SSRs。与三元SSRs相比,二元和四元SSRs在编码区的频率要比非编码区的低。例如,Norway spruce, Picea abies中双核苷酸重复在表达序列的频率比在随机基因组克隆中的频率低二

9、十倍。在八个原核生物和酵母中,长单-和双-序列广泛分布在非翻译区。对于完美二聚体SSRs,Bell & Jurka (1997)发现在编码区和其他功能上很重要的区域短重复(3个单元)是能够通过Bernoulli model预测的;(ii)在非编码区的长的(5个单元)完美型二聚体SSR DNA的长度分布符合非偏移一步突变模型。在这个模型中,重复是能够通过增加或减少一个单元来改变长度的,同样碱基替换也会破坏一个长的完美型重复从而产生两个短的完美型完美重复。通过对human, mouse, worm (Caenorhabditis elegans), 和yeast 基因组DNA 序列的分析发现所有可

10、能二聚体SSRs在编码区的分布函数呈指数性而在非编码区有一个有一个出人意料的长尾很好的符合power-law函数。假设这些长的非指数尾巴是由于非编码区DNA对突变有很高的耐受性。一些基因的5 和/或3 端非翻译区有二核苷酸SSRs分布,例如channel catfish Ictalurus punctatus 的5个基因以及哺乳动物热激蛋白70基因(GA)6CAG(TC)24 tract: Lisowska et al. (1997)。二核苷酸SSRs 在内含子中也有发现。例如,在Mus musculus Adh-1 基因的内含子A中有(TA)14 (TG)8, and (TA)19, and

11、 IL-5 基因的内含子中有(AT)17; 在Betula pendu 树BVGC34基因的内含子中有(CA)17 (TA)14, and (TGTA)3. 在3 and 5 区和内含子中的二- 或四-SSRs 的潜在的大小延伸能构通过移框突变打断原来的蛋白或者形成新的基因。这表明二- 或四-SSRs 的随机分布受到很强的选择。对于一定数目的重复基序来说, 四核苷酸座位要比二核苷酸座位长。这可能影响选择压力,如果在减数分裂过程的稳定性依赖于目标区域的的绝对大小。含有长重复单元的座位好像在不同的大小上经历更强的选择尤其是在基因组中具高重组率的区域。 这些发现同时表明在编码区和非编码区SSR频率的

12、差异是由对编码区移框突变的特异选择引起的,而这移框突变是由非三联体重复的长度改变引起的。尽管如此,但是在所有的蛋白质中有14%含有重复序列,真核生物重复基序的丰度是原核生物的三倍。原核的和真核的重复家族成簇聚集在非同源蛋白质附近。这可能是因为重复序列是在这两界分裂后出现的。真核生物整合由更多的重复可能在进化上有优势更快的适应新环境。 Tth et al. (2000) 对从真菌到人类的几个分类群的SSRs进行了详细的分析,揭示不同重复类型的不同基序在编码核非编码区,内含子和基因间区域的分布有很高的类群特异性类型。这种特异性可以部分的通过突变机制和分化选择的相互作用来解释。积累的经验似乎表明脊椎

13、动物中的SSR 要比无脊椎动物中的更丰富更长,在脊椎动物中的冷血动物中有更长的SSR 序列。有趣的是Tth et al. (2000)比较的类群中,有最大丰度的是啮齿类而有最小丰度的是C. elegans。 Eyre-Walker (1999)发现在非编码区的组成性突变并不能仅靠突变偏依性来解释,选择可能起到重要的作用。与中性突变理论的预测相比,非编码DNA在位置上限制了条带类型短散在重复分布在R-带(the primitive chromatin state),长散在重复在G-带(吉姆萨黑带: Holmquist 1989)。据推测每一个*重复序列受局部和一般的生物学活性的影响来决定它的不稳

14、定水平。非编码区DNA的动态组织性表明一个回文环能影响密码子的使用和染色体染色质类型的稳定性。保守的非随机密码子的使用,或者全部氨基酸使用或者两者在短重复的过量和长重复的选择上都有重要的作用。等级选择理论说明了选择是怎样在基因组的水平上作用于非编码DNA产生位置限定的DNA和在个体水平上促成最小的遗传负荷的。基因组中的重复的整体水平与基因组的大小和重复的水平有关系,这表明整个基因组可能对一致状态的简单重复序列的增加有反应。现在表明基因组内、物种高等分类群间的各种非随机类型的SSR变异需要功能上的解释。 虽然常认为SSRs是在进化上呈中性的DNA标记,但是实质部分的SSRs的功能重要性已经被 各

15、种生物现象的严格试验所证实,如图1和下面所示。 染色质组织 染色体组织。一些SSR的分布表明他们可能在类群特异性染色体结构方面起作用。例如,SSR 杂交信号出现在相关的染色体位置而与所用的基序无关,而且在小麦和黑麦中有明显的相似的分布类型,表明SSRs在染色体组织中有特殊作用可能是tribe Triticeae中的一个古基因组成分。在GWM601定位的4A染色体的短臂座位上,CT重复在野生二粒小麦中保持(CT)17,在它后代培养小麦中国春中有明显的相似性,表明这一基因座可能与4A染色体组织的某些方面有关。此外短重复序列的大量存在不仅对基因组的稳定性十分重要,同时也与其他基因组特征(密码子的使用

16、)的进化有关。 DNA的结构。SSR DNA序列能够形成各种罕见的由简单和复杂的环-折叠组成的DNA结构。例如,由脆弱的X重复(CCG)形成的发夹结构,由(GAA)/(TTC)形成的二重三叶,都有简单的环-折叠。这种三叶结构可能对基因表达重要的调控效应。人着丝粒重复(AATGG)能够形成双折叠的发夹DNA结构。同样的,已证明短的三联体重复能在单链时形成很多二级结构。较长的(CAG)和(CTG)重复在变性复性后产生罕见的二级结构。这种稳定二级结构的形成提供了一种解螺旋机制,这在转录中时很有优势,并提供了单一蛋白识别基序。在许多物种中,二聚体SSR相对丰度,代表了departure从基因组序列的随

17、机性,有可能反映了双链曲线,超螺旋,和其他的高等DNA结构特征。重复数好像是一个重要参数,决定了从罕见结构在基因表达获得的优势和在复制中获得的劣势之间的平衡。 着丝粒和端粒 在许多物种中,着丝粒区由大量的*重复组成,它影响着丝粒的组织。在tomato (Areshchenkova & Ganal 1999), Arabidopsis (Brandes et al. 1997), and sugar beet Beta vulgaris (Schmidt & Heslop-Harrison 1996)的着丝粒区单-,双-,三-和四核苷酸SSR基序聚集成簇。对Neurospora crassa着丝

18、粒区重复DNA的基因组Southern印记和序列分析表明一个特异着丝粒结构包含一个趋异着丝粒特异重复家族。N. crassa 着丝粒区简单重复的特征和分布与Drosophila 着丝粒区是一样, 但是每种重复的相对丰度对Neurospora (Cambareri et al. 1998)。来说是特异的。在Drosophila的微型染色体中,着丝粒侧异DNA序列中占绝对优势是高度重复序列,normal transmission所需的重复数随细胞分裂类型和性别的不同而不同。趋异*重复序列组合成染色体特异的高级重复是许多生物着丝粒的一般特征,并表明形成维持高级重复的进化机制在他们的基因组中是保守的。

19、(Janzen et al. 1999). 重复性序列在许多物种主缢痕的普遍存在也支持着丝粒结构与功能之间有很强的进化联系(Eichler 1999)。着丝粒侧翼重复DNA可能有两种功能:姐妹染色单体的附着和间接与动粒形成或行使功能相联系。(Murphy & Karpen 1995)。 DNA代谢过程的调控 重组。大量SSR和小微星DNAs被认为是重组热点(Jeffreys et al. 1998; Templeton et al. 2000)。simian virus 40 (Wahls & Moore 1990a), with yeast (Treco & Arnheim 1986), h

20、uman (Aharoni et al. 1993; Majewski & Ott 2000; Templeton et al. 2000), and mammalian cells (Wahls & Moore 1990b), and with bacteria RecA-independent质粒间重组(Murphy & Stringer 1986)的实验支持这一观点。二核苷酸重复是重组的优先位点,因为他们与重组酶有很高的亲和性。一些SSR 序列可能直接通过影响DNA结构来影响重组。曾提出GT、CA、CT、GA、GC或A T重复结合蛋白能通过诱导形成Z型DNA或其他构型的DNA来参与重组(

21、reviewed in: Korol et al. 1994; Karlin et al. 1998; Biet et al. 1999)。 重复数目也回影响重组。例如,能在体外检测到GT/GC SSR对依赖RecA的同源重组的影响。并且发现含有7、16、37个(GT)重复的分子进行链重组的分子数分别是从100%到80%和30%。Majewski & Ott (2000)分析了人22号染色体上不同SSRs的分布和重组密度。仅发 现SSR序列中只有GT重复和重组的升高有密切的联系。在酵母ARG4 中的(GT)39序列能够提高基因转变的频率。重复序列能极大的刺激多交换体的形成而对单个交换体的没有影

22、响(Gendrel et al. 2000)。上面所罗列的证据表明SSRs不仅能通过重复序列而且能够通过重复数目影响重组。 DNA重复和细胞周期 SSRs能够影响DNA复制(Field & Wills 1996)。在鼠细胞中,DNA的扩增能够被含有d(GA)27d(TC)27的特异片断阻碍。发现在扩增子的末端和反向重复的结合处有可能起到DNA体内复制的阻碍位点。在哺乳动物突变子表型CSA7克隆中,不稳定的(CA) n SSRs能与其他基因扩增事件共选择(Caligo et al. 1999)。SSR能影响控制细胞周期的酶。例如,人CHK1 基因在控制细胞周期progression中有一定的作用

23、。它的编码区含有(A)9序列(Codegoni et al. 1999),这一序列是SSR不稳定肿瘤的潜在突变位点(Bertoni et al. 1999)。在人结肠癌和子宫内膜癌中CHK1基因的改变与高度poly(A)序列不稳定有很大的关系。(A) n中A的插入和缺失将会产生删减的蛋白质。CHK1 基因的变化表示癌细胞的一种逃脱细胞周期控制的选择(Bertoni et al. 1999)。一些控制细胞周期的基因,像hMSH3, hMSH6, BAX, IGFIIR, TGFbetaIIR, E2F4 and BRCA2,都带有短重复序列,它们在细胞保真和生长控制上有重要作用。SSR不稳定性可

24、以通过重复单元的插入和缺失影响这些基因。大多数SSR-instability 肿瘤在一个以上的这些基因中有突变,并且长的重复序列更易突变(Johannsdottir et al. 2000)。也有证据表明在DNA修复和细胞周期关卡之间有关系:错配修复系统会对(TG)6 or N-methyl-N-nitro-N-nitrosoguanidine-induced DNA lesions做出反应而与G2细胞相互作用。在两个脊髓小脑共济失调类型7雄性的精子细胞中发现有很大的(CAG) n repeat扩展;很大比例的这类等位基因很可能与胚胎致死和精子功能紊乱有关(Monckton et al. 19

25、99; see also Parniewski et al. 2000 for the role of MMR system in deletions of large CAG tracts in Escherichia coli)。 真核生物DNA MMR基因中的SSRs是进化突变率的调节器。DNA MMR蛋白校正复制错误积极阻碍歧义序列间的重组(Chen & Jinks-Robertson 1998; Kolodner & Marsischky 1999),因此能控制突变率和进化适应。发现在minor MMR genes(MSH3, MSH6, PMS2 and MLH3) 编码区中成簇存

26、在的(A) n SSRs是真核生物包括Homo sapiens, Mus musculus, Saccharomyces cerevisiae, Schizosaccharomyces pombe, Drosophila melanogaster,Arabidopsis thaliana 和原核生物E. coli.一个普通特征。尽管在一些物种中,7-bp单核苷酸序列零星的发现于大的MMR基因(MSH2 or MLH1),更长的序列,是指数性的更易突变,专一的存在于小MMR genes(see review Chang et al. 2001)。SSR 更易自发的产生插入或缺失的突变,并且非三元

27、的SSRs, 当存在于编码区中时更易于高频率的引入移框缺失功能突变(Moxon et al. 1994)。最近的实验已证明在SSR-proficient 鼠细胞和SSR-deficient 人细胞中较长的SSR的突变率都是很高的(Yamada et al. 2002)。这些小的MMR蛋白质失活产生的突变表型要比大MMR蛋白(MSH2 or MLH1)产生的突变表型弱。高比率的移框突变使晓MMR基因失活将产生一个真核世系其中的个体极大的提高了突变率。Chang et al. (2001)假设SSRs在小MMR基因中的密度异常代表一种遗传转换使适应性突变率在进化时间上进行调整。 基因活性调控 SS

28、Rs 和转录。大量的线形证据表明位于启动子区域的SSRs可能影响基因活性。在Drosophila (Sandaltzopoulos et al. 1995), Aspergillus (Punt et al. 1990) and Phytophthora (Chen & Roxby 1997)热激蛋白基因hsp26启动子区的(TC) n 序列是转录元件。各种di-, tri- and tetra-SSR 序列的缺失极大的改变了转录活性。例如,CAT表达系统中c-KI-ras (Hoffman et al. 1990) and TGF-3 启动子的转录活性会因位于启动子区的(TCCC) n 序列

29、缺失而急剧降低 (Lafyatis et al. 1991)。此外,(GT) n 重复能在很远的距离增强基因的活性而不受其方向的影响,更靠近启动子序列的GT重复会更强的增强转录(Stallings et al. 1991)。位于内含子区的SSRs 也会影响转录。例如, 在酪氨酸羟化酶基因第一个内含子中的a tetra-SSR HUMTH01 就起到一个转录调控子的作用(Meloni et al. 1998)。Gebhardt et al. (1999, 2000) 发现位于表皮生长因子受体(EGFR)基因第一个内含子的(CA) n 序列能够影响转录活性。他们同时发现RNA 延伸在接近SSR下游

30、的位点中止并且有两个分离的主要的转录起始位点。对螺旋DNA构相的模拟计算揭示在EGFR 多态区有一个high bendability , 尤其是在CA序列延长时。这些数据表明(CA) n SSR 就像一个结合点, 使启动子与假定的抑制蛋白接近并使它结合到(CA) n SSR的下游。值得注意的是三元SSRs 可能更倾向于定位在于转录和信号转导有关的基因和未充分表达的结构蛋白基因(Young et al. 2000), 这都表明SSR 影响基因转录。 重复数目对基因表达的影响。在许多情况下, SSR 重复数是基因表达和基因表达水平的关键因子。一些基因只能在特异重复数目的SSRs 时表达。例如Esc

31、herichia coli lacZ基因启动子中的的(GAA)12 使lacZ 基因表达,而(GAA)14 16 和(GAA)5 11 都不能使该基因表达(Liu et al. 2000)。一些基因在一个很窄的SSR重复范围内能够表达而在这个范围之外基因的活性就会关闭。在酵母中,含(CTG/CAG) n 的启动子在n = 25 时URA3 报告基因就会表达并产生对to the drug 5-fluoroorotic acid的敏感。但是,这一序列在n=30时, UR3 就会关闭并产生抗药性(Miret et al. 1998)。另一类基因会通过在一个相对较大的范围内改变它们调控的SSRs的重复

32、数调整他们的重复数。在一个旨在验证(TG) 长度对pSV2-CAT (simian virus 40 enhancer plus) or pA10-CAT (enhancer minus) 增强子对表达质粒载体表达活性的影响的试验中,最大增强效应在30-40 bp 的(TG)时获得。在(TG)长度从40 增长到130 bp时,增强子活性降低,130 bp的(TG)的活性比50bp降低5倍(Hamada et al. 1984b)。有趣的是,在人类基因组中的大多数多(TG)元件在20到60bp之间,在这一系统中有最大活性(Hamada et al. 1984a)。表皮生长因子受体基因的转录活性随

33、(CA) 重复数目的增加而降低(Gebhardt et al. 1999, 2000)。在一个带有人雄性激素反应元件的CAT 报告系统中(该元件有人CAG重复以及二氢睾酮), 在25到77个重复的延伸突变范围内转录反应活性随CAG重复长度的增加而程序性降低(Chamberlain et al. 1994)。在使用稍有不同的报告系统并且男性激素受体多Gln的序列的长度在0到50之间时得到了同样结果(Lanz et al. 1995)。相反,一些基因的转录水平随SSR 重复数提高。例如,人脑的PAX-6 基因,moter activity of variants with 有29个重复的(AC) m (AG) n变异的启动子活性比2

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1