出芽酵母基因序列GC含量统计Word文档下载推荐.docx
《出芽酵母基因序列GC含量统计Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《出芽酵母基因序列GC含量统计Word文档下载推荐.docx(8页珍藏版)》请在冰豆网上搜索。
张娟荣
文献资料查阅
杨家珺
PPT制作与演讲
何京
课程项目报告制作
二、报告内容
1、基本要求:
基因和基因间序列作为两个独立样本;
每个基因序列(或基因间序列)作为一个个体;
GC含量作为随机变量;
比较两个随机变量分布特征;
阐述其生物学意义。
GC含量=GC数量/基因长度
2、猜想:
1.基因中的GC含量较高
原因:
CG含量与DNA的稳定性有关,为了保持基因的稳定性,可能GC含量较高。
2.基因间的GC含量较高
原因:
由于基因片段除了复制之外,还需要转录,为了及时方便的打开,可能GC含量较少。
3、实验过程及结果分析
4、GC含量的生物学意义
三、实验过程
1、主要思路:
编写程序导入基因文件,编写函数循环计算每段序列的GC含量,将计算好的每段GC含量存入一个数组,再从数组中计算总体的均值及方差。
2、设计方案:
调用ifstreamfile输入基因文件,按顺序向前搜索,每遇到“>
”调用getline函数一行一行读基因序列,若遇到”G”或”C”则计数,否则继续向前搜索.编写jisuan函数统计每段GC含量,为了确保jisuan函数程序能够循环调用,使用return语句返回函数。
创建数组H[]存放每段计算出的GC含量,再编写程序计算各段GC含量的均值及方差。
3、定义:
样本:
基因组序列、基因间序列
个体:
每一段基因序列
随机变量:
GC含量
4、主要代码:
#include<
iostream>
usingnamespacestd;
fstream>
//头文件以进行文件输入
sstream>
//头文件以创建类
doubleJisuan(stringjy)
{
intt,m=0,n=0,i=0;
doubleh;
while(jy[i]!
='
\0'
)
{
if(jy[i]=='
C'
||jy[i]=='
G'
{
m++;
i++;
}
elseif(jy[i]=='
A'
T'
{
n++;
i++;
}
elsei++;
}
t=m+n;
if(m!
=0&
&
n!
=0)
h=double(m)/double(t);
cout<
<
h<
endl;
returnh;
//返回函数
elsereturn0;
}
intmain()
doubleH[7000];
//创建数组
doubleaver=0;
doublevari=0;
intj=0;
stringline;
ifstreamfile("
F:
\orf_coding_all_R64-1-1_20110203.txt"
);
//导入文件
while(file)
getline(file,line,'
>
'
//遇到’>
’开始按行读
H[j]=Jisuan(line);
j++;
//cout<
j<
for(inti=0;
i<
j;
i++)
//cout<
H[i]<
aver+=H[i];
aver=aver/i;
cout<
"
平均值:
aver<
for(i=0;
vari+=(H[i]-aver)*(H[i]-aver);
vari=vari/i;
方差为:
vari<
return0;
五、实验结果
1、计算结果
基因
基因间
均值:
0.40238
0.339116
方差:
0.00245471
0.00328109
2、试调分析
基因组序列
基因间序列
基因组序列GC含量分布条形图
六、误差来源及改进
误差:
程序计算误差;
绘图误差。
改进:
代码可进一步简短;
使用perl、python语言更简单;
用matlab绘图更直观。
七、实验心得及体会
通过本次的课程设计提高了我们的编程及创新能力,文献阅读能力,PPT制作水平等,促进了大家的交流合作,同时使我们对C++编程有了更深的理解,但是由于学得不深,对于文件的导入、函数的循环调用等不是很了解,不太清楚计算机到底是怎样存储的数据的,数据存储的利用率的高低。
以后要加强理论知识的学习与实践操作能力的培养,熟练掌握一门编程语言,争取早日成为一名合格的生物信息人。
八、生物学意义
背景:
GC含量是在所研究的对象(例如放线菌)的全基因组中,(鸟嘌呤)(Guanine)和胞嘧啶(Cytosine)所占的比例。
一种生物的基因組或特定DNA、RNA片段有特定的GC含量。
在DNA链中G和C是以三个氢键相连,而T和A则是两个氢键相连的。
氢键的多少体现连接的能量,氢键多的不容易被打断。
在双链DNA中,腺嘌呤与胸腺嘧啶(A/T)之比,以及鸟嘌呤与胞嘧啶(G/C)之比都是1。
但是,(A+T)/(G+C)之比则随DNA的种类不同而异。
GC含量愈高,DNA的密度也愈高,同时热及碱不易使之变性,因此利用这一特性便可进行DNA的分离或测定。
基因表达与哺乳动物DNA碱基GC含量的关系:
哺乳动物染色体的特性是DNA的碱基组成可大量改变[即等值区(isochores)]。
与以前的研究相矛盾之处是,Lercher等(HumMoIGenet,2003,12:
2411)最近的研究发现基因表达广度与GC含量相关,由此推测可能存在一种选择压力,它有助于富含GC的等值区中管家基因的集中。
Lercher等应用不同的基因表达研究方法(EST,SAGE和微阵列)和不同的GC含量检测方法在人和小鼠体内进行实验,以重新评估基因表达与GC含量的相关性。
结果显示,GC含量与基因表达之间有很弱的相关性,并可随所使用的基因表达检测方法的不同而变化。
这种弱相关性的预测值很低。
由此推断特定基因的表达依赖于其所在区域的GC含量的观点是不成立的。
对DNA甲基化异常的病理学意义及甲基化检测方法:
亚硫酸盐降低CG含量的PCR用于脆性X染色体诊断得PCR方法。
由于亚硫酸盐能使相应区域的DNA反义链中的CCG转变为UCG,PCR反应时即成为TCG,从而使甲基化CGG重复序列的GC比由100%降为66%。
该方法对其他疾病的诊断没有广泛性的借鉴价值,但就脆性X染色体诊断而言,则极大地简化了诊断过程。
人类性染色体假常态区GC含量的进化研究:
根据前人的研究结论,在人、鸟类、啮齿类、线虫、昆虫、植物和酵母的基因组中,重组率和GC含量之间有一个显著的正相关性;
而且,在哺乳动物和酵母中,研究人员发现重组本身具有致突变性质,重组被认为是碱基组成进化的主要动力之一。
重组推动了碱基组成的进化,虽然这一主流假说已经被广泛接受,碱基组成的进化机制却还没有被阐明。
根据前人的研究,有两个模型最有可能用来解释碱基组成的进化机制:
偏向性基因转换模型(thebiasedgeneconversionmodel,BGC)指出,由于在减数分裂过程中错配的修复机制是偏向于GC,所以在那些GC/AT的杂合位点GC倾向于被固定下来,基因转换的过程使得重组频繁区域的GC含量得到相应的升高;
局部偏向性突变模型(theregionalmutationbiased,RMB)认为,是由于基因组不同区域的GC→AT:
AT→GC比例不同,才导致这些区域间的碱基组成差异。
重组的致突变性质能够增加AT→GC新突变产生的概率,在中性条件下,如果局部的突变是偏向于AT→GC的产生,那么该区域的GC含量就是增加,反之亦然。
有力的证据从各方面支持着偏向性基因转换模型和局部偏向性突变模型,因为BGC模型认为GC有优先被固定下来的优势,而RMB模型则认为碱基组成的进化是中性的,所以可以通过研究进化过程中等位基因的固定是否具有偏向性来区分两者在碱基组成进化中的作用。
人的X和Y染色体在两端的两个很小的区域配对并发生重组,这样的区域称为假常态区(pseudoautosomalregion,PAR)。
位于X/Y染色体短臂的假常态区为PAR1,长约2.6Mb,与类人猿的假常态区高度同源,PAR1在雄性减数分裂过程中的重组率是基因组平均水平的20倍。
X/Y染色体的长臂有一个较小的假常态区PAR2,约330kb大小,重组率只有基因组平均水平的5倍多。
PAR1是研究重组在碱基组成进化中作用的理想材料,该区域中基因越靠近端粒GC含量就越高,形成了一个GC含量逐渐升高的梯度。
由于在PAR1中,越靠近端粒的部分重组率就越高,所以我们期望在PAR1中重组率和GC含量也同样有一个显著的正相关性。
八、参考文献
1.ZHOUCui-lan,YINYu-fang,ZHANGJia,etal.BiologicalImplicationsofDNAMethylationandDNAMethylationAssays,1672-7444(2005)02-0148–06.
2.MonkM.Epigeneticprogrammingofdifferentialgeneexpressionin
developmentandevolutionJ.DevGenet,1995,17(3):
188-197.
3.EhrlichM.DNAmethylationincancer:
toomuchbutalsotoolittle
J.Oncogene,2002,21(35):
5400-5413.
4.LiQ,AhujaN,BurgerPC,etal.MethylationandsilencingoftheThrombospondin-1promoterinhumancancerJ.Oncogene,1999,18:
3284-3289.
5.DengG.MethylationofCpGinasmallregionofthehMLH1pro2moterinvariablycorrelateswiththeabsenceofgeneexpressionJ.CancerRes,1999,59(9):
2029-2033.
6.GriggG.Sequencing5-methylcytosineresiduesingenomicDNA
J.Bioessays,1994,16(6):
431-436.
7.HiltunenMO,AlhonenL,KoistinahoJ,etal.Hypermethylation
oftheAPC(adenomatouspolyposiscoli)genepromoterregioninhumancolorectalcarcinomaJ.IntJCancer,1997,70(6):
644-648.
8.MelkiJR.ConcurrentDNAhypermethylationofmultiplegenesinacutemyeloidleukemiaJ.CancerRes,1999,59(15):
3730-3740.
9.PanagopoulosL,LassenC,KristofferssonU,etal.AmethylationPCRapproachfordetectionoffragileXsyndromeJ.HumMu2tat,1999,14
(1):
71-79.
10.ZhouY,LawHY,BoehmCD,etal.RobustfragileX(CGG)ngenotypeclassificationusingamethylationspecifictriplePCRas2sayJ.JMedGenet,2004,41:
e45.
11.NeddermannP,GallinariP,LettieriT,etal.Cloningandexpres2sionofhumanG/Tmismatch—specificthymine—DNAglycosylaseJ.JBiolChem,1996,271(22):
12767-12774.
12.TommasiS,DenissenkoMF,PfeiferGP.Sunlightinducespyrimi2dinedimerspreferentiallyat5-methylcytosinebasesJ.CancerRes,1997,57(21):
4727-4730.
13.SoaresJ,PintoAE,CunhaCV,etal.GlobalDNAhypermethyl2ationinbreastcarcinoma:
correlationwithprognosticfactorsandtumorprogressionJ.Cancer,l999,85
(1):
112–118.