南开建模论文基因题Word文档下载推荐.docx
《南开建模论文基因题Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《南开建模论文基因题Word文档下载推荐.docx(10页珍藏版)》请在冰豆网上搜索。
黄茉菊、朱保军
指导老师:
刘彦
参赛单位:
天津师范大学数学科学学院
摘要
本文根据给定的HIV病毒DNA序列,对其建立数学模型,分析其碱基的分布及其相关性,并结合生物学背景,找到DNA序列中重要的位点,从而为艾滋病的研究提供帮助。
首先,利用选定的DNA片段,运用Matlab软件编程对这些位点进行对比,分析对应碱基位点的异同情况,我们从结论中可以看出,这些DNA片段的位点之间存在某些相关性。
其次,结合上面的分析,运用Matlab软件画图,若存在连续的点,那么这些位点之间就存在相关性,且连续点的个数是度量相关性的标准,即连续的点越多,越相关。
最后,运用VC++取HIV1_ENV的DNA序列前900个,将这些基因翻译成300个氨基酸,然后与HIV1_ENV_PRO中的蛋白序列进行对比,由此得到重要的位点。
关键词:
HIV基因,DNA序列,Matlab,氨基酸
一、问题的重述
艾滋病在全球的广泛流行已给人类带来了严重的危害,且尚无有效的疫苗和药物进行预防和治疗,因此控制艾滋病的流行仍是全球各国面临的重大公共卫生问题,对艾滋病的根治也是医学界的重大难题。
现有一些HIV序列,我们试图运用数学建模的思想通过对HIV序列的分析来断定这些序列上哪些位置比较重要,并解决下面的问题,从而给艾滋病的研究一些帮助。
1.1对于HIV1_ENV和HIV_GENOME中的DNA序列,构造数学方法对序的位点进行分析,指出这两者之间的异同。
1.2研究HIV序列位点之间或者某些位点之间是否存在相;
若存在,请度量这种相关性。
1.3找到HIV中较为重要的位点,并说明原因。
二、符号说明
A:
由1替代
C:
由2替代
G:
由3替代
T:
由4替代
矩阵A
B:
矩阵B
三、模型假设
3.1DNA是双链的,在该模型中假设我们都是以DNA的同一边来进行分析研究。
3.2HIV基因组翻译成蛋白的过程相对复杂,它会重复交叉使用某些基因片段,在该模型中假设DNA是按照顺序来翻译的。
3.3DNA序列有多个DNA片段,我们假设只选取其中前1000个DNA片段来进行建模。
3.4在基因转录和翻译过程中,不发生基因变异和重组。
3.5在解决第三个问题时,假设我们以HIV_GENOME中的900个碱基,即300个氨基酸为例。
四、问题的分析
问题一的分析,分别选取HIV1_ENV和HIV_GENOME中的1000个DNA序列,将碱基A、C、G、T分别由1、2、3、4代替,并将“-”删除。
运用Matlab软件编程对这些位点进行对比,分析对应碱基位点的异同情况。
原理是设HIV1_ENV的DNA序列为矩阵A,HIV_GENOME的DNA序列为矩阵B,其中矩阵A、B都为一维行列式,在矩阵C里。
将A、B对应位置相同的点赋值为5(常理应赋值为1,但因为1、2、3、4已用),A、B对应位置不相同的点赋值为0,运用Matlab软件编程出对应位置相同的点下标,看连续的点越多,HIV1_ENV和HIV_GENOME的DNA序列这两者之间的异同就很明显。
问题二的分析,在问题一的条件下,取HIV1_ENV和HIV_GENOME的DNA序列的前200个碱基。
将A、B对应位置相同的点赋值为5,A、B对应位置不相同的点赋值为0,运用Matlab软件画图,连续的点越多,那么越相关,且连续点的个数是度量相关性的标准,即连续的点越多,越相关。
问题三的分析,运用VC++来建模,取HIV1_ENV的DNA序列前900个,将这基因翻译300个氨基酸,翻译后的300个氨基酸与已知的前300个氨基酸对比,设翻译后的300个氨基酸的矩阵为A,已知的前300个氨基酸为B,其中矩阵A、B都为一维行列式,在矩阵C里,将A、B对应位置相同的点赋值为5,A、B对应位置不相同的点赋值为0,运用Matlab软件编程出对应位置相同的点下标,连续的点越多,就是重要的位点。
我们可以将那些具有相同氨基酸对应的位点看做比较重要的位点,并进一步深入的研究这些位点,从而达到模型的更优化。
五、建模前的准备
5.1将碱基A、C、G、T分别由1、2、3、4代替
5.2将“-”删除
5.3三个密码子决定一个氨基酸,起对应表为
TTT=FTTC=FTTA=LTTG=LTCT=STCC=STCA=STCG=STAT=YTAC=YTAA=endTAG=endTGT=CTGC=CTGA=endTGG=WCTT=LCTC=LCTA=LCTG=LCCT=PCCC=PCCA=PCCG=PCAT=HCAC=HCAA=QCAG=QCGT=RCGC=RCGA=RCGG=RATT=IATC=IATA=IATG=MACT=TACC=TACA=TACG=TAAT=NAAC=NAAA=KAAG=KAGT=SAGC=SAGA=RAGG=RGTT=VGTC=VGTA=VGTG=VGCT=AGCC=AGCA=AGCG=AGAT=DGAC=DGAA=EGAG=EGGT=GGGC=GGGA=GGGG=G
六、模型的确立与求解
6.1问题一求解
A=[1431313431133131114142132124434331314333334331314333321221432422443331434431431424341343241213111114434333421213424144143333412243434331133113211221221242414444343214213143241113214143141213133412141143444333221212143224343412221213122211222121131134134144334111434312131111444411214343311111431214334131121314321431331414114213444143331421113224111322143434111144112222124243434413444111343212431444311311431412411412211413413413233313114314114331311133131314111111243242444211414213212113214113133411334321311131141432144444441411124431414114122114131411431412412213241411344312113443411212242134214412121332243422111334142244431322114422214121441443432222332433444432314424111143411411411312344211433112133122143412111434213212134121143412121433114413322134134142112421124324344111433213424132131131131334134114413142434211444212331211432411112214114134121324311212142434131114411443412113122211211211412113111113114223414221313133122133313132144434412114133111114133111414313121132121443411214413]
B=[4331133324114421242221123113121131414224431424343314241221212121133241244222431441321311241212122133322133314213141422124312244433143343241211324134122134431322131311344131131132211211133131311212213244344121222434313224321433114331431222331313131134344131343313344431213223224132144421421214332223131324321422331341244211311243243121423132443241211333124442232433331244422133313323433224333233312433331343323132224213142243214141132132432444443224341243334242424334413122131424313224333132424243324112413331122212432441132242114111324432244313432442113413434343222342434434343124243341124131314222421312224444134213434331111424241321343323222311213331224311132311133311122131331324242423123213312423324432431132323212332113133231333323323124334313412322111114444312413233133241311331313131433343231313234213414411323333313114413142314333111111442334411332213333311131111114141114411112141413414333211321333132413112314423213441142243322434413111214213113324341312111412433312132412112214222442131213]
n=1000
fori=1:
n
if(A(1,i)==B(1,i))
C(1,i)=5
disp(i)
else
C(1,i)=0
end
end
x=1:
1:
1000
n=1000
y=5
运行出的连续相同的点位相同点,运行出的间断的点为不相同的点
问题二求解
A=[14313134311331311141421321244343313143333343313143333212214324224433314344314314243413432412131111144343334212134241441433334122434343311331132112212212424144443432142131432411132141431412131334121411]
B=[14313134311331311141421321244343313143333343313143333212214324224433314344314314243413432412131111144343334212134241441433334122434343311331132112212212424144443432142131432411132141431412131334121411]
n=200
if(A(i)==B(i))
C(i)=5;
%disp(i)
C(i)=0;
end;
end;
nifC(i)==5plot(i,C(i),'
b+'
);
holdon;
n-1if(C(i)==5&
C(i+1)==5)line([i,i+1],[5,5]);
对图进行放大,可明显看出连续的点,连续的点越多,相关性越强,这也是度量HIV序列位点之间或者某些位点之间的相关性。
6.3问题三的求解
#include<
stdio.h>
voidmain()
{
inti,j,k;
chara[9][99],b[300];
charTTT=FTTC=FTTA=LTTG=LTCT=STCC=STCA=STCG=STAT=YTAC=YTAA=endTAG=endTGT=CTGC=CTGA=endTGG=WCTT=LCTC=LCTA=LCTG=LCCT=PCCC=PCCA=PCCG=PCAT=HCAC=HCAA=QCAG=QCGT=RCGC=RCGA=RCGG=RATT=IATC=IATA=IATG=MACT=TACC=TACA=TACG=TAAT=NAAC=NAAA=KAAG=KAGT=SAGC=SAGA=RAGG=RGTT=VGTC=VGTA=VGTG=VGCT=AGCC=AGCA=AGCG=AGAT=DGAC=DGAA=EGAG=EGGT=GGGC=GGGA=GGGG=G;
a[9][99]={{'
A'
'
T'
G'
C'
'
'
G'
'
},{'
{'
A