最佳培养基配比方案.docx
《最佳培养基配比方案.docx》由会员分享,可在线阅读,更多相关《最佳培养基配比方案.docx(20页珍藏版)》请在冰豆网上搜索。
最佳培养基配比方案
最佳培养基配比方案
何官勇王国敏正勇
[摘要]:
本文通过建立三个模型来确定最佳培养基配比方案,其主要容如下:
模型一——单因素模型。
我们直接由图表的数据得到,即在N2(或C1)为准则的情况下,通过使用matlab对图表中有同类性质的数据进行了拟合,得到了只有一个碳源(氮源)与IFN-γ(γ干扰素)的产量有关的几组拟合函数。
通过对这些拟合函数的分析、并结合图形判断出在N2(或C1)为准则下的优化配比方案。
这个模型虽然可以得到比较优化的配比方案,但是它要在某一因素不变的情况下才成立的,而在实际求解最优配比方案时,要考虑到各组成因素的变化情况,同时还要考虑各组成因素的交互效应,所以我们想到了逐步回归模型。
模型二——逐步回归模型。
我们是运用逐步回归分析法分析图表的数据,把IFN-γ(γ干扰素)的产量作为要考虑的因变量y,三种碳源和四种氮源的含量作为要考虑的七个自变量。
因为七个自变量对因变量y的影响是不同的,所以我们通过使用逐步回归分析模型把七个可供选择的自变量中的那些对建立回归方程比较重要的因素选择出来,从而可以得到这些确定出来的因素即为影响y产量的主要因素,即得到所选择的碳源和氮源的种类,在得到碳源和氮源的种类之后我们要解决的问题是如何确定其含量使得IFN-γ(γ干扰素)的产量最大,即最终找出最优配比方案。
由此我们想到了模型三。
模型三。
在确定了碳源和碳源的种类之后,我们通过借鉴模型一中运用的单因素准则法,先确定一个C1,在N1、N2对IFN-γ产量影响的图像中进行比较,就可以得到IFN-γ的产量达到最大时碳源和氮源的含量。
在得到模型之后,我们对所建模型进行了的可行性分析,自我评价和改进。
在整个建模过程中我们运用matlab去进行计算,使得我们在建模过程中处理数据方便了许多。
[关键字]:
最优配比matlab拟合逐步回归图像分析单因素准则
一、问题重述及分析
本题是某发酵实验中培养基的碳源(C1,C2,C3)和氮源(N1,N2,N3,N4)含量及IFN-γ(γ-干扰素)的产量的关系问题(实验数据表见附件一):
如何选择碳源和氮源的种类及含量使IFN-γ的产量达到最大?
本题是以生物化学知识为背景的数学建模。
在建立模型之前首先要弄清楚发酵、IFN-γ(γ干扰素)等生物化学上的专用词,弄清楚培养基原理,再从实验的数据出发,去建立一个最优的配比方案。
二、模型假设与假设的说明
模型假设:
1)每个实验都是在相同的外界条件下进行的,且外界条件的变化对实验不会产生影响。
2)每个实验都是独立进行、互不影响的。
3)每个实验都是在所需的条件下顺利进行的。
4)每个实验培养基中都有相同的且数量不变的真菌。
5)每个实验培养基中的碳源、氮源和真菌都是均匀分布,且充满整个培养基。
6)每个实验中的真菌利用氮源和碳源生成IFN-γ的能力是一样的。
7)每个实验中氮源、碳源的含量同时成比例变化不影响氮源、碳源的转化率。
8)每个实验中不同碳源(氮源)之间都是独立的,不互相影响。
9)每个实验用到的数据都用同一的单位。
10)因为IFN-γ是单一类型的干扰素分子,在下面的讨论中考虑不同的碳源和氮源被吸收后都只生成一种相同类型的干扰素分子。
11)每个实验的培养基本身都含有一定数量的碳和氮。
12)在求解最佳配比方案时,不同碳源(氮源)价格是相同的,或者说他们的价格的差别对于问题而言是可以忽略的。
假设的说明:
对于假设1)、2)、3)、4)、5)、6)、8)、9),是为了保证实验具有可行性、可比性,在现实的情况下这些假设是可以做到的,符合实际的。
对于假设7),是为了便于从实验数据中了解、得到更多的信息,从而建立模型。
在实际情况下,当两个反应物在其他条件不变时,浓度成比例改变,它们的转化率一般是不变的,在这里也假设是不变的。
对于假设10),是为了在判断碳源和氮源的优劣进而选择合适的原料时,不需要去考虑因生成的IFN-γ有不同种类,而导致在判断碳源和氮源时,无法根据表中的量去判断的情况,在现实中因为IFN-γ是单一类型的干扰素分子,考虑其只会产生一种IFN-γ,也是合理的。
对于假设11),是从实际情况出发,考虑到一方面每个培养基中本身就含有必备的营养素,也就会含有一定的碳和氮;另一方面,因为实验中有五组数据是在只有碳或氮的情况下生成的,如果没有碳或氮是不会出现这些情况的。
对于假设12),是为了在判断碳源和氮源的优劣进而选择合适的原料时,只
需从相同原料时生成IFN-γ的产量的多少考虑即可,这样假设是从方便建模的
角度出发的。
在现实中,会出现价格不同,甚至相差很大的情形,在这个时候就
必须要考虑经济效益了,我们将在模型改进中予以简要说明。
三、模型建立及求解
模型一:
经过我们分析认为第14,15,16,17,23五次实验为特殊情形,在以下分析中暂不考虑,将在模型二的第二步中予以说明。
下面介绍模型一:
首先,根据实验数据研究N2含量不变的准则下,不同的C1(C2,C3)的含量对产生IFN-γ的影响,主要思想如下:
找出含C1(C2,C3)源的项及其对应的IFN-γ的产量的项,利用数学软件matlab把表中的C1(C2,C3)的含量与IFN-γ的产量有关的数据拟合成曲线,建立它们两者之间的函数关系。
把建立C1(C2,C3)的含量与IFN-γ的产量的三条曲线图像放在同一个坐标系中,进行观察、比较,取图像在一定区间最上方的曲线所对应的碳源为在该区间所选择的碳
源,对应区间取得函数最大值时的自变量即为碳源的含量。
其次,根据实验数据研究C1准则下,不同的N1(N2N3N4)的量的对产生IFN-γ的影响,主要思想和上面的一样,这里就不累述了。
最后,根据在N2含量不变的准则下求出的一个最佳的碳源Ci(i为1、2或3中的一个),把N2,Ci(i为1、2或3中的一个)的组合作为一个优化的配比方案。
同理,根据在C1含量不变的准则下求出的最佳的一个氮源Ni(i为1、2、3或4中的一个),把C1,Ni(i为1、2、3或4中的一个)的组合也作为一个优化的配比方案。
具体的做法如下:
把实验设置为七组,把第1至第5个实验作为第一组,第6至第9个实验作
为第二组,把第10至13个实验为第三组,把第15至第18个实验作为第四组,在第1至5个实验中把C1按假设7)都化为2后所得的新结果分为一组作为第五组,把第23至28个实验作为第六组,把第29至32个实验作为第七组。
在N2含量为0.5,N1、N3、N4、C2、C3含量均为零时,利用数学软件matlab对1,2,3,4,5组实验中C1的含量x与IFN-γ的产量y的关系进行三次曲线拟合。
具体的拟合曲线如下:
Matlab指令:
>>x=[0.10.4123];
(1)
>>y=[11.690039.129768.203583.658075.4200];
>>a=polyfit(x,y,3)
>>x1=0.1:
0.1:
3;
>>z=polyval(a,x1);
>>plot(x,y,'k*',x1,z,'r')
a=
5.1683-41.8866103.46252.5470
得到拟合曲线,如图
(1)所示。
拟合函数为:
y=5.1683x3-41.8866x2+103.4625x+2.5470
同理,对固定的N2,可以按上述的方法拟合第二组,和第三组实验的数据,
具体的拟合过程如下:
对第二组:
C2的含量x与IFN-γ的产量y的关系进行三次曲线拟合,具体的拟合曲线
如图
(2):
拟合函数为:
y=-9.0119x3+23.7190x2-13.0696x+22.4733
对第三组:
C3的含量x与IFN-γ的产量y的关系进行三次曲线拟合,具体的拟合曲线
如图(3):
拟合函数为:
y=2.4244x3-10.2156x2+16.9070x+4.0330
(2)
0
(3)
(3)
(2)
(4)
把上面建立的C1、C2、C3
的含量与IFN-γ的产量的三条
曲线图像拟合在同一个坐标下,
得到图(4):
从上图可知,以N2含量不变作为准则时,取C1作为碳源,IFN-γ产量明
显最大。
因此,我们取C1、N2作为碳源和氮源。
通过计算可以得到C1的最大
值,该值即为N2不变准则下IFN-γ产量取最大值时的含量,由此我们即得到一个优化配比方案。
该方案为:
C1∶N2=1.9∶0.5
同理:
以C1含量不变作为准则的情况下,可以得到另一个优化配比方案。
模型二:
模型一中我们只考虑了单一准则下各因素的最优时的情况,然而,实际上各个因素都在变化,要找到最优方案必须考虑周全。
因此,我们要同时考虑三种碳源和四种氮源,分析它们对IFN-γ产量的影响的大小,从中选取影响较大且合理的组合,由此我们想到了逐步回归分析方法,建立了逐步回归模型。
通过使用这种方法选取出了对IFN-γ产量的影响较大的碳源、氮源。
在运用这种方法时,我们是借助于数学软件matlab的,我们的具体计算过程为:
第一步:
分别记C1、C2、C3、N1、N2、N3、N4等7列的数据为列向量x1、x2……x7。
记rhIFN-γ列的数据为列向量y。
即:
>>x1=[0.10.4123000000000002222222222222222];
>>x2=[000000.20.50.81.500000000000000000000000];
>>x3=[0000000000.10.51.52.50000000000000000000];
>>x4=[000000000000000000.523450000000000];
>>x5=[0.50.50.50.50.50.50.50.50.50.50.50.50.50.50.50.500000000.523450000];
>>x6=[000000000000000000000000.523450000];
>>x7=[00000000000000000000000000000.010.050.10.3];
>>y=[11.6939.129768.203583.65875.4220.73620.741722.583625.82135.62410.235714.590920.33467.29642.58851.6165.547254.942.84164.25138.04126.911.48417.1620.857.2472.9617.60830.9411.47512.084]';
令x=[x1x2x3x4x5x6x7],用stepwise(x,y)
得到一个stepwiseregressiondiagnosticstable(如图i所示)
可以看出结果不太好:
p=0.0229,取α=0.05时,此回归模型可用,但取
α=0.01时,模型不能用;R-square=0.461,较小;F=2.932,也较小。
(由图ii中各直线都是虚线可证明)于是我们调整图ii中的各直线。
然而,无论怎么调整都无法使哪条虚线变为实线。
故可知此回归模型不大合理,需改进。
第二步:
我们仔细分析实验数据,发现x(14:
16,:
)中,
每行向量相等,而y的值不等,说明此实验数据不可靠,且在现实中如果只用单一氮源,那么培养基将因缺乏碳源而崩溃,x(17,:
)和x(23,:
)也是如此,故将其删除掉。
用其余数据组合成新的x、y。
即:
>>x1=[0.10.41230000000022222222222222];
>>x2=[000000.20.50.81.5000000000000000000];
>>x3=[0000000000.10.51.52.500000000000000];
>>x4=[00000000000000.52345000000000];
>>x5=[0.50.50.50.50.50.50.50.50.50.50.50.50.5000000.523450000];
>>x6=[0000000000000000000.523450000];
>>x7=[000000000000000000000000.010.050.10.3];
>>y=[11.6939.129768.203583.65875.4220.73620.741722.583625.8213
5.62410.235714.590920.33467254.942.84164.25138.0411.48417.1620.857.2472.9617.60830.9411.47512.084]';
>>x=[x1'x2'x3'x4'x5'x6'x7'];
重复做第一步中的操作,得到另一个stepwiseregressiondiagnosticstable如图iii所示:
可知此方案比较好了,p=7.4e-005,很小;R-square=0.7651,比较大;F=8.84,也比较大。
可见此方案可取。
但,由图iii可知,x2、x3、x7不显著,调整图iv中的直线,移去这三个向量后统计结果如图v所示:
由matlab易知:
>>in
in=
1456
>>out
out=
237
图vi中x2、x3、x7三行用红线显示,表明它们已经移去。
从新的统计结果可以看出,虽然剩余标准差s(RMSE)没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好一些。
再运用matlab知识:
>>x=[ones(27,1)x1'x4'x5'x6'];
>>[b,bint,r,rint,stats]=regress(y,x);
>>b
b=
-32.6171
24.6535
25.4289
105.0067
-96.6340
>>stats
stats=
0.763017.70260.0000
可以求出模型:
y=-32.6171+24.6535x1+25.4289x4+105.0067x5-96.634x6
第三步:
由试验数据可知,C1、N3和N2共存时,IFN-γ的产量比只有C1、N2时要
低得多。
可见最优方案中要去掉N3。
以下我们再次用逐步回归方法验证我们的结论:
去掉与N3有关的数据之后我们得到新的x,y。
即:
>>x1=[0.10.412300000000222222222];
>>x2=[000000.20.50.81.50000000000000];
>>x3=[0000000000.10.51.52.5000000000];
>>x4=[00000000000000.523450000];
>>x5=[0.50.50.50.50.50.50.50.50.50.50.50.50.5000000000];
>>x7=[0000000000000000000.010.050.10.3];
>>y=[11.6939.129768.203583.65875.4220.73620.741722.583625.82135.62410.235714.590920.33467254.942.84164.25138.0417.60830.9411.47512.084]';
>>x=[x1'x2'x3'x4'x5'x7'];
调用stepwise(x,y)得到另一个stepwiseregressiondiagnosticstable如图vii所示:
vii
viii
可知此方案好了很多,p=2.996e-004,很小;R-square=0.7808,比较大;F=8.903,也比较大。
可见此方案可取。
ix
x
但是,有很多虚线,重复第二步中的操作,得到比较好的结果,如图ix以及图x所示:
从新的统计结果可以看出,统计量F的值明显增大,因此这种回归模型比前面的更好一些。
再用matlab,知:
>>x=[ones(22,1)x1'x4'x5'];
[b,bint,r,rint,stats]=regress(y,x);
b
b=
-27.6976
24.6535
24.1140
95.1678
>>stats
stats=
0.773820.52600.0000
求出最终的模型:
y=-27.6976+24.6535x1+24.1140x4+95.1678x5
综上所述:
碳源C1和氮源N1、N2是影响IFN-γ产量的主要因素。
所以原问题中要求得最优培养基配比方案,可以转化为在选取碳源C1和氮源N1、N2作为原料后,确定它们的含量使得IFN-γ产量最大(具体求解见模型三)。
模型三:
通过上述讨论,我们已经选出了碳源和氮源的类型,下面我们具体讨论它们的含量问题:
鉴于N2、N3共存时,IFN-γ的产量低于仅有N2时的情况,我们不能断定N1、N2共存时IFN-γ的产量会达到最大;同时也没有C1、N1、N2共存时的数据。
因此我们通过分析,可以先任意给出C1的含量,在N1、N2中选择一种,使之与C1共存时,让IFN-γ的产量达到最大,从而求出氮的含量。
具体分析如下:
在假设7)成立的情况下,通过数据分析,当C1含量为a时(以下计算时,以a=0.5为例),通过作图来比较N1、N2的优劣情况:
>>x1=[0.52345];
>>x2=[102.510.51/3];
>>y1=[7254.942.84164.25138.04];
>>y2=[11.6900*2039.1297*568.2035*283.658075.4200/1.5];
图一
>>a1=polyfit(x1,y1,3);
>>a2=polyfit(x2,y2,3);
>>x=0.1:
0.1:
5;
>>z1=polyval(a1,x);
>>z2=polyval(a2,x);
>>plot(x,z1,'r',x,z2,'b')
由图一分析可知:
在培养基中
C1的含量a(a取0.5)已知的情况
下,当氮源的量小于0.5或大于4.0时,选择N1,IFN-γ的产量高;当氮源的量在0.5到4.0之间,选择N2,IFN-γ的产量高。
(最大含量由a的具体值决定)
四、模型的说明与可靠性分析
本题是通过给我们一系列实验数据,要求我们分析数据来寻求最优配比方案。
这本身就要求我们用那些数据去预测,而那些数据的产生具有一定的随机性、和误差值,这就使得我们的模型的结果具有一定的随机性、预测性。
同时,我们根据实验数据,用拟合和逐步回归的方法建立上述模型,所得的结果与实验数据是基本吻合的,具有合理性,预测性。
五、模型的自我评价
对于模型一,我们使用了在确定一个因素的量之后,研究其它单一因素的改变对目标的影响。
运用这种方法,我们可以粗略地判断不同的因素对目标的贡献大小,得到一个粗略的优化配比方案。
这个模型的优点在于我们可以直接利用实验数据表中的数据进行比较而得到方案;缺点在于没有把实验表中的每个因素都进行比较,得到的结果只是局部的一个最优,不一定是整体的最优,同时在比较时没有考虑第14,15,16,17,23五次实验,也会对所得的结果造成一定的影响。
对于模型二,我们用逐步回归分析法找出最优的碳源、氮源种类。
运用这种方法得到一组最优组合是比较合理的,它是根据实验数据考虑了全部变量而得到的。
对于模型三,我们是对模型二进行了补充说明。
它在通过计算碳源、氮源的含量来获得最优方案时,参照了模型一的方法。
这个模型的优点在于解决了我们在得到了回归方程之后,无法由实验数据表求出三个因素都在变动时的最优配比方案的难题。
该模型通过确定一个因素之后,就可以利用实验数据表求解最优配比方案了。
缺点在于没有给出全部因素都在变动时的最优解。
在整个建模过程中,存在一个无法克服的困难:
我们的模型是建立在实验数据之上的,由于实验数据具有随机性,这就决定了模型所得结果具有随机性、预测性。
六、模型的改进
1)我们的模型是建立在实验数据上的,运用的是数理统计的方法,可以从增加实验的测试次数来提高我们的模型的准确度。
2)在实验设计时考虑运用正交实验设计。
3)我们的模型假设12)如果不成立时,就要考虑到价格对我们选取碳源、氮源种类时的影响。
这种情况下,我们建议在建立模型时把价格乘上含量来代替原模型中的含量,这样就可以用上述模型去选择种类及含量。
4)我们在建立模型时没有分析到氮过量时对模型的影响,事实上如果氮源过量,会导致ph值升高,从而会破坏培养基,导致IFN-γ产量的下降。
我们建议在添加原料控制好氮的含量。
5)对于在得到最优配比方案时的碳源和氮源含量的求解问题中,我们在模型三中给出了一个特殊解法,事实上,如果我们可以找到关于IFN-γ的产量与碳源和氮源含量的函数关系,就可以直接作为回归方程的约束条件来求解最值。
6)由于表中数据没有具体的单位,在上述模型中我们把它当作物质的量来考虑。
如果把表中数据当作百分比含量来考虑,在模型三中求解时,就可以通过二次回归得出最优配比方案如下:
a、当选择C1、N1:
y=0.7363+34.0797x1+38.0397x4–5.9335x12-3.9689x42
x1=4.151x4=2.604ymax=113.2815
b、当选择C1、N2:
y=0.7363+34.0797x1+38.0397x5–5.9335x12-3.9689x52;
x1=2.872x5=4.792ymax=140.1561
c、当选择C1、N1