基因模型1.docx-资源下载

基因模型1.docx

1、基因模型1基因模型摘要本文是为了判断癌症样本与正常样本在基因表达水平上的区别，以及对未知的基因样本进行预测。首先，我们对问题一运用的是模糊数学的聚类分析以及神经网络模型。在问题（1）中，我们采用聚类分析方法，先对前40个病人进行分类，运用聚类分析得到这40个样本的模糊相似矩阵，再运用编网法对矩阵进行聚类。若前面20个样本（1-20号样本）中出现某个样本与后面的20个样本（21-40号样本，即健康人的样本）归为一类，说明这些基因没有导致癌症，因此可以判断为子类，（得到样本中2 13 17 20为子类）然后我们再将前面40个样本分为三类：健康人的基因样本、致病基因样本中的子类、致病基因样本。接着，

2、我们将20个未知的样本（41-60号样本）写成一个矩阵，并且加入一个健康人的样本作为对照，再运用模糊模型，编网法进行聚类，得到20个未知样本的致病基因及健康的基因。然而，一个健康的基因的数据具有偶然性，考虑到可能产生较大误差，我们对模型进行了改进，决定采用感知器神经网络模型来优化结果输出，并根据训练、测试，最后得到这20个样本中癌症样本和正常的样本。针对问题（2）中，我们主要运用图形统计分析将癌症样本和正常样本的区别可视化，并用图示表现出癌症样本中是否有子类。首先我们分别计算出癌症样本和正常样本的基因表达水平的样本均值，分别得到矩阵P与矩阵Q，然后我们作图分析矩阵P，Q，通过图像可以明显看出二

3、者之间的区别，也就是这样能清楚地表现癌症与正常样本在基因表达水平上的区别。为了用可视化方法表现出癌症样本中是否有子类，我们通过在癌症样本中计算每个样本与癌症样本均值P的距离（即为矩阵对应项平均差之和），得到一组数据；然后我们对这组数据进行作图分析，找出差异较大的样本，并假设这些样本即为子类，再将这些子类与正常的样本放在一起进行检验，分别计算这些样本与正常样本均值Q之间的距离，得到一组新的数据，研究分析这些数据，可以明显看出这些子类是与正常的基因的表达水平基本无差异。所以，假设成立，即认为这些即为癌症样本的子类。关键字：癌症基因模型模糊数学聚类分析神经网络图形统计分析一.问题重述附件中的

4、文件给出了一个114个基因，60个人的基因表达水平的样本。其中前20个是癌症病人的基因表达水平的样本(其中还可能有子类)，其后的是20个正常人的基因表达信息样本，其余的20个是待检测的样本(未知它们是否正常)。（1）试设法找出描述癌症与正常样本在基因表达水平上的区别，建立数学模型，及识别方法，去预测待检测样本是癌症还是正常样本。（2）设计图示 (可视化) 方法，使得在你的数学模型下，尽量清楚地表现癌症与正常样本在基因表达水平上的区别，以及癌症样本中是否有子类。二.模型假设1. 假设以上所有样本之间是相互独立的。2. 一个样本之间的基因是相互独立的。3. 假设以上的所有样本都是具有代表性的，不包

5、括任何特殊的样本。4. 这些样本主要集中在一个小的范围之类，而分布在其他的范围的较少，不会有太大的波动。5. 癌症样本中存在子类与癌症样本和正常样本都有很高的相似性，但正常样本中不存在其他种类样本。6. 癌症样本与正常样本的区别只与基因表达水平有关，不考虑其他因素。三.符号说明符号意义字母表示单位样本中基因的参数无量纲样本的数据矩阵 X无量纲第i行最大的参数无量纲第i行最小的参数无量纲对矩阵X进行数据格式化矩阵 A无量纲模糊相似矩阵的参数无量纲模糊相似矩阵R无量纲建立模糊等价矩阵无量纲编网法参数无量纲四.问题分析4.1 对问题(1)的分析在问题（1）中，需要我们预测待检测样

6、本是癌症还是正常的样本，解决这一问题的方法就是如何构造一种合理的分类方法，表现出癌症与正常样本在基因表达水平上的区别。首先我们运用聚类分析方法，先对前40个病人进行分类，创建这40个样本的数据矩阵，运用模糊数学方法，先对矩阵进行格式化，得到格式矩阵，再计算其模糊相似矩阵，最后运用编网法对矩阵进行聚类。若前面20个样本（1-20号样本）中有某些样本与后面的20个样本（21-40号样本，即健康人的样本）归为一类，说明这些样本的基因没有导致癌症，因此可以判断为子类。根据上述分析，我们将1-40号样本分为三类：健康人的基因样本、致病基因样本中的子类、致病基因样本。然后将待检测的20个样本写成一个矩阵，

7、并且加入一个健康人的样本作为对照，运用模糊模型和编网法进行聚类，得到41-60号样本的致病基因及健康的基因。然而，由于对照样本只有一个正常的基因，存在一定的偶然性，可能产生较大误差。为了减小误差，确定样本分类，我们对模型进行改进，采用感知器神经网络模型，通过对数据的训练以及对41-60号样本数据的测试，分类出癌症样本和正常样本。4.2 对问题（2）的分析首先我们分别计算出癌症样本和正常样本的基因表达水平的样本均值，分别得到矩阵P与矩阵Q，然后我们作折线图分析矩阵P、Q的数值差异，通过图像可以明显看出二者之间的区别，也就是这样能清楚地表现癌症与正常样本在基因表达水平上的区别。然后，通过在癌症样本

8、中计算每个样本与癌症样本均值P的距离（即为矩阵对应项平均差之和），得到一组数据；然后我们对这组数据进行作图分析，找出差异较大的样本，并假设这些样本即为子类，再将这些子类与正常的样本放在一起进行检验，分别计算这些样本与正常样本均值Q之间的距离，得到一组新的数据，研究分析这些数据，可以明显看出这些子类是与正常的基因的表达水平基本无差异。所以，假设成立，即认为这些即为癌症样本的子类。五.模型建立及求解对问题（1）的模型建立以及求解：5.1模型模糊聚类分析法5.1.1 建立样本矩阵及数据规格化通过所给的数据，我们提取前40个样本建立矩阵Xx1=(x1,1,x1,2,x1,3x1,114);x2=(x2

9、,1,x2,2,x2,3x2,114);x40=(x40,1,x40,2,x40,3x40,114);由于114个指标的量纲和数量级数相同，这里直接利用原始数据进行计算，必须对原始数据进行无量纲化处理。利用极差值规格化公式进行数据格式化，可得矩阵A。5.1.2 建立模糊相似矩阵依据规格化后的数据矩阵A，确定模糊相似矩阵R，采用欧式距离公式计算相似系数，式中m=114（一个样本基因个数），c为适当选择的常数，可使得01.选择0.3，可得模糊相似矩阵如下：R= 5.1.3 建立模糊等价矩阵为了使上面所得的模糊相似矩阵R满足传递性，需要将其改造成模糊等价矩阵R*。这里采用平方法计算传递闭包：RR

10、2. R2k.,将模糊相似矩阵进行自乘可得：我们得到R*=R*=R*即为模糊等价矩阵。5.1.4 聚类分析得到模糊等价关系R*后，采用编网法对其进行聚类。编网法分类的步骤：（1）根据被分类元素的相似性构造相似矩阵A；（2）取如 0，1,用入水平截取A；（3）在A的对角线上填上代表分类元素的符号，而在对角线下方，以“*”代表1，“0”略去不写；（4）由“*”分别向对角线画竖线和横线，称之为编网；（5）在编网中，进过同一点的横，竖线称为打上了节，通过打结而能互相连接起来的点属于同一类；（6）调整的值，以找到符合要求的分类。通过以上方法，我们用=0.75水平截取，在的对角线上代表分类元素

11、的符号，在对角线下方，将元素中大于0.75的取为1”,小于0.75的取为“0”，由“1”分别向对角线画竖线及横线进行编网，将进过同一点的横，竖线称为打上了结，通过“打结”而相互连接起来的点属于同一类图1 编网法对1-40号样本分类示意图通过图1可以看出：V1=2 13 17 20 21 22 23 24 25 26 27 30 31 34 35 36 39这些个样本归为一类。在这个分类中，有2 13 17 20 这几个样本是从癌症病人身上取得放入基因样本，但是他又在健康人的基因样本中，因此，我们认为它是子类。因此我们将前面的40个基因样本分为以下三类：健康人的基因样本x21 x22 x23

12、x24 x25 x26 x27 x28 x29 x30 x31 x32 x33 x34 x35 x36 x37 x38 x39 x40致病基因样本的子类x2 x13 x17 x20 癌症基因样本的子类x1 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x14 x15 x16 x18 x19 5.1.5 对20个待检测基因样本进行预测将这20个基因样本的数据写成一个矩阵P，并且加入一个健康人的基因样本作为对照样本这里我们选作样本21，按照以上的各种方法求出矩阵P的模糊相似矩阵为P1=经过编网法进行聚类的结果为下图：图2 编网法对未知样本分类示意图从图中可以看出：M1=41 4

13、2 44 45 47 49 50 53 57 58这些样本与正常样本归为一类，所以在这些样本应该是正常的样本。而样本43 46 48 51 52 54 55 56 59 60这些样本是癌症样本。用以上方法对后面的样本进行分类时，我们只选了一个健康的样本，由于存在一定偶然性，可能会产生较大的误差，所以，我们决定用感知器神经网络来解决这个问题，优化分类结果。5.2 模型二神经网络模型5.2.1单层感知器工作原理对于只有两个输入的判别边界是直线，选择合适的学习算法可训练出满意的结果，当它用于两类模式的分类时，相当于在高维样本空间中，用一个超平面将两类样本分开。如下图所示：图3 单层感知器工作原

14、理示意图5.2.2单层感知器学习算法思想1、基于迭代的思想，通常是采用误差校正学习规则的学习算法。2、可以将偏差作为神经元突触权值向量的第一个分量加到权值向量中，输入向量和权值向量可分别写成如下的形式： 3、令上式等于零，可得到在维空间的单层感知器的判别超平面。4、单层感知器学习算法第一步，设置变量和参量：为激活函数, 为网络实际输出，为期望输出，为学习速率，为迭代次数，为实际输出与期望输出的误差。第二步，初始化：给权值向量的各个分量赋一个较小的随机非零值，置第三步，输入一组样本，并给出它的期望输出。第四步,计算实际输出：第五步,求出期望输出和实际输出求出差根据误

15、差判断目前输出是否满足条件，一般为对所有样本误差为零或者均小于预设的值，则算法结束，否则将值增加1，并用下式调整权值：然后转到第三步，进入下一轮计算过程通过编程实现得到以下结果：Columns 1 through 16 0 1 1 1 1 0 1 0 1 1 1 1 1 1 1 0Columns 17 through 20 1 1 1 0通过上述即如果可以看出V1=41 46 48 56 60规划为一类，这类样本是癌症样本。V2=42 43 44 45 47 49 50 51 52 53 54 55 57 58 59这类样本是正常的。所以，41-60号基因分类如下：癌症基因样本x41 x

16、46 x48 x56 x60 健康人基因样本x42 x43 x44 x45 x47 x49 x50 x51 x52 x53 x54 x55 x57 x58 x59对问题（2）的模型建立以及求解5.3可视化表现癌症和正常样本差异用矩阵C表示样本中前20个癌症的样本：c1=( c 1,1, c 1,2, c 1,3c 1,114);c 2=( c 2,1, c 2,2, c 2,3c 2,114);c 20=( c 20,1, c 20,2, c 20,3c 20,114);我们新建一个样本C*表示这20个样本数据均值的样本，并用这个样本表示癌症的样本中心。同样，我们计算出正常样本的中心D*。分析

17、C*，D*中的数据，得到下图：图4 癌症样本和正常样本的基因表达水平的样本均值对比图上图中系列一为癌症病例的各基因表达水平平均值，系列三为正常样本基因表达水平平均值，通过比较我们可以清楚看到，癌症病例的基因由于某种原因，几乎所有基因表达水平的平均值都低于正常样本水平。由此，我们可以得出这样一个结论，如果某一样本的基因表达水平大部分接近正常样本的曲线，我们就认为该样本为正常，同理，如果此样本大部分接近癌症病例的曲线，我们就认为此样本为癌症样本。这样，通过上图，我们不仅可以清楚地表现癌症与正常样本在基因表达水平上的区别，即癌症基因表达水平普遍低于正常样本水平；还能通过将新样本的点带入上图中，粗略判

18、断样本类型。5.4 癌症样本存在子类的可视化判断我们分别计算每个癌症样本到这个样本中心的距离，我们定义第i个样本到这个样本中心的距离di为：，并分别求出这20个距离为：Columns 1 through 9 1.7800 2.7000 1.8500 1.6200 2.5200 2.0600 1.4300 1.2700 1.5500 Columns 10 through 18 1.8700 1.5500 2.9800 3.3900 1.4400 1.6400 1.9200 3.4800 1.5500 Columns 19 through 20 1.4500 3.1200对这20个数据进行图形分析

19、，得到下列图形：图5 癌症样本（包含子类）与均值间的距离通过这个图形，我们发现样本2 5 13 17 20与其他的样本差距较大。而这几个样本与我们在模型一中求出的癌症样本子类基本一致，所以我们可以假设这几个样本就是癌症样本的子类。再用同样的方法对20个健康基因的样本分别求出每个样本到样本中心的距离：Columns 1 through 9 1.3300 2.0900 1.7200 1.8200 1.6600 1.5200 1.4500 3.3800 1.8100 Columns 10 through 18 1.9500 1.5500 1.8000 2.7000 1.4000 1.7900 2.2

20、900 2.5900 2.5600 Columns 19 through 201.2200 2.6600对这20个数据进行图形分析，得到下列图形：图6 正常样本（不包含子类）与均值间的距离从图中我们可以看出正常样本与均值距离集中在区间1.00，3.00中，为了鉴定样本2、13、17、20是不是子类，即样本中的基因是不是正常的基因，我们将这几个样本与正常样本放在一起进行上述方法研究，求出每个样本到样本中心的距离进行对比判断。（其中后4个数据是加入子类的数据）Columns 1 through 9 1.3300 2.0900 1.7200 1.8200 1.6600 1.5200 1.4500

21、3.3800 1.8100 Columns 10 through 18 1.9500 1.5500 1.8000 2.7000 1.4000 1.7900 2.2900 2.5900 2.5600 Columns 19 through 24 1.2200 2.6600 2.7100 1.8000 1.9100 1.9800 根据以上数据，做出下面图形：图7 正常样本（包含子类）与均值间的距离通过上面图形可以看出4个子类（21-24）到样本中心的距离和前20个正常样本到样本中心的距离基本无差异，所以可以认为假设成立，即这4个样本是癌症样本的子类。六.模型评价6.1 模型的优缺点：优点：（1）在

22、问题一中，模糊数学聚类分析方法与神经网络相结合，使模型更加完善。（2）模型里面有很多的图表，能很直观的反映出数据的特征。（3）利用EXCEL软件对数据进行处理并作出各种平面图，简便，直观、快捷。缺点：（4）在模型一聚类分析中，在运用编网法分类的时候，当取值不同时，所取得分类不一样，即所得的分类结果不稳定。（5）运用样本间的距离来表示样本间的相似程度，可能不精确。（6）模型没有对灵敏度进行分析，对数据没有预测性。6.2 模型的推广：随着现在各种传染疾病，艾滋等疾病的不断出现，我们可不可以把这个模式进行改进推广，应用到这些疾病进行预测。同时，癌症的广义类别（如乳腺癌、肝癌或肺癌）中很多都还具有许多

23、子类，这些子类病情的严重性和所需的特定治疗方法和药物各不相同，说明了广义类别中的差异。所以，医生应该根据每种子类，对症下药。但目前还没有确定癌症的所有子类，随着针对临床特征的新药物和治疗方法的不断涌现，区分癌症的子类就变得越来越重要。该模型对于癌症与正常样本，癌症与子类进行粗略分类有一定帮助。七.参考文献 1韩中庚，数学建模方法及其应用，北京：高等教育出版社，2005年。2姜启源，谢金星，数学模型（第三版），北京：高等教育出版社，2003年。3梁保松，曹殿立，模糊数学及其应用，北京：科学出版社，2007年。4范周田，模糊矩阵理论与应用，北京：科学出版社，2006年5袁新生，邵大宏，郁时炼，

24、LINGO和EXCEL在数学建模中的应用，北京：科学出版社，2007年6 Simon Haykin，神经网络原理，机械工业出版社，2004年。7 史忠植，神经网络，高等教育出版社，2010 八附录部分matlab程序代码：%求样本的标准化矩阵for i=1:rA_new(i,1:l)=(A(i,:)-min(A(i,:)/(max(A(i,:)- min(A(i,:);end%求样本的相似矩阵for i=1:40for j=1:40sum=0for k=1:114sum=sum+(p_new(i,k)-p_new(j,k)*(p_new(i,k)-p_new(j,k);endr(i,j)=1-

25、0.3*sqrt(sum);endend得到预测样本分类的相似矩阵r= Columns 1 through 9 1.0000 0.3933 0.4409 0.4701 0.6994 0.5939 0.5655 0.5407 0.5201 0.3933 1.0000 0.6528 0.2697 0.4160 0.5817 0.3407 0.5400 0.3305 0.4409 0.6528 1.0000 0.3834 0.4374 0.5822 0.4057 0.4707 0.3752 0.4701 0.2697 0.3834 1.0000 0.5058 0.4820 0.7179 0.4084

26、 0.4556 0.6994 0.4160 0.4374 0.5058 1.0000 0.7374 0.6379 0.7000 0.6291 0.5939 0.5817 0.5822 0.4820 0.7374 1.0000 0.5875 0.7727 0.6231 0.5655 0.3407 0.4057 0.7179 0.6379 0.5875 1.0000 0.5480 0.6089 0.5407 0.5400 0.4707 0.4084 0.7000 0.7727 0.5480 1.0000 0.5697 0.5201 0.3305 0.3752 0.4556 0.6291 0.623

27、1 0.6089 0.5697 1.0000 0.5835 0.4730 0.5461 0.4951 0.6350 0.6461 0.5263 0.5728 0.4578 0.5939 0.5079 0.6095 0.4957 0.6560 0.7332 0.5541 0.6133 0.5845 0.5449 0.3168 0.4685 0.7121 0.5746 0.5522 0.7025 0.4523 0.5834 0.5647 0.3100 0.4392 0.6995 0.5974 0.5530 0.7548 0.4776 0.5873 0.5751 0.5158 0.5723 0.50

28、47 0.6539 0.7034 0.5575 0.6289 0.4636 0.4278 0.2219 0.3444 0.7824 0.4614 0.4402 0.6876 0.3561 0.4272 0.4187 0.2462 0.2626 0.4698 0.4683 0.4548 0.5522 0.4818 0.4617 0.4282 0.2196 0.3428 0.7623 0.4782 0.4393 0.6857 0.3509 0.4526 0.4618 0.6918 0.6986 0.4027 0.5209 0.6934 0.4401 0.6075 0.3916 0.6066 0.3

29、383 0.4645 0.7266 0.6177 0.5817 0.7331 0.4779 0.5344 0.5678 0.4631 0.5896 0.4222 0.5041 0.5480 0.4408 0.4535 0.3857 0.6198 0.2876 0.3795 0.4858 0.5764 0.4961 0.5808 0.4654 0.5237 Columns 10 through 18 0.5835 0.5939 0.5449 0.5647 0.5751 0.4278 0.4187 0.4282 0.4618 0.4730 0.5079 0.3168 0.3100 0.5158 0

30、.2219 0.2462 0.2196 0.6918 0.5461 0.6095 0.4685 0.4392 0.5723 0.3444 0.2626 0.3428 0.6986 0.4951 0.4957 0.7121 0.6995 0.5047 0.7824 0.4698 0.7623 0.4027 0.6350 0.6560 0.5746 0.5974 0.6539 0.4614 0.4683 0.4782 0.5209 0.6461 0.7332 0.5522 0.5530 0.7034 0.4402 0.4548 0.4393 0.6934 0.5263 0.5541 0.7025 0.7548 0.5575 0.6876 0.5522 0.6857 0.4401 0.5728 0.6133 0.4523 0.4776 0.6289 0.3561 0.4818 0.3509 0.6075 0.4578 0.5845 0.5834 0.5873 0.4636 0.4272 0.4617 0.4526 0.3916 1.0000 0.6204 0.5329 0.5376 0.7619 0.4529 0.3254 0.4656 0.6448 0

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？