数学建模B题国家一等奖_精品文档.pdf-资源下载

数学建模B题国家一等奖_精品文档.pdf

1、 2013 高教社杯全国大学生数学建模竞赛高教社杯全国大学生数学建模竞赛承承诺诺书书我们仔细阅读了全国大学生数学建模竞赛章程和全国大学生数学建模竞赛参赛规则（以下简称为“竞赛章程和参赛规则”，可从全国大学生数学建模竞赛网站下载）。我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛章程和参赛规则的，如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛章程和参赛规则，以保

2、证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为，我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。我们参赛选择的题号是（从A/B/C/D中选择一项填写）：B 我们的参赛报名号为（如果赛区设置报名号的话）：所属学校（请填写完整的全名）：ycu 参赛队员(打印并签名)：1.2.3.指导教师或指导教师组负责人 (打印并签名)：（论文纸质版与电子版中的以上信息必须一致，只是电子版中无需签名。以上内容请仔细核对，提交后将不再允许做任何修改。如填写错误，论文可能被取消评奖资格。）日期：2

3、013 年 9 月 16 日赛区评阅编号（由赛区组委会评阅前进行编号）：2013 高教社杯全国大学生数学建模竞赛高教社杯全国大学生数学建模竞赛编编号号专专用用页页赛区评阅编号（由赛区组委会评阅前进行编号）：赛区评阅记录（可供赛区评阅时使用）：评阅人评分备注全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：碎纸片的拼接复原碎纸片的拼接复原摘要摘要本文要解决的是利用计算技术拼接破碎的文件，减少人工拼接的工作量，提高拼接效率。针对问题一，发现所有汉字均占据约 4141 个像素点的空间。将汉字看做 4141 的正方形区域，拼接纸片

4、的过程便转化为利用计算机拼接正方形区域的过程。首先将 19 个矩阵 0-1 化处理，统计左右两端字的长度，人工干预找出位于首列的 008，其余图片与它进行匹配，判断两个纸条是否匹配的标准是拼接成的汉字长度是否接近 41，选择匹配值最高的碎片与之匹配，依次匹配最终得到整张的复原图像，称为“边缘宽度匹配”法。复原顺序为：8 14 12 15 3 10 2 16 1 4 5 9 13 18 11 7 17 0 6。针对附件 2，英文不具有汉字的固定长度特征。我们对上述方法改进，采用更加精细的匹配。将切割边缘像素点 0-1 化（0 代表空白，1 代表有文字），人工干预找出位于首列的图片 003，其余图

5、片的边界像素值与其相加匹配，判断两个纸条是否匹配的标准是 2或 0 个数的多少，选择匹配值最高的碎片与之匹配，依次匹配最终得到整张的复原图像，称为“边缘像素点匹配”法。复原顺序为：3 6 2 7 15 18 11 0 5 1 9 13 10 8 12 14 17 16 4。针对附件 2，由于横切时会使位于同一行碎片的汉字留有相同长度，所以图片矩阵 0-1化我们首先通过“上边界宽度匹配”法统计上边界被截断汉字的长度或留有的空格长度，将 208 幅图中位于同一行的汉字分组，人工干预找出分组明显不合理的图片，再利用“边缘像素点匹配”法得到每一行图片的排序，得到 11 行的正确排序后利用“边缘宽度匹配

6、”法得到最终排序图。复原顺序为见附录 2。针对附件 4，汉字的“上边界宽度匹配”不适用于英文，观察发现英文的书写分为上中结构和中下结构，可以通过图片英文中部所占得位置来确定位于同一行的图片。208张图片 0-1 化分别按列求和，将矩阵中的字母全部投影到一侧，用 matlab 绘制每张图片的投影波峰图，根据第一簇的两个较大波峰的位置取其平均值，找到每幅图片第一行中部的位置，将图片分为 11 组，人工干预找出分组明显不合理的图片，再利用附件 2 英文的“边缘像素点匹配”法得到每一行图片的排序，得到 11 行的正确排序后利用附件 1 汉字的“边缘宽度匹配”法得到最终排序图。复原顺序为见附录 2。针对

7、对于附件 5 拼接正反两面的纵横切碎片，我们考虑仍然运用对附件 4 英文的投影波峰图法，matlab 编写程序寻找到 416 个图片的匹配中部值，以此为标准按行分类。位于同一行的图片利用“边缘像素点匹配”法得到行的图片排序，进行人工干预，再对行采用“边缘宽度匹配”法和人工干预得到最终排序表见附录 2。关键词关键词：0-1 化处理、边缘宽度匹配、边缘像素点匹配、上边界宽度匹配、投影波峰图一问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。传统的人工拼接方法很难在短时间内完成任务。而利用计算机技术，可以开发碎纸片的自动拼接技术，提高拼接复原效率。现建立

8、适当数学模型，利用计算机解决以下问题：1.1.对于给定的来自同一页印刷文字文件的碎纸机破碎纸片（仅纵切），建立碎纸片拼接复原模型和算法，并针对附件 1、附件 2 给出的中、英文各一页文件的碎片数据进行拼接复原。2.2.对于碎纸机既纵切又横切的情形，请设计碎纸片拼接复原模型和算法，并针对附件 3、附件 4 给出的中、英文各一页文件的碎片数据进行拼接复原。3.3.从现实情形出发，还可能有双面打印文件的碎纸片拼接复原问题需要解决。附件 5给出的是一页英文印刷文字双面打印文件的碎片数据。尝试设计相应的碎纸片拼接复原模型与算法，并就附件 5 的碎片数据给出拼接复原结果。如果复原过程需要人工干预，写出干预

9、方式及干预的时间节点。复原结果以图片形式及表格形式表达。二模型假设 1、假设不考虑附件中所给的所有图片的扫描误差。2、假设对于附件中所给的汉字都是等高等宽的正方形。3、假设不用对所有图片进行去躁处理。三模型建立及求解 3、问题一模型建立及求解：问题分析：附件 1 给出了汉字 19 的条碎片，需要将这 19 条碎片进行排序复原，观察左右边缘处，发现有很多文字被切开，因此碎片的拼接转化成，对边缘处被截断的汉字的拼接。但计算机无法识别汉字，考虑到汉字是方正的，因此只需要拼接成一个汉字大小的文字区域，就可近似认为是拼接成一个完整的汉字。附件2给出了英文的19条碎片，而英文单词甚至英文字母均不具有汉

10、字的方正特点，所以采用另一种拼接方法。因为将文字放大后，字母的形状是连续变化的，也就是说，若一个汉字被切开了，则在切断面的左右灰度值是近似相等的。用 matlab 汉灰度值读取每张图片，会得到一个数字矩阵，矩阵中每个元素代表图像该点的灰度值。3.1.1、附件、附件 1 汉字拼接的模型建立：汉字拼接的模型建立：附件 1 给出的是来自同一页印刷文字文件的碎纸机破碎纸片（仅纵切），用 matlab打开附件 1 的任意一幅图，都会得到一个 198072 数字矩阵。矩阵中，我们截取两个汉字观察，图 1 为附件 1 中 000 图中第 1 行的“魂”字和第 12 行的“国”字，发现每个汉字形成的区域大约占

11、据 4141 的位置。图图 1 汉字示例图汉字示例图所以将任意两个纸条拼接后，如果拼接边缘的某一对应位置的区域能够拼接为一个大约 4141 的正方形区域，则理解为这一位置拼接成了汉字。按此道理得出，两个纸条的边缘能拼接成完整字的数量，记为匹配值，匹配值除以总的字数，定为匹配度。匹配度越大，这两个纸条越匹配。称此方法为“边缘文字长度匹配”。1，利用 matlab 调用函数（附录 2）将附件 1 中的所有图片转化为三维数字矩阵 image_1,其中 image_1(i,j,k)表示附件一中第 k 张图的 i 行 j 列的灰度值。任取一张图片将其灰度化，即可统计出顶端空行 37，汉字总行数 27，

12、空行高度为 26。2，将得到的矩阵 0-1 化处理，即将灰度值在 200-255 的数据化为 0，认为此处是空白，将不是此区间的数据全部化为 1，认为此处是汉字。,分析碎片产生的矩阵，锁定汉字区域的具体位置，如图 2。Matlab中提取一张碎片的第一行的汉字区域，会得到一个 4172 的矩阵，将矩阵按列累加化成 172 的和矩阵。据第一列的位置依次找出剩下26 列汉字区域，对于每一行进行与第一行相同的处理，最后有 27 个172 的矩阵，将它们拼接成为一个 2772 的矩阵，令这个矩阵为（，iijA271 i721 jj为整数），利用的值划分汉字区域和空白区域。ijA 将矩阵 0-1 化处理（

13、0 表示汉字，1 代表空格）图 2 行距 ijA此处认为矩阵有连续三个以上为 1 处是字间距，包含最多一个为 1 的数字零区域为汉字域（由于某些左右偏旁的汉字偏旁与部首之间错在空隙）。4，统计矩阵两端汉字域的长度，方法如下见图 3：若行左端长度为411=ia，则记第一幅图第i0=Z。若，从左到右连续三个元素相加，直到其累加411ia332=+izizizaaa为止，记下此时的i值为z，记作第i行左端长度为zZ=。若，则记第行右端长度为172=iai0=Y。，直到其累加若11ia，从右到左连续三个元素相加3707172=+yiyiyiaaa为止，记下此时的值为为iy，记作第i行右端长度yY=

14、。将每一行的左右两端的长度分别放入Z、Y矩阵。按照以上 1,2,3,4 步骤进行处理，只取每一行的左右端长 5，对附件 1 中所有的图片度。6，建立 19 幅图的三维矩阵 U(niZ,niY,n)，niz代表第n幅图片的第i行的左端长度，y代表第n幅图片的第i行的ni将处理后得出来的右端长度，所有数据导入此矩阵之中。7，人工干预：由于汉字1 中编号 008 的图片。的左对齐特点，很容易找到整篇文章的最左列，即第一列为附件8，用niz与iy8相加，合成一列矩阵，统计矩阵中和数值大小介于间的个数占所有不零数值的比例，我们命名此比例值为匹加为零的情况，排除了汉字中间有空白的情况，更加精确41 和 4

15、1阀值之配度（此算法我们没有统计相。取使得匹配度最大的 n 对应）图型求解：型求解：3 程序。的片与图 008 匹配。利用此算法类推可以得到附件一的复原图。3.1.2 附件附件 1 汉字拼接的模汉字拼接的模具体运行过程见附录对应附件一图片的复原序列编号为：008 014 012 015 003 010 002 016 001 004 005 009 013 018 011 007 017 000 006 3.2.1 附件 2 英文的模型建立：3.2.1 附件 2 英文的模型建立：英文不具有汉字的规范，单词长度相差很大，并且其字母长宽都不能确定，因此无完用更为精确的方法，微观上文字每一笔画可是变

16、，个开的两近的点同。考虑为物状变产个面。可根据边缘像素。19 个 198072 的矩阵（）。法全利用处理汉字的方法。在此问题中采以认为连续化的面每一被切笔画边靠切割处像素分布相被一切二的体（形连续化），生的两截断积相同于是以点分布情况进行匹配。称此方法为“边缘像素点匹配”附件二中的图像像素化处理后，得到kE191k将得到的 19 个矩阵 0-1 化处理，即将数据 255 替换为 1，其它数据替换为 0。只抽取 19 个矩阵的最前列和最后列，建立E（kQ，kH）矩阵，Q、H分别存储前后列矩阵，191k。人工干预：根据右对齐的特点找到第一列，第一列为 003，即第 4 幅图。用kQ矩阵与4H矩阵分别相加，对应两个元素相等的情况和为 2 或2 与0，统计0个172 附件 2文拼接的模型求解：2 附件 2文拼接的模型求解：的数之和，命此值为匹配值。选出匹配值最大的与 003 匹配（类似比武招亲）。用剩余个矩阵与新的待匹配矩阵相匹配。依次类似得到附件二的复原图。3.2.英3.2.英再将此图片定为待匹配矩阵，统计出附件2、此时人工干预找到最左边的纸条幅图一一与碎片3、根列为：011 000 005

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？