数学建模B题国家一等奖_精品文档资料下载.pdf

资源描述

数学建模B题国家一等奖_精品文档资料下载.pdf

《数学建模B题国家一等奖_精品文档资料下载.pdf》由会员分享，可在线阅读，更多相关《数学建模B题国家一等奖_精品文档资料下载.pdf（19页珍藏版）》请在冰豆网上搜索。

数学建模B题国家一等奖_精品文档资料下载.pdf

1.2.3.指导教师或指导教师组负责人（打印并签名）：

（论文纸质版与电子版中的以上信息必须一致，只是电子版中无需签名。

以上内容请仔细核对，提交后将不再允许做任何修改。

如填写错误，论文可能被取消评奖资格。

）日期：

2013年9月16日赛区评阅编号（由赛区组委会评阅前进行编号）：

2013高教社杯全国大学生数学建模竞赛高教社杯全国大学生数学建模竞赛编编号号专专用用页页赛区评阅编号（由赛区组委会评阅前进行编号）：

赛区评阅记录（可供赛区评阅时使用）：

评阅人评分备注全国统一编号（由赛区组委会送交全国前编号）：

全国评阅编号（由全国组委会评阅前进行编号）：

碎纸片的拼接复原碎纸片的拼接复原摘要摘要本文要解决的是利用计算技术拼接破碎的文件，减少人工拼接的工作量，提高拼接效率。

针对问题一，发现所有汉字均占据约4141个像素点的空间。

将汉字看做4141的正方形区域，拼接纸片的过程便转化为利用计算机拼接正方形区域的过程。

首先将19个矩阵0-1化处理，统计左右两端字的长度，人工干预找出位于首列的008，其余图片与它进行匹配，判断两个纸条是否匹配的标准是拼接成的汉字长度是否接近41，选择匹配值最高的碎片与之匹配，依次匹配最终得到整张的复原图像，称为“边缘宽度匹配”法。

复原顺序为：

8141215310216145913181171706。

针对附件2，英文不具有汉字的固定长度特征。

我们对上述方法改进，采用更加精细的匹配。

将切割边缘像素点0-1化（0代表空白，1代表有文字），人工干预找出位于首列的图片003，其余图片的边界像素值与其相加匹配，判断两个纸条是否匹配的标准是2或0个数的多少，选择匹配值最高的碎片与之匹配，依次匹配最终得到整张的复原图像，称为“边缘像素点匹配”法。

3627151811051913108121417164。

针对附件2，由于横切时会使位于同一行碎片的汉字留有相同长度，所以图片矩阵0-1化我们首先通过“上边界宽度匹配”法统计上边界被截断汉字的长度或留有的空格长度，将208幅图中位于同一行的汉字分组，人工干预找出分组明显不合理的图片，再利用“边缘像素点匹配”法得到每一行图片的排序，得到11行的正确排序后利用“边缘宽度匹配”法得到最终排序图。

复原顺序为见附录2。

针对附件4，汉字的“上边界宽度匹配”不适用于英文，观察发现英文的书写分为上中结构和中下结构，可以通过图片英文中部所占得位置来确定位于同一行的图片。

208张图片0-1化分别按列求和，将矩阵中的字母全部投影到一侧，用matlab绘制每张图片的投影波峰图，根据第一簇的两个较大波峰的位置取其平均值，找到每幅图片第一行中部的位置，将图片分为11组，人工干预找出分组明显不合理的图片，再利用附件2英文的“边缘像素点匹配”法得到每一行图片的排序，得到11行的正确排序后利用附件1汉字的“边缘宽度匹配”法得到最终排序图。

针对对于附件5拼接正反两面的纵横切碎片，我们考虑仍然运用对附件4英文的投影波峰图法，matlab编写程序寻找到416个图片的匹配中部值，以此为标准按行分类。

位于同一行的图片利用“边缘像素点匹配”法得到行的图片排序，进行人工干预，再对行采用“边缘宽度匹配”法和人工干预得到最终排序表见附录2。

关键词关键词：

0-1化处理、边缘宽度匹配、边缘像素点匹配、上边界宽度匹配、投影波峰图一问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统的人工拼接方法很难在短时间内完成任务。

而利用计算机技术，可以开发碎纸片的自动拼接技术，提高拼接复原效率。

现建立适当数学模型，利用计算机解决以下问题：

1.1.对于给定的来自同一页印刷文字文件的碎纸机破碎纸片（仅纵切），建立碎纸片拼接复原模型和算法，并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。

2.2.对于碎纸机既纵切又横切的情形，请设计碎纸片拼接复原模型和算法，并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。

3.3.从现实情形出发，还可能有双面打印文件的碎纸片拼接复原问题需要解决。

附件5给出的是一页英文印刷文字双面打印文件的碎片数据。

尝试设计相应的碎纸片拼接复原模型与算法，并就附件5的碎片数据给出拼接复原结果。

如果复原过程需要人工干预，写出干预方式及干预的时间节点。

复原结果以图片形式及表格形式表达。

二模型假设1、假设不考虑附件中所给的所有图片的扫描误差。

2、假设对于附件中所给的汉字都是等高等宽的正方形。

3、假设不用对所有图片进行去躁处理。

三模型建立及求解3、问题一模型建立及求解：

问题分析：

附件1给出了汉字19的条碎片，需要将这19条碎片进行排序复原，观察左右边缘处，发现有很多文字被切开，因此碎片的拼接转化成，对边缘处被截断的汉字的拼接。

但计算机无法识别汉字，考虑到汉字是方正的，因此只需要拼接成一个汉字大小的文字区域，就可近似认为是拼接成一个完整的汉字。

附件2给出了英文的19条碎片，而英文单词甚至英文字母均不具有汉字的方正特点，所以采用另一种拼接方法。

因为将文字放大后，字母的形状是连续变化的，也就是说，若一个汉字被切开了，则在切断面的左右灰度值是近似相等的。

用matlab汉灰度值读取每张图片，会得到一个数字矩阵，矩阵中每个元素代表图像该点的灰度值。

3.1.1、附件、附件1汉字拼接的模型建立：

汉字拼接的模型建立：

附件1给出的是来自同一页印刷文字文件的碎纸机破碎纸片（仅纵切），用matlab打开附件1的任意一幅图，都会得到一个198072数字矩阵。

矩阵中，我们截取两个汉字观察，图1为附件1中000图中第1行的“魂”字和第12行的“国”字，发现每个汉字形成的区域大约占据4141的位置。

图图1汉字示例图汉字示例图所以将任意两个纸条拼接后，如果拼接边缘的某一对应位置的区域能够拼接为一个大约4141的正方形区域，则理解为这一位置拼接成了汉字。

按此道理得出，两个纸条的边缘能拼接成完整字的数量，记为匹配值，匹配值除以总的字数，定为匹配度。

匹配度越大，这两个纸条越匹配。

称此方法为“边缘文字长度匹配”。

1，利用matlab调用函数（附录2）将附件1中的所有图片转化为三维数字矩阵image_1,其中image_1（i,j,k）表示附件一中第k张图的i行j列的灰度值。

任取一张图片将其灰度化，即可统计出顶端空行37，汉字总行数27，空行高度为26。

2，将得到的矩阵0-1化处理，即将灰度值在200-255的数据化为0，认为此处是空白，将不是此区间的数据全部化为1，认为此处是汉字。

分析碎片产生的矩阵，锁定汉字区域的具体位置，如图2。

Matlab中提取一张碎片的第一行的汉字区域，会得到一个4172的矩阵，将矩阵按列累加化成172的和矩阵。

据第一列的位置依次找出剩下26列汉字区域，对于每一行进行与第一行相同的处理，最后有27个172的矩阵，将它们拼接成为一个2772的矩阵，令这个矩阵为（，iijA271i721jj为整数），利用的值划分汉字区域和空白区域。

ijA将矩阵0-1化处理（0表示汉字，1代表空格）图2行距ijA此处认为矩阵有连续三个以上为1处是字间距，包含最多一个为1的数字零区域为汉字域（由于某些左右偏旁的汉字偏旁与部首之间错在空隙）。

4，统计矩阵两端汉字域的长度，方法如下见图3：

若行左端长度为411=ia，则记第一幅图第i0=Z。

若，从左到右连续三个元素相加，直到其累加411ia332=+izizizaaa为止，记下此时的i值为z，记作第i行左端长度为zZ=。

若，则记第行右端长度为172=iai0=Y。

，直到其累加若11ia，从右到左连续三个元素相加3707172=+yiyiyiaaa为止，记下此时的值为为iy，记作第i行右端长度yY=。

将每一行的左右两端的长度分别放入Z、Y矩阵。

按照以上1,2,3,4步骤进行处理，只取每一行的左右端长5，对附件1中所有的图片度。

6，建立19幅图的三维矩阵U（niZ,niY,n），niz代表第n幅图片的第i行的左端长度，y代表第n幅图片的第i行的ni将处理后得出来的右端长度，所有数据导入此矩阵之中。

7，人工干预：

由于汉字1中编号008的图片。

的左对齐特点，很容易找到整篇文章的最左列，即第一列为附件8，用niz与iy8相加，合成一列矩阵，统计矩阵中和数值大小介于间的个数占所有不零数值的比例，我们命名此比例值为匹加为零的情况，排除了汉字中间有空白的情况，更加精确41和41阀值之配度（此算法我们没有统计相。

取使得匹配度最大的n对应）图型求解：

型求解：

3程序。

的片与图008匹配。

利用此算法类推可以得到附件一的复原图。

3.1.2附件附件1汉字拼接的模汉字拼接的模具体运行过程见附录对应附件一图片的复原序列编号为：

0080140120150030100020160010040050090130180110070170000063.2.1附件2英文的模型建立：

3.2.1附件2英文的模型建立：

英文不具有汉字的规范，单词长度相差很大，并且其字母长宽都不能确定，因此无完用更为精确的方法，微观上文字每一笔画可是变，个开的两近的点同。

考虑为物状变产个面。

可根据边缘像素。

19个198072的矩阵（）。

法全利用处理汉字的方法。

在此问题中采以认为连续化的面每一被切笔画边靠切割处像素分布相被一切二的体（形连续化），生的两截断积相同于是以点分布情况进行匹配。

称此方法为“边缘像素点匹配”附件二中的图像像素化处理后，得到kE191k将得到的19个矩阵0-1化处理，即将数据255替换为1，其它数据替换为0。

只抽取19个矩阵的最前列和最后列，建立E（kQ，kH）矩阵，Q、H分别存储前后列矩阵，191k。

人工干预：

根据右对齐的特点找到第一列，第一列为003，即第4幅图。

用kQ矩阵与4H矩阵分别相加，对应两个元素相等的情况和为2或2与0，统计0个172附件2文拼接的模型求解：

2附件2文拼接的模型求解：

的数之和，命此值为匹配值。

选出匹配值最大的与003匹配（类似比武招亲）。

用剩余个矩阵与新的待匹配矩阵相匹配。

依次类似得到附件二的复原图。

3.2.英3.2.英再将此图片定为待匹配矩阵，统计出附件2、此时人工干预找到最左边的纸条幅图一一与碎片3、根列为：

011000005

展开阅读全文