关于碎纸片自动拼接的数学模型数学建模竞赛优秀论文.docx

资源描述

关于碎纸片自动拼接的数学模型数学建模竞赛优秀论文.docx

《关于碎纸片自动拼接的数学模型数学建模竞赛优秀论文.docx》由会员分享，可在线阅读，更多相关《关于碎纸片自动拼接的数学模型数学建模竞赛优秀论文.docx（38页珍藏版）》请在冰豆网上搜索。

关于碎纸片自动拼接的数学模型数学建模竞赛优秀论文.docx

关于碎纸片自动拼接的数学模型数学建模竞赛优秀论文

大学生数学建模竞赛优秀论文

关于碎纸片自动拼接的数学模型

摘要

本文针对生活中破碎文件的拼接难度大，效率低等现象，从题目所给的情形出发，利用计算机软件把碎纸片图像转化为数字图像，综合运用matlab软件中的数字图像处理方法，建立了以图与图之间的相似程度为基准的数学模型。

这个模型的评价标准很简单，就是相似度函数的值。

通过比较图像与图像之间的相似度函数的值的大小，就可以得出碎纸片的具体拼接序列。

对于问题

（1），首先，用matlab软件的imread函数对图像的进行读取，得到数据矩阵为

。

其次，根据模型的假设

（1），找到最右端的碎纸片，并记为

。

然后，以数据矩阵

为基础，引入相似度函数

，并求出相似度函数值。

最后，用matlab工具箱中的sort函数把所得到的相似度函数值进行排序，所得到的相似度函数值最小的图像即为与最右端的碎纸片匹配的图像。

如此重复18次，即可得附件1的中文图像的排列序号，结果如表1所示。

同理可得附件2的英文图像排列序号，结果如表2所示。

复原结果图片见论文附件的图1和图2。

对于问题

（2），同样先找到最右端的11张图像和最上方的19张图像，根据图像的页边距特性确定原图像右上角的第1张图像。

利用问题

（1）的算法可得最右端的11张图像和最上方的19张图像的排列序号。

然后，在问题

（1）的算法的基础上，利用图像中的文字的固定间距去改进算法，缩小搜索范围，并在拼接完一行后显示一次结果，由于近似距离计算公式与人主观视觉差异，所以需要人机交互调整结果。

如此重复18次，即可得附件3的中文图像的排列序号，结果如表3所示。

同理可得附件4的英文图像排列序号，结果如表3所示。

对于问题（3），与问题

（2）相似，只是碎纸片由单面变为双面。

因此在匹配图像时，引入两重相似度函数

，以确保正反两面能同时匹配。

同时每匹配5张图像显示一次结果，以增加人工干预次数。

如此重复若干次，即可得最终的复原图像。

关键字相似度函数matlab软件数字图像处理

一、问题的重述

破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统上，拼接复原工作需由人工完成，准确率较高，但效率很低。

特别是当碎片数量巨大，人工拼接很难在短时间内完成任务。

随着计算机技术的发展，人们试图开发碎纸片的自动拼接技术，以提高拼接复原效率。

请讨论以下问题：

1.对于给定的来自同一页印刷文字文件的碎纸机破碎纸片（仅纵切），建立碎纸片拼接复原模型和算法，并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预，请写出干预方式及干预的时间节点。

复原结果以图片形式及表格形式表达（见【结果表达格式说明】）。

2.对于碎纸机既纵切又横切的情形，请设计碎纸片拼接复原模型和算法，并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预，请写出干预方式及干预的时间节点。

复原结果表达要求同上。

3.上述所给碎片数据均为单面打印文件，从现实情形出发，还可能有双面打印文件的碎纸片拼接复原问题需要解决。

附件5给出的是一页英文印刷文字双面打印文件的碎片数据。

请尝试设计相应的碎纸片拼接复原模型与算法，并就附件5的碎片数据给出拼接复原结果，结果表达要求同上。

【数据文件说明】

（1）每一附件为同一页纸的碎片数据。

（2）附件1、附件2为纵切碎片数据，每页纸被切为19条碎片。

（3）附件3、附件4为纵横切碎片数据，每页纸被切为11×19个碎片。

（4）附件5为纵横切碎片数据，每页纸被切为11×19个碎片，每个碎片有正反两面。

该附件中每一碎片对应两个文件，共有2×11×19个文件，例如，第一个碎片的两面分别对应文件000a、000b。

【结果表达格式说明】

复原图片放入附录中，表格表达格式如下：

（1）附件1、附件2的结果：

将碎片序号按复原后顺序填入1×19的表格；

（2）附件3、附件4的结果：

将碎片序号按复原后顺序填入11×19的表格；

（3）附件5的结果：

将碎片序号按复原后顺序填入两个11×19的表格；

（4）不能确定复原位置的碎片，可不填入上述表格，单独列表。

二、问题的分析

碎纸，即一张纸在外力的作用下被分开的几个小分块。

而在实际生活中，往往需要我们把这几个碎纸块还原成一张纸，这就需要用到碎纸拼接技术。

随着科学技术的迅速发展，我们可以把碎纸的一些特征用平面扫描仪、数码相机、摄像机等设备记录下来。

而如何把一张张图像的特征转化成数字特征，并根据这些数据特征去建立相关的数学模型或计算机算法，从而借用计算机来帮助我们拼接图像，提高效率，就是问题的关键点了。

传统的图像碎片自动拼接算法有蚁群优化算法、遗传算法等，我们通过分析数据文件发现这些算法并不适合于本题。

原因是以上的算法是基于碎片有不规则边缘的基础上的，而本题中碎纸图像的切痕是规则的，且无文字识别能力。

第1步，把所给的图像的数字信息（即像素）用matlab软件读取出来，得到了图像的数据矩阵，通过分析数据后发现，相邻两张图片的边缘像素具有较大的相似度。

第2步，利用数字图像处理的方法，结合题目所给数据文件的说明，得到了图与图之间的灰度相关关系的相似度函数，即取出数据矩阵的边缘列与其他图像的数据矩阵边缘列进行最短距离运算。

第3步，建立以图与图之间的相似程度为基准的数学模型。

这个模型的评价标准很简单，就是相似度函数的值。

相似度函数的值越小，就认为两张图像越靠近，即匹配的概率就越大。

第4步，通过求相似度函数值，对所得到的函数值进行排序，从中寻找到相似度函数值最小的图像，就得到了最佳匹配图。

第5步，每匹配若干张图，显示一次结果，若发现有文字不连续或意思不通的，则进行人工干预。

对于问题

（1），由于题中给出的碎纸片是由碎纸机纵向切割而得到的，于是碎片边缘的尖点特征尖角特征，面积特征等几何特点几乎一样，导致无法运用以碎纸片有不规则边缘为基础的传统计算机算法进行拼接。

因为边缘相似的碎纸片的拼接，理想的计算机拼接不仅要考虑边缘的匹配还要满足字迹断线或碎片内的内容的相符。

然而这种理想方法很难实现，于是利用数字图像处理的方法，建立了以图与图之间的相似程度为基准的数学模型。

首先，用matlab软件的imread函数进行图像的读取，得到数据矩阵为

。

其次，根据问题的假设

（1）可以知道当灰度图中后n列灰度值

恒等于255时即可认为这一碎纸为最右端的碎纸片，并记为

。

然后，以数据矩阵

为基础，引入相似度函数

。

最后，用matlab工具箱中的sort函数把所得到的相似度函数值进行排序，所得到的相似度函数值最小的图像即为与最右端的碎纸片匹配的图像。

如此重复18次，就可以得到附件1的所有图像的排列序号。

附件2的图像拼接算法与附件1的图像拼接算法一致。

由此问题

（1）的算法模型确定完毕。

对于问题

（2），附件3和附件4的碎片图像是碎纸机采用横切与纵切所得到的，与问题

（1）相似的碎纸边缘的特点是一致的，无法采用几何特性拼接。

于是可以利用问题

（1）的模型，设计出以图像灰度系数相关的算法进行图像的拼接。

同样采用matlab软件的imread函数进行图像的读取，转化为灰度图即可得到一个

的数据矩阵。

由于所被碎纸机纵横切割的是标准纸张，其具有页边距的特性。

可以首先在209张碎纸片中寻找到应该位于页面最右端或者最左端的11张碎纸条，因为有页边距的原因，此时它们的灰度图像第后n列灰度值全为255，并且具有相同的边距（即从后n+1行开始均不全为255）。

采用同样的方法我们也可以得到位于页面上方的19张碎片。

根据所得到的图像我们可以人工寻找到位于最右端的那一列的第一张碎纸片序号。

根据问题

（1）的模型的图像拼接的灰度相关方法，我们将位于最右端的那一列的第一张碎纸片与剩余的10张碎片独立进行纵向拼接。

得到被碎纸机纵向切割的最右端的一整列碎纸条。

但是，在运用灰度度相关关系进行图片的匹配时，将会出现多个与第一张图像匹配的图像。

于是我们采用人工干预，在符合条件的若干张（不超过5张）图像中找到能把文字信息完整拼接上的图像。

可知最右端的一张碎纸片，以此碎纸条为基准链，从右往左寻找可匹配横向（即第一行）方向图像，除了要根据灰度值相关关系，还要人工干预判断行距是否一致。

在此过程中除了问题

（1）的模型基础上运用相关算法外，人工干预也起到关键性作用。

附件4的图像拼接算法与附件3的图像拼接算法一致。

由此问题

（2）算法模型确定完毕。

问题（3）中所给出的碎纸是由碎纸机切割一页英文印刷文字双面打印文件而得到的。

一张碎片有正反两面，并且所给数据中并不能把正反面分开，导致在寻找匹配图像时难度增加。

但是，依然可以运用印刷纸张的页边距特性寻找位于最右边碎纸。

通过计算机搜索可以找到22张位于页面最右端和最左端的碎片图像。

再次运用标准纸的性质，计算机搜索位于页面上方的38张碎纸图像。

我们可以通过以找出的碎片图像中找到两幅即位于页面上方与最右边的图像，于是可以得到位于正面右上端的正面的一幅图像，用矩阵表示为

，另一幅图像为反面的左上端的图像用矩阵表示为

。

可以进行人工干预，找到了位于原文件最左端的第1个碎纸图像和最右端的第一个图像。

运用模型一的算法寻找与之匹配的图像：

第一步，将所得碎片图像分别从上往下纵向寻找匹配图像，因为正反面图像往下搜寻匹配的图像是同一张的，通过两个相似度函数寻找到匹配图像。

通过拼接即可得到碎纸机纵向切割的最右的一张碎纸。

第二步，以最右端的拼接而成的碎纸图像为基准链从右往左寻找匹配图像。

按照解决问题

（2）的算法寻找匹配图。

在此过程中，会有人工干预从满足灰度值要求的情况下找到行距与基准链相同的匹配图像。

通过matlab软件编程可得原文件。

三、模型的假设与符号的说明

3.1模型的假设

（1）假设完整的图像是一张有边界的标准纸张纸，即有明显的边界特性。

（2）假设完整的图像在切割时和切割后边界整齐，没有不规则的边缘。

（3）假设完整的图像的像素点录入过程没有噪声干扰。

（4）假设完整的图像中的文字是规则的，即大小一致。

3.2符号的说明

四、模型的建立与求解

4.1问题

（1）的模型建立与求解

运用matlab软件imread函数进行图像的读取，先读取任意的一个的数据矩阵为

。

通过将碎纸图像转化为矩阵，运用计算机搜索法寻找最左端碎纸条，因为碎纸是由a4纸切割而成的。

根据A4纸页边距的性质，于是可得到当灰度图中后n列灰度值

横等于255时，矩阵为：

由以上通过图像处理的方法和计算机搜索方法，求得最左端的碎纸。

接下来将要通过寻找与此碎纸片相似的右边碎纸片，引入了相似度函数。

假设左边的图像灰度图矩阵为

右边图像的灰度图矩阵为

于是相似度函数为：

将最左端的一张碎片与另外碎纸进行匹配，求出其相似度函数值

（i，j=1,2,3,4,…18）。

继而对得出的函数值进行排序，运用matlab工具箱中的sort函数寻找最小函数值

。

即此时可以得到最佳的匹配图.

由问题

（1）中附件1所给出的图像可以人工观察得到最右端对应碎纸图像编号为（06），接下来是寻找与第19幅图像匹配的下一张图像。

通过求第19幅图像与另外18张图像的相似度函数值，并找出相似度函数值最小的匹配图像，则该图像能与第19幅图匹配。

接着往下寻找与第18幅图匹配的第17幅图。

第一张图像的程序算法框图为：

图1确定问题

（1）第一张图像的程序算法框图

其他18张图像的程序算法框图为：

图2问题

（1）其余18张图像的程序算法框图

问题

（1）的算法框图的具体代码见附录1。

4.2问题

（2）模型的建立与求解

运用matlab在图像处理的运用，将209张碎纸图像转化为灰度图，得到第i张图像的数据矩阵为

，在第i张图像上点

的灰度值为

。

所得到的矩阵为：

通过计算机编程搜索所有图像的数据矩阵，找到前n行的灰度值全为255的图像，所得的数据矩阵为：

（

）

通过人工干预剔除边距不一致的碎纸片，从而筛选出具有相同边距的图像，而所选出的19张等边距图像即为位于最上方的图像碎片。

接着运用等边距的特性可同样寻找到位于最右边的碎纸片图像（共11张），其数据矩阵满足：

通过以上的步骤筛选，可以得到顶部与最右边的碎纸片图像。

通过人工干预结合以上所得的最右边的碎纸片图像（共11张）可得到位于原图像右上端的第1幅图像。

接着下一个步骤是寻找与之匹配的纵向或横向图像。

由于图像的边缘几何关系一致，在寻找最佳匹配图时，同样可采用问题

（1）模型的算法。

首先寻找纵向的匹配图，假设最右端的第一个图像的矩阵为

。

相似度函数为：

每个图像与右上端的第1幅图像都有一个相似度函数关系，再进行排序求出最小函数值

从而寻找最佳匹图。

然而运用计算机寻找最佳匹配图时，得到相似度函数值的最小值有多个，即有多张可以匹配的图像，此时应采取人工干预读取拼接图像是否符合文字逻辑与行距，从而选取相符合的图像。

最上方与最右端的碎纸片图像（分别为19张与11张）的程序算法框图如下具体的程序代码见附录2问题

（2）的程序

图3最上方与最右端的碎纸片图像的程序算法框图

于是我们通过寻找得到最右边的图像为基准链，寻找在横向方向上的匹配图像。

寻找的方法与以上相同。

再次运用相似度函数：

继而将所得到的函数值进行排序，选取图像之间相似度函数值最低的图像进行拼接。

运用相似度函数为：

问题

（2）中，附件2的最右端的11张图像的序列程序框图算法如下

图4问题

（2）中，附件2的最右端的11张图像的序列程序框图算法

框图的具体程序见附录问题

（2）的代码，如果把上面的程序框图中数据矩阵B的命令改为取W的第1列，数据矩阵Y的命令改为取W的最后1列，即可得到最上方的11张图像的序列。

问题（3）模型的建立与求解

由于所给的的图像数据是来自两面打印文件的碎纸片，所给图像中并不能判断正反面。

这样在寻找匹配图像时，很容易就找到满足图像灰度值相关关系一致的多张图像。

于是应先找到一条基准链，以双重相似函数值为判断标准，适时进行人工的干预。

首先，寻找位于页面右端的碎纸图像，图像矩阵克表示为为

。

在寻找位于页面上方的图像用矩阵表示

。

根据问题

（2）模型中的算法可得到位于原文件左端和右端的第一张碎纸片。

接着，我们引进双重相似度函数，寻找与右端第一个碎纸片图像匹配的纵向方向上的图像。

双重相似度函数为：

最后，用已得到的位于源文件右端的碎纸图像进行拼接，可得碎纸机纵向切割位于最右端的碎纸片。

以此为基准链寻找右边与之匹配的图像，此过程与问题二解法相同，采用matlab与适时的干预。

于是可运用附件数据的出结果。

五、模型的结果分析与评价

5.1模型的结果分析

5.1.1问题

（1）的结果分析

根据问题

（1）的程序框图，利用计算机编程可以得到附件1的匹配的图像顺序为

表1所求中文碎片图像序号的排列方式

根据问题

（1）的附件1的数据可得完整图片见附件1中图1

根据问题

（1）的程序框图，利用计算机编程可以得到附件2的匹配的图像顺序为

表2所求英文碎片图像序号的排列方式

所拼接的完整图像见附件1中的图2

由拼接所得图像可知，符合相关文字特征与内容逻辑关系。

于是可以断定通过模型一的算法进行图像的拼接是可行的。

采用图像处理方法，以拼接无边缘特性的图像。

5.1.2问题

（2）的结果分析

通过计算机编程即可恢复原图像所得的结果用表格的形式表示如下：

问题

（2）附件3的图像排列序号

表3所求中文碎片图像序号的排列方式

049

054

065

143

186

002

057

192

178

118

061

019

078

067

069

099

162

096

131

079

168

100

076

062

142

030

041

023

147

191

038

148

046

161

024

035

081

189

122

103

071

156

083

132

200

017

080

033

202

198

014

128

003

159

082

199

135

012

073

160

094

034

084

183

090

047

121

042

124

144

125

013

182

109

197

016

184

110

187

066

029

064

111

201

005

092

180

048

037

075

007

208

138

158

126

068

175

045

174

000

089

146

102

154

114

040

151

207

155

140

190

095

011

022

129

028

091

188

141

063

116

163

072

006

177

020

052

036

050

179

120

086

195

026

001

087

018

130

193

088

167

025

008

009

105

074

015

133

170

205

085

152

165

027

060

203

169

134

039

031

051

107

115

176

077

112

149

097

136

164

127

058

043

106

150

021

173

157

181

204

139

145

055

044

206

010

104

098

172

171

059

137

053

056

093

153

070

166

032

196

185

108

117

004

101

113

194

119

123

根据以上序号所拼接的完整图像见附件1中的图3

同理可得，问题

（2）附件4的图像排列顺序根据以上序号所拼接的完整图像见附件1中的图4

表格4所求中文碎片图像序号的排列方式

191

075

011

154

190

184

002

104

180

064

201

148

170

196

198

094

113

164

078

103

086

051

107

029

040

158

186

098

024

117

019

194

093

141

088

121

126

105

155

114

159

139

001

129

063

138

153

053

038

123

020

041

108

116

136

073

036

207

135

015

208

021

007

049

061

119

033

142

168

062

070

084

060

014

068

174

137

195

008

049

132

181

095

069

167

163

166

188

111

144

017

042

066

205

010

157

074

145

083

134

081

077

128

200

131

052

125

140

193

087

106

004

149

032

204

065

039

067

147

091

080

101

026

100

006

017

028

146

150

005

059

058

092

030

037

046

127

176

182

151

022

057

202

071

165

082

120

175

085

050

160

187

097

203

031

076

043

199

045

173

079

161

179

143

169

054

192

133

118

189

162

197

112

172

156

096

023

099

122

090

185

109

206

003

130

034

013

110

025

027

178

055

018

056

035

016

009

183

152

044

089

048

072

012

177

124

000

102

115

问题

（2）所给的碎纸图像是采用横切与纵切所得，盲目进行搜索匹配图像不但计算量大而且很难用计算机编程实现。

于是通过寻找图像特征，找到只用纵切的最左边的碎片为基准链。

再次寻找与基准链图像匹配的图像，运用模型一的算法，进行图像的拼接。

从拼接的结果可知，符合图像内容与文字特征。

于是此算法可行。

5.1.3问题（3）的结果与分析

问题（3）在以双面碎纸片为条件，进行图像的拼接。

采用标准纸具有页面边距的特征，即图像的特征。

构架新的相似度函数为匹配标准，结合问题

（2）的算法得到理想的结果。

5.2模型的评价

模型优点：

（1）问题

（1）的模型从问题的本质出发，摒弃以边缘几何方式的图像匹配方法，而是运用图像处理方式寻找图与图之间在计算机读取的图像的灰度值相关关系，建立了以图像相似函数为标准的图像匹配方式。

简化了问题的处理过程，使问题解决过程更加简单清晰。

（2）模型充分利用图像的特征信息，能够有的放矢，不是在盲目的搜索，从而简化图像拼接的过程。

模型所用算法比传统的灰度相关匹配算法速度要快,鲁棒性也很好。

（3）模型解法相对简单，容易采用计算机编程实现。

为了防止求解结果具有偶然性错误，多个过程加入了人工干预，误匹配发生的概率小。

模型缺点:

为了简化问题的需要，忽略了一些因素会导致图像无法准确找到最佳匹配图的因素，如噪声的干扰。

计算的代价高，计算量大；该算法需要采用计算机搜索。

以及求解相似函数值时计算量庞大。

模型改进方向：

本文在传统灰度相关匹配算法的基础上,建立了一以图像临界灰度值差异程度为判断标准的图像匹配数学模型。

然而本文所提出的模型具有一定的局限性。

用碎纸机进行碎纸时得到的的碎纸片边缘特性是一致的，无法运用几何关系对其进行图像的匹配。

这样大量的碎纸片运用灰度相关关系寻找相互匹配图像时，可能会出现两张相似度函数值是一样的。

此时就比须采取人工干预，这样会浪费很多人力与物力。

为了减少人工干预，可以采用一些新技术对碎片进行处理从而获取匹配关系。

或者必须增加更多的约束条件，如文字的文字特征，色彩等特点，运用现代优化算法如模拟退火算法，遗传算法等从而寻找最佳匹配图形。

六、参考文献

[1]赵小川.繆远诚.matlab数字图像处理实践，北京：

机械工业出版社，2013.

[2]张倩.占君.详解matlab图像函数

展开阅读全文