碎纸片的拼接复原问题.docx

资源描述

碎纸片的拼接复原问题.docx

《碎纸片的拼接复原问题.docx》由会员分享，可在线阅读，更多相关《碎纸片的拼接复原问题.docx（26页珍藏版）》请在冰豆网上搜索。

碎纸片的拼接复原问题.docx

碎纸片的拼接复原问题

2013高教社杯全国大学生数学建模竞赛

编号专用页

赛区评阅编号（由赛区组委会评阅前进行编号）：

赛区评阅记录（可供赛区评阅时使用）：

评

阅

人

评

分

备

注

全国统一编号（由赛区组委会送交全国前编号）：

全国评阅编号（由全国组委会评阅前进行编号）：

碎纸片的拼接复原问题

摘要

破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

本文针对已给图像先进行了图片灰度二值化处理得到碎纸片的像素矩阵，提取碎纸片的边缘像素矩阵，对边缘矩阵进行相似度分析，相似度的度量采用向量距离平方和最小化，在相似度度量中设置阈值、对相近相似度的候选纸片进行人工干预、对数据量较大的附件，采用文本特征，如页边距、行距进行筛选，降低计算量，提高计算精度。

使用Matlab软件编程实现了上述算法，在对附件的拼接中通过少量的人工干预，可实现纸片的完整拼接，效果较好。

关键词：

相似度；文字特征；碎纸片拼接；Matlab；

1问题重述

1.1问题的描述

设计一个碎纸片的自动拼接模型，以提高碎纸片的拼接复原效率。

1.2问题的要求

（1）对于给定的来自同一页印刷文字文件的碎纸机破碎纸片（仅纵切），建立碎纸片拼接复原模型和算法，并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预，请写出干预方式及干预的时间节点。

复原结果以图片形式及表格形式表达。

（2）对于碎纸机既纵切又横切的情形，请设计碎纸片拼接复原模型和算法，并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预，请写出干预方式及干预的时间节点。

复原结果表达要求同上。

（3）从现实情形出发，还可能有双面打印文件的碎纸片拼接复原问题需要解决。

附件5给出的是一页英文印刷文字双面打印文件的碎片数据。

请尝试设计相应的碎纸片拼接复原模型与算法，并就附件5的碎片数据给出拼接复原结果，结果表达要求同上。

1.3问题的分析

对破碎文件这类边缘相似的碎纸片的拼接，理想的计算机拼接过程应与人工拼接过程类似，即拼接时不但要考虑待拼接碎纸片边缘是否匹配，还要判断碎纸片内的字迹断线或碎片内的文字内容是否匹配，然而由于理论和技术的限制，让计算机具备类似人那种识别破碎边缘地字迹断线、以及理解碎片内文字图像含义的智能几乎不太可能。

但是分析了基于几何特征的碎纸片自动拼接方法的缺点,研究了碎纸片内文字行特征以及行特征获取方法。

利用这些信息进行拼接，其拼接效率无疑比单纯利用边界几何特征方法要好些。

另一方面由于计算机数字分析图像能力的缺陷，让计算机对碎片进行完全意义上的自动化拼接也几乎不大可能，这就需要我们在拼接过程加入人工干扰过程，对一些碎片进一步分析结果舍弃或拼接待选。

2模型假设和符号系统

2.1模型假设

（1）假设问题中所给的碎片图像边缘没有破损；

（2）假设附件中每张碎片的形状和大小都一致；

（3）假设附件中的每张碎片中的字体都清楚且没有重叠部分；

2.2符号系统

表示附件1中图像进行二值化处理得到的第

个数据矩阵；

：

表示附件2中图像进行二值化处理得到的第

个数据矩阵；

：

表示附件3中图像进行二值化处理得到的第

个数据矩阵；

表示附件3中第

次运行得到的数据矩阵；

：

表示附件3中第

次运行第

次人工干预得到的数据矩阵；

表示附件5中图片009.bmp的运行结果；

K：

表示附件1复原后的碎纸片排列序号；

Q：

表示附件2复原后的碎纸片排列序号。

3模型的建立及求解

3.1模型一的建立

3.1.1模型一的概要

将附件1～2中碎纸片进行图片灰度二值化处理得到碎纸片的像素矩阵，提取碎纸片的边缘像素矩阵，对各矩阵数据进行人工遍历搜索，提取出文件左右两边的碎纸片。

对边缘矩阵进行相似度分析，相似度的度量采用向量距离平方和最小化。

利用Matlab编程对各附件的碎纸片图像进行自动拼接。

3.1.2模型一的分析

（1）对于附件1

步骤1：

将附件1中碎纸片图像利用Matlab软件进行二值化处理（源程序代码见附录1代码1），得到数据矩阵

；

步骤2：

对数据矩阵

的数据进行人工遍历搜索可看出矩阵

的前几列数据全为255，矩阵

的后几列数据全为255（在像素矩阵中255代表白色，0代表黑色），所以附件1中i9（008.bmp）为复原后的第一张图片，i7（006.bmp）为复原后的最后一张图片；

步骤3：

将i9（008.bmp）和i7（006.bmp）提取出来，用第一张图片右边缘像素值与剩余碎纸片的左边缘像素值依次进行差的平方，求相似度，得到最优解。

编写程序（源程序代码见附录1代码2），利用Matlab软件实行碎纸片的自动拼接得到复原后碎纸片排列序号K。

（2）对于附件2

步骤1：

将附件2中碎纸片图像利用Matlab软件进行二值化处理（源程序代码见附录代码1），得到数据矩阵

；

步骤2：

对数据矩阵的数据

进行人工遍历搜索可看出矩阵

的前几列数据全为255，矩阵

的后几列数据全为255（在像素矩阵中255代表白色，0代表黑色），所以附件1中Name4（003.bmp）为复原后的第一张图片，Name5（004.bmp）为复原后的最后一张图片；

步骤3：

将Name4（003.bmp）和Name5（004.bmp）提取出来，在附件一的基础上根据碎片的文字特征即页边距进行分析，编写程序（源程序代码见附录1代码3），利用Matlab软件实行碎纸片的自动拼接得到复原后碎纸片排列序号Q。

3.1.3模型一的求解

附件1的求解

（1）运行自动拼接源程序代码，得到

K=[1311144931525681217107161]

（2）第一张图为I9，最后一张图为I7，在数组K中1～6则为图i1～i6，7为图I8，8～16则为图I10～I18,在Matlab中运行

tu=[i9i15i13i16i4i11i3i17i2i5i6i10i14i19i12i8i18i1i7];

imshow（tu）

即可得到拼接复原图见附录图1，根据运行结果得到复员后碎纸片的排列序号见表1。

表1附件1复原后的碎片序号

008

014

012

015

003

010

002

016

001

004

005

009

013

018

011

007

017

000

006

附件2的求解

（1）运行自动拼接源程序代码，得到

Q=[5361417101428129711131615]

（2）第一张图为Name4，最后一张图为B5，在数组Q中1～3则为图B1～B3，4～16则为图B6～B18,在Matlab中运行

tu=[Name4Name7Name3Name8Name16Name19Name12Name1Name6Name2Name10Name14Name11Name9Name13Name15Name18Name17Name5];

imshow（tu）

即可得到拼接复原图见附录2图2，根据运行结果得到复员后碎纸片的排列序号见表2。

表2附件2复原后的碎片序号

003

006

002

007

015

018

011

000

005

001

009

013

010

008

012

014

017

016

004

3.2模型二的建立

3.2.1模型二的概要

对于附件3～4中图片需要进行横纵切割，它的碎片复原拼接需要先把一部分图片利用Matlab编程拼接成像附件1中那种类似的图片，然后利用文字特征中的左边距再在模型一的基础上设置相似度度量阈值，对相近相似度的候选纸片进行人工干预，从而进行碎纸片的拼接复原。

3.2.2模型二的分析

附件3的分析

步骤1：

同模型一一样，对所有图片进行二值化处理得到得到数据矩阵

～

；

步骤2：

对数据矩阵

～

进行人工遍历搜索,由文字边缘像素矩阵两图片的相似度和页边距的特征，可得到复原后的第一列的小图片；

步骤3：

对得到的第一列的所有图片编写程序在Matlab软件中拼接成12个类似附件1的长条图片；

步骤4：

对步骤3得到的图片利用模型一的模式进行碎纸片的拼接复原。

附件4的求解过程同附件3

3.2.3模型二的求解

附件3的求解

自动拼接源程序代码见附录代码4

（1）第一次运行

将代码4中的n取15运行的结果为：

=[126130136144169129416083200]

第一次人工干预点：

136

运行结果为：

=[1294160832001361374161]

第二次人工干预点：

204

运行结果为：

=[403252108116]

第三次人工干预点：

177，可得到附录2图3。

（2）第二次运行

将代码4中的n取8运行的结果为：

=[126130136139144169]

第一次人工干预点：

139，可得到附录2图4。

（3）第三次运行

将代码4中的n取62运行的结果为：

=[1261301361441692079]

第一次人工干预点：

可得运行结果：

=[126136144147169207968701001639713280]

第二次人工干预：

64，可得附录2图5。

（4）第四次运行

将代码4中的n取126运行的结果为：

=[12613013614416914]

人工干预：

183，可得附录2图6。

（5）第五次运行

将代码4中的n取50运行的结果为：

=[1261301361441695566]

第一次人工干预点：

144

运行结果：

=[126130136144169556614418735819317911919196]

第二次人工干预点：

12，可得附录2图7。

（6）第六次运行

将代码4中的n取50运行的结果为：

=[126130136144169556695358512231302992189142]

人工干预点56，可得附录2图8。

（7）对于剩余小图片因为部分相似度很高，需多次进行人工干预。

进行人工干预的得到附录2图9～图13。

把附录2图3～图13运用模型一的模式进行调试得到附件3碎纸片的拼接复原图（见附录2图14），根据运行结果得到复原后碎纸片的排列序号见表3。

表3附件三复原后的碎片序号

049

054

065

143

186

002

057

192

178

118

190

095

011

022

129

028

091

188

141

061

019

078

067

069

099

162

096

131

079

063

116

163

072

006

177

020

052

036

168

100

076

062

142

030

041

023

147

191

050

179

120

086

195

026

001

087

018

038

148

046

161

024

035

081

189

122

103

130

193

088

167

025

008

009

105

074

071

156

083

132

200

017

080

033

202

198

015

133

170

205

085

152

165

027

060

014

128

003

159

082

199

135

012

073

160

203

169

134

039

031

051

107

115

176

094

034

084

183

090

047

121

042

124

144

077

112

149

097

136

164

127

058

043

125

013

182

109

197

016

184

110

187

066

106

150

021

173

157

181

204

139

145

029

064

111

201

005

092

180

048

037

075

055

044

206

010

104

098

172

171

059

007

208

138

158

126

068

175

045

174

000

137

053

056

093

153

070

166

032

196

089

146

102

154

114

040

151

207

155

140

185

108

117

004

101

113

194

119

123

对于附件4的求解过程在附件3的基础上，根据文字特征中的行边距，即可得到拼接复原总图见附录2图15，复原后碎纸片的排列序号见表4。

表4附件4复原后的碎片序号

191

075

011

154

190

184

002

104

180

064

106

004

149

032

204

065

039

067

147

201

148

170

196

198

094

113

164

078

103

091

080

101

026

100

006

017

028

146

086

051

107

029

040

158

186

098

024

117

150

005

059

058

092

030

037

046

127

019

194

093

141

088

121

126

105

155

114

176

182

151

022

057

202

071

165

082

159

139

001

129

063

138

153

053

038

123

120

175

085

050

160

187

097

203

031

020

041

108

116

136

073

036

207

135

015

076

043

199

045

173

079

161

179

143

208

021

007

049

061

119

033

142

168

062

169

054

192

133

118

189

162

197

112

070

084

060

014

068

174

137

195

008

047

172

156

096

023

099

122

090

185

109

132

181

095

069

167

163

166

188

111

144

206

003

130

034

013

110

025

027

178

171

042

066

205

010

157

074

145

083

134

055

018

056

035

016

009

183

152

044

081

077

128

200

131

052

125

140

193

087

089

048

072

012

177

124

000

102

115

3.3模型三的建立

3.3.1模型三的概要

附件5中碎纸片的拼接复原要求双面拼接，且碎纸片的图片是横纵切割的。

所以模型三的模式是以模型二为基础，算法比其更为复杂。

对碎纸片拼接复原同样需要对418张图片进行二值化处理，获取文字边界像素矩阵，利用像素矩阵选取行距相同的碎纸片，然后再在模型二的基础上进行碎纸片的拼接复原。

3.3.2模型三的求解

（1）以下为选取附件5中009.bmp为第一张，运行程序代码（见附录1代码5）。

运行结果为：

E=[1224345263728498119130146161170174176182195200207219233243244249258262272292303305307311329339343366371385415]

运行图如图1所示

图1附件5部分复原图

（2）其它图片的运行过程同模型二，通过运行的结果进行分析，可得到附件5碎纸片的拼接复原图的正面（见附录图16）和反面（见附录图17）。

（3）根据运行结果得到复原后碎纸片的排列序号正面见表5（a）和反面见表5（b）。

表5（a）附件5复原后正面的碎片序号

078a

111a

125b

140b

155b

150b

183a

174a

110b

066b

108b

018a

029b

189a

081a

164a

020b

047b

136a

089b

010a

036b

076a

178b

044b

025a

192b

124a

022b

120a

144b

079b

014b

059b

060a

147b

152b

005b

186a

153b

084a

042a

030b

038b

121b

098b

094a

061a

137a

045b

138b

056a

131a

187a

086a

200a

143a

199a

011a

161b

169a

194a

173a

206a

156b

034b

181a

198a

087b

132a

093b

092a

175b

197b

039a

083b

088a

107b

149a

180b

037a

191b

065a

115a

166a

001a

151a

170a

041b

070a

139a

002b

162a

203a

080b

114b

184a

179a

116a

107b

058b

158b

197b

154a

028a

012b

017a

102a

064b

208b

142b

057a

024b

013b

146b

171a

031b

201b

050a

190a

092a

019a

016a

177a

053a

202b

021a

130a

163b

193a

073a

159b

035b

165a

195b

128b

157b

168b

046b

067b

063a

075a

167b

117a

008a

068a

188b

127b

040b

182a

122b

172b

003a

007a

085a

148a

077b

004b

069b

032b

074a

126a

167b

185a

000a

080a

027b

135a

141b

204a

105b

023a

133b

048b

051a

095b

160b

119b

033a

071a

052b

062b

129b

118a

101b

015a

205b

082a

145b

009a

099b

043b

096a

109b

123b

006b

104b

134b

113b

026a

049b

091b

106a

100a

055a

103b

112b

196a

054a

表5（b）附件5复原后反面的碎片序号

078b

111b

125a

140a

155a

150a

183b

174b

110a

066a

108a

018b

029a

189b

081b

164b

020a

047a

136b

089a

010b

036a

076b

178a

044a

025b

192a

124b

022a

120b

144a

079a

014a

059a

060b

147a

152a

005a

186b

153a

084b

042b

030a

038a

121a

098a

094b

061b

137b

045a

138a

056b

131b

187b

086b

200b

143b

199b

011b

161a

169b

194b

173b

206b

156a

034a

181b

198b

087a

132b

093a

072b

175a

097a

039b

083a

088b

107a

149b

180a

037b

191a

065b

115b

166b

001b

151b

170b

041a

070b

139b

002a

162b

203b

090a

114a

184b

179b

116b

207a

058a

158a

197a

154b

028b

012a

017b

102b

064b

208a

142a

057a

024a

013a

146a

171b

031a

201a

050a

190b

092b

019b

016b

177b

053b

202a

021b

130a

163a

193b

073b

159a

035a

165b

195a

128a

157a

168a

046a

067a

063b

075b

167a

117b

008b

068b

188a

127a

040a

182b

122a

172a

003b

007b

085b

148b

077a

004a

069a

032a

074b

126b

176a

185a

000b

080b

027a

135b

141a

206b

105a

023b

133a

048a

051b

095a

160b

119a

033b

071b

052a

062a

129b

118b

101a

015b

205a

082b

145a

009b

099a

043a

096b

109a

123a

006a

展开阅读全文