图像质量评价.docx

资源描述

图像质量评价.docx

《图像质量评价.docx》由会员分享，可在线阅读，更多相关《图像质量评价.docx（25页珍藏版）》请在冰豆网上搜索。

图像质量评价.docx

图像质量评价

第一章绪论

1.1引言

早期的图像处理是随由于通讯方面的要求而发展起来的，随着图像处理技术的发展，数字图像处理技术与理论已经成为计算机应用的一个重要领域，广泛应用于众多的科学与工程应用，如遥感、医学、气象、通信等。

然而随着图像处理技术的迅速发展，如何正确有效地评价一幅图像的质量好坏变得越发重要起来。

近年来，图像质量评价已经成为了图像信息工程领域内一项重要的研究课题，引起了学者的高度重视。

图像质量评价方法中客观评价方法又可以分为三类：

全参考质量评价方法、部分参考质量评价方法和无参考质量评价方法。

全参考质量评价方法需要原始图像的完整信息作为评价的参考：

部分参考质量评价方法需要原始图像的部分特征或者统计信息作为评价参考：

无参考质量评价方法则完全依赖于待评测图像本身的信息来进行质量评价，而无须原始图像的任何信息。

在很多情况下，如在网络传输中，往往无法获得发送端的原始图像信息，因此研究无参考的客观质量评价方法是很有意义的。

1.2图像质量评价

图像质量的含义主要包括两个方面：

图像的逼真度和图像的可懂度。

图像质量直接取决于成像装备的光学性能、图像对比度、仪器噪声等多种因素的影响，通过质量评价可以对影像的获取、处理等各环节提供监控手段。

为了对图像处理的各个环节进行合理评估，图像质量评价的研究已经成为图像信息工程的基础技术之一。

多少年来，人们希望能够找出图像逼真度和可懂度的定量测量方法，作为评价图像和设计图像系统的依据，但目前人们对人类视觉特性仍没有充分理解，特别是对人眼视觉的心理特性还难以找出定量的描述方法，因此图像质量评价还有待深入研究。

1.2.1主观评价方法

国际上已有成熟的主观评价技术和国际标准，例如ITU-TRec.P.910规定了多媒体应用的主观评价方法

；ITU-RBT.500-11规定了电视图像的主观评价方法

，就视频质量主观评价过程中的测试序列、人员、距离以及环境做了详细规定。

主观质量评分法

（MOS：

MeanOpinionScore）是图像质量最具代表性的主观评价方法，它通过对观察者的评分归一化来判断图像质量。

而主观质量评分法又可以分为绝对评价和相对评价两种类型。

绝对评价是将图像直接按照视觉感受分级评分，表1.1列出了国际上规定的5级绝对尺度，包括质量尺度和妨碍尺度。

对一般人来讲，多采用质量尺度；对专业人员来讲，则多采用妨碍尺度。

表1.1绝对评价尺度

质量尺度

妨碍尺度

5分

丝毫看不出图像质量变坏

非常好

4分

能看出图像质量变化但不妨碍观看

好

3分

清楚看出图像质量变坏，对观看稍有妨碍

一般

2分

对观看有妨碍

差

1分

非常严重的妨碍观看

非常差

相对评价是由观察者将一批图像从好到坏进行分类，将它们相互比较得出好坏，并给出相应的评分。

相对尺度如表1.2所示。

表1.2相对评价尺度与绝对评价尺度对照

分数

相对测量尺度

绝对测量尺度

5分

一群中最好的

非常好

4分

好于该群中平均水平的

好

3分

该群中的平均水平

一般

2分

差于该群中平均水平的

差

1分

该群中最差的

非常差

评价的结果可用一定数量的观察者给出的平均分数求得。

平均分数按照公式计算得到：

式中，

为图像属于第i类的分数，

为判定该图像属于第i类的观察者人数。

为了保证图像主观评价在统计上有意义，参加评分的观察者至少应有20名，其中包括一般观察者和专业人员。

图像质量的主观评价方法的优点是能够真实的反映图像的直观质量，评价结果可靠，无技术障碍。

但是主观评价方法也有很多缺点，如需要对图像进行多次重复实验，无法应用数学模型对其进行描述，从工程应用的角度看，耗时多、费用高，难以实现实时的质量评价。

在实际应用中，主观评价结果还会受观察者的知识背景、观测动机、观测环境等因素的影响。

此外，主观质量评价无法应用于所有场合，如需要进行实时图像质量评价的领域。

1.2.2客观评价方法

图像质量的客观评价方法是根据人眼的主观视觉系统建立数学模型，并通过具体的公式计算图像的质量。

传统的图像质量客观评价方法主要包括均方误差（MSE，meansquarederror）和峰值信噪比（PSNR，peaksignaltonoiserate）

。

均方误差法首先计算原始图像和失真图像象素差值的均方值，然后通过均方值的大小来确定失真图像的失真程度。

计算公式如下：

其中M、N为图像的长和宽，

表示原始图像的象素值，

表示降质后图像的象素值。

PSNR作为衡量图像质量的重要指标，基于通信理论而提出，是最大信号量与噪声强度的比值。

由于数字图像都是以离散的数字表示图像的像素，因此采用图像的最大象素值来代替最大信号量。

具体公式如下：

其中L为图像中像素的最大灰度值，一般采用255。

上述方法的优点是直观、严格，计算简单，而且可以直接应用于依据“MSE最小”原则设计的图像系统。

因此，这类方法成为应用最广泛的图像质量评价手段。

但它的缺点也是显而易见的。

文献[6]具体分析了MSE性能不稳定的原因，并指出这一缺点是方法本身的缺陷，无法克服。

PSNR只在评价白噪声失真图像时效果良好,而在其它领域也会出现如MSE一样的不稳定现象，文献[7]对此进行了深入分析。

对图像质量进行客观评价时，根据对原始无失真图像依赖程度的不同，可将图像质量的客观评价算法分成三类：

全参考（FullReference,FR）图像质量评价、半参考（ReducedReference,RR）图像质量评价和无参考（NoReference,NR）图像质量评价。

全参考图像质量评价主要是将失真图像和参考图像逐像素进行比较，得出对失真图像的评价；半参考的图像质量评价是从原始图像和失真图像中分别提取图像的有效特征，如图像的梯度和直方图，通过对有效特征进行比较，得出对失真图像的评价；无参考的图像质量评价则无需任何参考图像的信息

，直接提取失真图像的某些失真因素特征，如图像的边界强度、噪声率、模糊度

等，给出失真图像的客观质量评价。

图像质量评价最终取决于观察者的感觉，所以不论采用上述哪种客观评价方法，目标都是追求客观评价结果与人的主观评价尽可能的一致，即客观评价要以主观评价为准则。

客观评价方法的优点是速度快、费用低、应用领域广，评价结果具有重现性，不受主观因素的影响。

缺点是目前只能在某些方面有限度的模仿人眼的主观视觉系统，常会出现与主观评价结果不一致的情况，不同的模型依据具体的应用领域进行不同的条件假设，难以建立适用于任何领域的数学模型。

1.3国内外研究现状

客观质量评价的早期研究主要集中在传统的误差统计方法上，如清晰度、峰值信噪比（PSNR）和均方误差（MSE）等。

随着研究的深入，人们发现这种方法忽视了图像内容对人眼的影响，不能完全反映图像的质量，因此人们采用了更多的方法在更深的层面上做了尝试。

无参考图像质量评价是一个全新的研究领域，虽然这个领域的研究尚处于探索阶段，但已吸引了很多人的关注，呈蓬勃发展之势。

目前，公开发表的关于无参考图像质量评价的论文渐渐增多，如文献提出了三个无参考质量评价指标，分别是边缘强度（Contour-Volume，简称CV）、噪声率（Noise-Rate，简称NR）和统一亮度分布（UniformIntensity-Distribution，简称UID）。

这三个参数分别就图像的边缘、噪声和亮度分布进行了分析，结果与主观的一致性较高。

文献专门研究了噪声对数字图像质量的影响，它在图像分块和噪声检测方面较文献都有改进；文献[9]研究真彩图像的色彩问题，其中色彩丰富度（CCI）与人眼对色彩的感知有很高的一致性；HuitnoLuo使用机器学习算法进行人脸质量的检测；KyungnamKim和krtyDavis利用局部统计量提出一种用于视频质量评价的方法，主要用于评价噪声和模糊的问题；殷晓丽等人提出了一种基于半脆弱性数字水印算法（WIQM）的无参考图像质量评价方法，这种方法只是针对JPEG图像作质量评价；杨守义等人还提出一种基于高阶统计量的评价方法。

无参考图像的评价方法完全脱离了对原始参考图像的依赖，其应用范围更加广泛，发展前景更加广阔，正因如此，其研究难度也是最大的。

下面介绍几个具有代表意义的典型方法

。

1.3.1图像评价因子

哈尔滨工业大学和日本电器股份有限公司（NipponElectricCompany，NEC）合作，从图像增强考虑了图像边界强度、噪声和灰度分布，来制定图像质量评价的因子

。

1.3.1.1边缘强度（Contour-Volume，CV）

图像的细节越丰富，图像越清晰，则图像的边缘也就越清晰。

边缘强度（CV）能够反映图像的清晰程度，数值越大，图像越清晰，反之图像模糊，这是一个图像清晰度的测量指标。

首先使用3×3的拉普拉斯窗口提取图像边缘，然后统计图像的边缘，将边缘像素值进行绝对值的叠加求得图像的边缘强度CV

。

1.3.1.2噪声率（Noise-Rate，NR）

噪声是造成图像失真的一个重要因素，噪声是高频分量，能够影响CV的评价。

图像中的噪声越多，CV就会越大。

面对这类失真图像，CV的评价性能将受到很大的影响，因此无法给出正确的评价结果。

鉴于CV的这种缺陷，文献[13]提出了一种针对噪声的评价因子，即噪声率（Noise-Rate）。

噪声率是一个反映图像受噪声污染程度的评价因子，主要通过比较失真前参考图像的噪声量和失真后图像中所含噪声量的多少而确定。

由于无参考图像质量评价方法没有参考图像可以借鉴，所以通常将经滤波算法去噪后的图像作为准参考图像，计算其包含的噪声率，然后和原失真图像进行比较。

噪声的种类很多，针对不同的噪声，有不同的滤波算法。

这些滤波算法往往对去除某种特定噪声有较好的性能，而处理其他噪声时性能就大大减弱。

中值滤波算法是一种较为全面的噪声滤除算法，能够去除图像中的大部分噪声，因此文献采用中值滤波作为一种通用的滤波算法。

1.3.1.3统一亮度分布（UniformIntensity-Distribution，UID）

根据信息论，图像的像素分布越均匀，图像包含的信息就越多，因此定义图像的统一亮度分布如下

：

L是图像的灰度级数，

是第K级灰度的个数。

在公式中的分子和分母加上常数1是为了避免在计算过程中分母为0，而且由于1很小，不会影响UID的评价性能。

1.3.2基于掩盖的无参考图像信噪比（NPSNR）

文献[15]针对噪声对数字图像质量的影响，从噪声检测的角度,提出一种基于掩盖效应的无参考图像质量评价方法。

方法首先对图像进行分块，将图像按不同的频率成分区分开，采用的是改进后的Hosaka分块算法，新算法取消了Hosaka对图像尺寸的限制；然后检测各个子图像块的噪声；最后根据图像的污染程度，计算基于掩盖效应的无参考图像峰值信噪比NPSNR。

下面介绍具体的计算过程。

1.3.2.1分块

图像中的高频成分变化剧烈，低频成分变化缓慢。

当图像中高频成分较多时，其均方差较大，反之当图像中低频成分较多时，其均方差较小。

由于HVS的掩盖效应,变化剧烈的部分中出现的噪声不易被人眼所感知，因此，对于不同的频率子块内出现的噪声采取不同的权值，才能体现出HVS的掩盖效应，更加符合人的视觉感知。

目前，方案使用实验阈值来区分图像中的高低频成分。

首先计算失真图像（大小为M×N）如果该均方差超过设定的阈值（文献中使用的阈值为实验值300），则表明图像中存在较多的高频成分，需要继续分块，则将图像等分成四份，否则，保留图像块的大小。

重复该分块过程，直到均方差小于阈值或图像的长或宽之一小于8。

至此，图像被分成大小不一的子块，高频区的子块相对较小，低频区的子块则相对较大。

1.3.2.2噪声检测

噪声属于高频成分，而图像的边缘也属于高频成分，它们都具有较高的梯度值，但是图像边缘具有明显的结构特征，根据这个特点，可以将图像噪声和边缘进行分离。

NPSNR首先进行块内噪声检测，然后计算图像的噪声污染度。

分别计算该像素垂直方向和两个对角方向的梯度，将四个方向梯度的最小值定义为该像素的最终梯度当某像素梯度大于预设阈值（文献取实验阈值50）时，将该像素划归为噪声。

1.3.2.3基于掩盖的无参考图像信噪比

根据图像的噪声污染程度提出基于掩盖的无参考图像信噪比

：

其中

为图像的灰度级数。

上面介绍了两种典型的无参考图像质量评价方法，其中第一种方法针对不同的失真因素制了三个评价因子，第二种方法只是针对噪声造成的图像失真进行评价。

1.4本文的研究工作和组织结构

本文主要研究无参考图像质量评价方法，在分析三种典型方法的基础上，提出种新的无参考图像质量评价方法，选取无参考图像质量评价的因子，对其进行正交试验，研究哪些因子的影响最大，本文是针对轮廓提取问题进行。

本文的由五章组织成，各章内容如下

第一章：

阐述本文研究内容的意义所在，介绍图像质量评价方法的分类，概述当前国内外对图像质量评价方法的研究现状，指出本文主要的研究内容。

第二章：

介绍无参考质量评价以及传统无参考评价的一些方法。

第三章：

简单介绍什么是正交试验、正交表、正交表的因子和因素以及正交试验的方差分析。

第四章：

对实验所需要的数据进行采集，并对其进行计算分析。

第五章：

总结与展望。

第二章无参考图像质量评价

无参考图像质量评价不需要参考图像就可以直接对失真图像的质量进行评价，大大拓宽了图像质量评价的应用领域，是图像质量评价的发展方向。

由于难度大，目前的研究进展缓慢，而且多是针对特定领域进行的。

2.1无参考图像质量评价的方法

2.1.1均值和方差

均值是像素的平均灰度值，它反映了图像的平均亮度，如果均值适中，则目视效果良好；方差作为衡量图像信息量的重要指标，反映了灰度偏离灰度均值的程度，标准差越大，则灰度等级越分散，图像中所有灰度级出现概率越趋近于相等，则包含的信息量越趋近于最大。

在统计理论中，统计均值

、方差

图像均值何方差的定义为

：

，

2.1.2灰度标准差

设一幅图像的灰度分布为

，

为灰度等于

的像素数与图像总的像素数的比值，

为灰度级数，且

，则该图像的灰度统计均值为：

，其灰度标准差的定义为

灰度标准差反映了相对灰度均值的离散状况，标准差越大，灰度分布越分散。

2.1.3熵

图像信息熵是衡量图像信息丰富程度的一个重要标志，通过对图像信息熵的比较可以对比出图像之间的细节表现能力。

图像信息熵的定义为

其中，L表示图像总的灰度级数，

表示灰度值为i的像素数与图像总像素之比，

反映了图像中灰度值为i的像素的概率分布。

熵的大小反映了图像携带信息的多少。

2.2传统无参考图像质量评价

由于全参考方法和半参考方法需要有原始图像信息作参考，且这两种方法得到的结果往往不能很好的反映人的主观感受阳田，所以无参考方法正受到越来越多的关注。

相对于全参考和质降参考评价方法，无参考评价方法的研究仍处于起步阶段。

目前，无参考图像失真度量一般是针对某一种或几种类型的失真，如模糊效应、分块效应、噪声效应等

：

●模糊效应

模糊是一种常见的失真现象．其表现是边缘的平滑效应。

引起模糊的原因有很多，如图像压缩、拍摄时运动、聚焦不准、镜头失常等。

从频域的角度看，模糊往往是高频分量的不足。

模糊效应的度量一般是基于模糊会产生边缘的平滑效应的现象。

●分块效应

分块效应一般是由离散余弦变换压缩算法带来的降质效应。

JPEG图像便是采用离散余弦变换压缩算法。

客观评价分块效应对于图像、视频压缩系统的发展、优化和评估都很重要。

分块效应的度量一般是基于相邻分块间的差异提出来的。

●噪声效应

数字图像中往往存在各种类型的噪声。

产生噪声的原因可能有几种，与生成图像的方法有关，如：

图像的处理过程、图像数据的传输、获取罔像数据的电子设备等。

噪声效应度量一般是通过对局部平滑度的测量进行，如XinLi认为,一个像素点如果破坏了一个局部的平滑度，则该像素点可以被以为是噪点。

通过对一个像素点与其周围八个像素点的信息比较判断其是否为噪点。

可以看出，多数无参考图像质量评价方法所选择的反应图像质量的特征都有比较强的针对性。

当然，仅仅评价某一种并不能很好的反应图像的整体质量，应该综合考虑多种因素进行评价。

对图像失真效应的度量只能反应出图像的失真程度，并不能直观的反应出人的主观感受。

一般将失真效应的度量结果与主观测试值相结合，得出客观质量评价值。

2.2.1基于函数拟合方法

函数拟合是指，在掌握大量观察数据的基础上，利用数理统计方法建立因变量与自变量之间的关系函数表达式。

在无参考图像质量评价中。

根据从样本中提取的特征值结合图像质量的主观测试值构造预测函数，以此函数评价图像质量。

2.2.2基于机器学习方法

基于机器学习方法的无参考图像质量评价算法的基本思路是：

在训练阶段，通过主观测试值对图像按质量进行分类；抽取反应图像质量的特征向量，以此特征向量和其所对应的图像质量类别构建质量分类器。

在测试阶段，将以同样方法抽取的特征向量作为分类器的输入值，分类器的输出值即为图像质量的客观评价值。

这类方法的特点是可以借助机器学习领域所取得的研究成果，改进客观质量评价结果。

主要是针对JPEG图像的评价，大致可以分为基于统计特征的方法和基于HVS特性的方法两类

。

基于统计特征的评价方法

该方法以图像中的原始像素值对图像的各种失真效应进行度量，作为机器学习的原始特征向量。

HuitaoLuo提出对视觉感兴趣区域进行评价并以此作为图像质量的方法：

首先对感兴趣区域的模糊度、亮度、噪声进行度量，接着采用RBF神经网络进行质量评价。

YanweiYu等分别度量图像的分块效应和模型效应并以此作为机器学习特征，然后采用广义回归神经网络来评价JPEG图像质量。

基于HVS特性的评价方法

该方法提取HVS特性作为机器学习的特征，如R.Venkatesh[、SureshI等提取边缘振幅、边缘长度、背景活跃度和背景亮度作为机器学习的特征，分别使用两种机器学习方法进行质量评价：

串行可裁减径向基函数神经网络和极限学习机。

无论是哪类无参考评价模型，模型的准确性都难以比拟全参考模型。

一方面是由于缺乏图像的先验知识；另一方面也是由于图像质量的定义模糊造成的。

例如一幅发生几何偏移失真的图像，如果有原始图像作为参照，其失真可以明显地察觉。

但忽略原始图像的相关信息，单纯从人眼感知的角度去考虑，则图像的质量可以认为不变。

为此，在设计质量评价模型时，需要更多关注视觉心理学的相关研究，并可借鉴盲信号处理领域的研究方法，提高模型的精确度。

无参考图像质量评价是一个比较新的研究领域，所取得的成果还非常有限。

无参考图像质量评价的难点在于

：

a）首先，图像中存在许多无法量化的因素，比如，美学、认识联系、知识、上下文等在图像质量评价中起着重要的作用，这些因素会导致基于个人主观印象的人类观察者的一些感知变化，而同时又无法利用可参考信号对比，使得无参考质量评价的问题变得更加复杂。

b）其次，对人类视觉系统的了解还相当有限，图像的理解水平仍然比较低，利用图像的统计信息获取相应的模型和知识表示是一个关键，做到这一点是很困难的。

第三章正交试验分析

3.1正交试验

3.1.1概念

正交试验设计方法是工程技术人员进行实验设计最重要的工具。

正交试验设

计法又称正交试验法、正交设计法或正交法，是一种安排与分析多因素试验的科学试验方法，它是以人们的生产实践经验、有关的专业知识和概率论与数理统计为基础，利用一套根据数学上的“正交性”原理而编制并以标准化了的表格——正交表来科学安排试验方案，提供充分有用的信息，并对试验结果进行计算、分析，实现优化目标的数学方法

。

正交试验设计法，就是使用已经造好了的表格--正交表--来安排试验并进行数据分析的一种方法。

它简单易行，计算表格化，使用者能够迅速掌握。

下边通过一个例子来说明正交试验设计法的基本想法。

[例1]为提高某化工产品的转化率，选择了三个有关因素进行条件试验，反应温度（A），反应时间（B），用碱量（C），并确定了它们的试验范围：

A：

80-90℃

B：

90-150分钟

C：

5-7％

试验目的是搞清楚因子A、B、C对转化率有什么影响，哪些是主要的，哪些是次要的，从而确定最适生产条件，即温度、时间及用碱量各为多少才能使转化率高。

试制定试验方案。

这里，对因子A，在试验范围内选了三个水平；因子B和C也都取三个水平：

A：

Al＝80℃，A2＝85℃，A3=90℃

B：

Bl＝90分，B2＝120分，B3=150分

C：

Cl＝5％，C2＝6%，C3＝7%

当然，在正交试验设计中，因子可以是定量的，也可以是定性的。

而定量因子各水平间的距离可以相等，也可以不相等。

这个三因子三水平的条件试验，通常有两种试验进行方法：

图3-1一般试验点

（Ⅰ）取三因子所有水平之间的组合，即AlBlC1，A1BlC2，A1B2C1，……，A3B3C3，共有33=27次试验。

用图表示就是图3－1立方体的27个节点。

这种试验法叫做全面试验法。

全面试验对各因子与指标间的关系剖析得比较清楚。

但试验次数太多。

特别是当因子数目多，每个因子的水平数目也多时。

试验量大得惊人。

如选六个因子，每个因子取五个水平时，如欲做全面试验，则需56＝15625次试验，这实际上是不可能实现的。

如果应用正交实验法，只做25次试验就行了。

而且在某种意义上讲，这25次试验代表了15625次试验。

图3-1全面试验取点发Ⅱ）简单对比法，即变化一个因素而固定其他因素,试验结果以C2最好。

于是就认为最好的工艺条件是A3B2C2。

这种方法一般也有一定的效果，但缺点很多。

首先这种方法的选点代表性很差，如按上述方法进行试验，试验点完全分布在一个角上，而在一个很大的范围内没有选点。

因此这种试验方法不全面，所选的工艺条件A3B2C2不一定是27个组合中最好的。

其次，用这种方法比较条件好坏时，是把单个的试验数据拿来，进行数值上的简单比较，而试验数据中必然要包含着误差成分，所以单个数据的简单比较不能剔除误差的干扰，必然造成结论的不稳定。

简单对比法的最大优点就是试验次数少，例如六因子五水平试验，在不重复时，只用5+（6-1）×（5-1）＝5+5×4＝25次试验就可以了。

图3-2正交试验点的选取

考虑兼顾这两种试验方法的优点，从全面试验的点中选择具有典型性、代表性的点，使试验点在试验范围内分布得很均匀，能反映全面情况。

但我们又希望试验点尽量地少，为此还要具体考虑一些问题。

如上例，对应于A有Al、A2、A3三个平面，对应于B、C也各有三个平面，共九个平面。

则这九个平面上的试验点都应当一样多，即对每个因子的每个水平都要同等看待。

具体来说，每个平面上都有三行、三列，要求在每行、每列上的点一样多。

这样，作出如图2所示的设计，试验点用⊙表示。

我们看到，在9个平面中每个平面上都恰好有三个点而每个平面的每行每列都有一个点，而且只有一个点，总共九个点。

这样的试验方案，试验点的分布很均匀，试验次数也不多。

当因子数和水平数都不太大时，尚可通过作图的办法来选择分布很均匀的试验点。

但是因子数和水平数多了，作图的方法就不行了。

试验工作者在长期的工作中总结出一套办法，创造出所谓的正交表。

按照正交表来安排试验，既能使试验点分布得很均匀，又能减少试验次数，图2正交试验设计图例而且计算分析简单，能够清晰地阐明试验条件与指标之间的关系。

用正

展开阅读全文