4 StatisticalBased Forensics ppt的翻译.docx

资源描述

4 StatisticalBased Forensics ppt的翻译.docx

《4 StatisticalBased Forensics ppt的翻译.docx》由会员分享，可在线阅读，更多相关《4 StatisticalBased Forensics ppt的翻译.docx（8页珍藏版）》请在冰豆网上搜索。

4 StatisticalBased Forensics ppt的翻译.docx

4StatisticalBasedForensicsppt的翻译

首先感谢江南大学信息安全09级同学艰苦卓绝锲而不舍不眠不休的翻译，周治平教授算你厉害

4.1主成分分析（PCA）

主成分分析法是一种典型的降维算法。

该算法通过将高纬的数据投影到低纬度的线性子空间来进行降维，以此来降低数据分析的复杂性。

映射过程遵循最大方差原则，这样可以做到信息的丢失率和失真率最低。

在图4.1中顶部显示的是一幅2维数据空间，底部显示的是一个经过PCA方法映射的一维线性子空间。

列向量

∈

i=1,…,N,作为输入数据。

总均值：

（4.1）

零均值：

（4.2）

然后可以计算得到一个N×N协方差矩阵：

（4.3）

所谓的主成分就是这个协方差矩阵的特征向量

（即，C×

）,这里的特征值

就是原矩阵第j列数据的特征向量的方差的比例项。

这样每一行的维度，就通过把每个

投影到最前面p个特征值的方法，从n降低到了p。

（这句不确定，看不懂）。

最后得到的p维特征向量就是被降低了的维度（我觉得应该是全部的特征向量）的代表。

例4.1如果维度n大于总的点数N，则可以先计算出维度较少的协方差矩阵

的特征向量。

如果

是

的特征向量，那么，需要计算的总的特征向量就是M

通过上述方法降维的一个隐藏的前提条件就是原图片的像素是高斯分布的。

如果违背这一前提，则计算出来的数据会因为引入了大量的失真而无效。

4.2线性判别分析（LDA）

线性判别分析是标准的多类判别方法。

LDA把映射数据到一个线性子系统，使得映射后的类内离散度最小，类间离散度最大。

图4.2显示了一个将2维空间内的两类数据（红蓝相间的）映射到一维坐标轴的最优分类判别示例。

可以看到，在一维子空间内，数据被完美的分隔开了，能够通过一个阈值简单的分类。

新数据通过投射到轴上和阈值进行比较而进行分类。

简易二维LDA的描述如下：

多个类的扩展是相似的，用列向量Xi（i=1,2，...，Nx）和Yj（j=1，2，.....Ny）表示两类的训练数据。

类内均值被定义为：

类间均值被定义为：

9-10

类内散布矩阵定义如下：

，（4.6）

其中，列矩阵

包含给予零均值的典范为

。

同样，矩阵

的

列包含的零均值的典范为

。

类间散布矩阵定义如下：

（4.7）

设e是

和

的最大广义特征值，特征向量

。

训练数据

和

都投射到一维线性子空间的定义通过e

这一预测，同时最大限度地减少类内散布，同时最大化类间散

一旦LDA投影轴从训练集确定,新样本Z的分类可以通过映射到训练集产生的子空间的投影,

在最简单的情况下，子空间只是一个简单的阈值确定。

11-12

在两类LDA的情况下，我们可以保证能够投射出一个一维矩阵子空间（最多一个非零特征值）：

在N类LDA的情况下，投影将是一个N-1维矩阵子空间。

通过公式化最优解获得最大预测方差，初值被假设成高斯分布。

这个假设中得到的数据显著误差会导致有缺陷的分类结果。

例4.2中绘制在二维图中的两类数据是完全分开的，但是一般LDA图是不能将数据完全分开的。

13-14

计算机图形渲染软件能够生成高度逼真的图像，和摄影图像难以区分，但由于计算机生成图像（CG）在灯光，摄像机光学元件和传感器下呈现出理想几何模型，很可能他们的基本统计数据会和摄影图片不同。

为此，我们描述了一个基于摄影图像的第一和高阶小波统计的办法区分CG和摄影图像。

图像分解使用定位在空间、位置、方向和规模上的基函数，（例如小波），已被证明在图像压缩，图像编码去噪，纹理合成方面非常有用。

原因之一是，这样的分解可以利用表现出的的统计规律。

这里的图像分解描述为可分正交镜像滤波器（QMFS）[4]（一个类似小波）。

如图4.3所示，这种分解被分割成多尺度频率空间和方向（水平，垂直，对角线子频带）。

对于一个彩色图像（RGB），独立分解到每一个颜色通道。

所产生的纵向，横向，对角线子频带，i,分别记为V（X,Y）,H（X,Y）,和D（X,Y）。

其中c属于{r,g,b}.（译者注：

V,H,D,均为上标C，下标i）

第十四页

利用图像的空间位置，方向和规模化的基础上，功能的分解（例如，小波在图像压缩）已被证明非常有用的，去除噪声，图像编码，纹理合成。

原因之一是，这样的表现，可以利用分解的统计规律。

这里所描述的图像分解的基础上可分正交镜像滤波器（QMFs）[4]（近亲到小波）。

如图4.3所示，这种分解分割成多个尺度的频率空间，和方向（垂直，水平，对角线子带），彩色（RGB）图像。

分解独立适用每个颜色通道。

所产生的纵向，横向，对角线子带的规模，我记为Vic（x,y），Hic（x,y）和Dic（x,y），其中c∈{r,g,b}。

第十六页

每个波段的系数分布特点通过均值，方差，偏度和峰度在每一个确定方向，规模，颜色通道的子带系数直方图来统计。

这些统计数据形成了统计模型的前半段。

而这些统计数据描述了基本系数的分布特点。

他们是不可能捕捉到空间定位和规模的强相关性。

例如，突出的图象特征，如边缘往往定位到空间上的某一确定方向并扩展到多个尺度。

这些图像特征导致大量localenergy（不好翻译）影响到许多尺度，方向和空间定位。

正因为如此，位于一个水平波段的强系数可能表明同一波段其左，右相邻空间也将有一个较大的值。

同样，如果scalei有一个高强度系数，那么scalei+1也将有一个高强度系数。

为了获取这些高阶的统计相关性，第二个集合统计基于错误的线性预测系数的大小。

为了说明，首先考虑了i,Vqi（x,y）格式的绿色通道的垂直带谱，这些系数所有可能的空间，方向，规模和颜色邻居系数的一个子集大小的线性预测。

由下式给出

第十八页

v=Qw;

翻译：

||表示绝对值和WK标权。

这种线性关系可以更紧凑矩阵形式表示：

v=Qw;

其中，V包含Vgi（x,y）串成一个列向量（以减少对噪声的敏感性，只有考虑幅度大于1）的系数大小，矩阵Q列包含相邻系数大小指定在公式（4.8），W=（w1...W9）T。

权重W是通过减少以下的二次误差函数确定：

第十九页

原文：

翻译：

使用标准最小二乘产生

W=（QTQ）-1QTv

鉴于大量约束只有九个未知数（每pixcl），它通常是安全（保守）的假设，9*9矩阵是可逆的。

给出的线性预测，与实际系数及预测系数大小的日志错误

这个公式用来计算亮点的每个向量分量。

第二十页

如均值，方差，偏度，这个误差分布的峰度系数的统计，收集。

从1一直重复到n，并为子带Vir和Vi

这些子带线性预测的形式

第二十一页

翻译：

一个类似的过程是重复的横向和对角线子带。

作为一个例子，预测的绿色通道的形式:

第二十二页

对于横向和对角线子带，红色和蓝色通道的预测确定以类似的方式为垂直子带，方程（4.13）-（4.14）。

对于每一个导向，规模和颜色子带，类似的错误度量，公式（4.12），错误统计计算。

对于一个尺度i=1，…，n多尺度分解，基本系数实验的探统计总数

36（N-1）（12％颜色通道（N-1）），错误统计的总人数是36（N-1），产生了72总计（N-1）的统计。

这些统计数据的形式被用来区分CG和摄影图像的特征向量。

第二十三页

从标记为CG或摄影图像设置培训的测量统计，我们的目标是建立一个分类，可确定一个新的测试图像属于哪一类。

最基本的方法是采用两个类的线性判别分析。

第二十四页

：

建立两类LDA的分类，以下两个类的图像之间的区别。

第1类：

生成1000灰度大小128*128，使用Matlab的rand函数的随机噪声的图像。

第2类：

生成1000灰度随机噪声的图像大小为128*128，使用Matlab的rand函数，每个图像模糊以下的1-D可分离模糊过滤器（14641）/16（见MATLAB的兑换功能）。

作为统计特征向量计算的均值和方差以下的1-D高通滤波器（1-21）（后卷积和之前计算的均值和方差的每个图像卷积的结果，消除少数像素边界沿图像边界，以避免边缘构件）。

从类1到类2，各训练750张，其余250每类图像测试LDA的。

报告的培训和测试精度。

把图像类1和2中的2D的特征向量在投影前后分别显示到1D的LDA投影轴上。

展开阅读全文