opencv.docx
《opencv.docx》由会员分享,可在线阅读,更多相关《opencv.docx(21页珍藏版)》请在冰豆网上搜索。
opencv
前言
关于opencv
OpenCV是Intel开源计算机视觉库(ComputerVersion)。
它由一系列C函数和少量C++类构成,实现了图像处理和计算机视觉方面的很多通用算法。
OpenCV拥有包括300多个C函数的跨平台的中、高层API。
它不依赖于其它的外部库——尽管也可以使用某些外部库。
OpenCV对非商业应用和商业应用都是免费的。
同时OpenCV提供了对硬件的访问,可以直接访问摄像头,并且opencv还提供了一个简单的GUI(graphicsuserinterface)系统:
highgui。
我们就通过OpenCV提供的一些方法来构造出这个人脸检测(facedetection)程序来。
opencv的python包装
OpenCV本身是有C/C++编写的,如果要在其他语言中使用,我们可以通过对其动态链接库文件进行包装即可,幸运的是,Python下有很多个这样的包装,本文中使用的是Cvtypes。
事实上,在Python中很多的包都是来自第三方的,比如PIL(PythonImageLibrary)即为C语言实现的一个图形处理包,被包装到了Python中,这些包装可以让你像使用Python的内建函数一样的使用这些API。
人脸检测原理
人脸检测属于目标检测(objectdetection)的一部分,主要涉及两个方面
1.先对要检测的目标对象进行概率统计,从而知道待检测对象的一些特征,建立起目标检测模型。
2.用得到的模型来匹配输入的图像,如果有匹配则输出匹配的区域,否则什么也不做。
计算机视觉
计算机的视觉系统,跟人的眼睛是大不相同的,但是其中也有类似之处。
人眼之能够看到物体,是通过物体上反射出来的光线刺激人眼的感光细胞,然后视觉神经在大脑中形成物体的像。
计算机通过摄像头看到的东西要简单的多,简单来说,就是一堆由数字组成的矩阵。
这些数字表明了物体发出的光的强弱,摄像头的光敏元件将光信号转化成数字信号,将其量化为矩阵。
如何从这些数字中得出:
"这是一个人脸"的结论,是一个比较复杂的事情。
物理世界是彩色的,一般来说,计算机中的彩色图片都是由若干个色彩通道累积出来的,比如RGB模式的图片,有红色通道(Red),绿色通道(Green)和蓝色通道(Blue),这三个通道都是灰度图,比如一个点由8位来表示,则一个通道可以表示2^8=256个灰度。
那样三个通道进行叠加以后可以表3*8=24位种色彩,也就是我们常说的24位真彩。
对这样的图片做处理,无疑是一件很复杂的事,所以有必要先将彩色图转为灰度图,那样可以减少数据量(比如RGB模式,可以减少到原图片的1/3),同时可以去掉一些噪声信号。
先将图片转化为灰度图,然后将这个灰度图的对比度增高,这样可以使得图片本来暗的地方更暗,亮的地方更亮一些。
这样处理以后,图片就更容易被算法设别出来了。
Harr特征级联表
OpenCV在物体检测上使用的是haar特征的级联表,这个级联表中包含的是boost的分类器。
首先,人们采用样本的haar特征进行分类器的训练,从而得到一个级联的boost分类器。
训练的方式包含两方面:
1. 正例样本,即待检测目标样本
2. 反例样本,其他任意的图片
首先将这些图片统一成相同的尺寸,这个过程被称为归一化,然后进行统计。
一旦分类器建立完成,就可以用来检测输入图片中的感兴趣区域的检测了,一般来说,输入的图片会大于样本,那样,需要移动搜索窗口,为了检索出不同大小的目标,分类器可以按比例的改变自己的尺寸,这样可能要对输入图片进行多次的扫描。
什么是级联的分类器呢?
级联分类器是由若干个简单分类器级联成的一个大的分类器,被检测的窗口依次通过每一个分类器,可以通过所有分类器的窗口即可判定为目标区域。
同时,为了考虑效率问题,可以将最严格的分类器放在整个级联分类器的最顶端,那样可以减少匹配次数。
基础分类器以haar特征为输入,以0/1为输出,0表示未匹配,1表示匹配。
Haar特征
∙ 边界特征,包含四种
∙ 线性特征,包含8种
∙ 中心围绕特征,包含两种
在扫描待检测图片的时候,以边界特征中的(a)为例,正如前面提到的那样,计算机中的图片是一个数字组成的矩阵,程序先计算整个窗口中的灰度值x,然后计算矩形框中的黑色灰度值y,然后计算(x-2y)的值,得到的数值与x做比较,如果这个比值在某一个范围内,则表示待检测图片的当前扫描区域符合边界特征(a),然后继续扫描。
关于这个算法的更详细描述已经超出了本文的范围,可以在参考资源中获得更多的信息。
非固定大小目标检测
因为是基于视频流的目标检测,我们事先不太可能知道要检测的目标的大小,这就要求我们的级联表中的分类器具有按比例增大(或者缩小)的能力,这样,当小的窗口移动完整个待检测图片没有发现目标时,我们可以调整分类器的大小,然后继续检测,直到检测到目标或者窗口与待检测图片的大小相当为止。
步骤一:
图片预处理
在从摄像头中获得一个帧(一张图片)后,我们需要先对这张图片进行一些预处理:
1.将图片从RGB模式转为灰度图将灰度图
2.进行灰度图直方图均衡化操作
这两个步骤在OpenCV中是非常简单的:
Python代码
1.image_size = cv.cvGetSize(image)#获取原始图像尺寸
2.
3.grayscale = cv.cvCreateImage(image_size, 8, 1)# 建立一个空的灰度图
4.cv.cvCvtColor(image, grayscale, cv.CV_BGR2GRAY)#转换
5.
6.storage = cv.cvCreateMemStorage(0)#新建一块存储区,以备后用
7.cv.cvClearMemStorage(storage)
8.
9.cv.cvEqualizeHist(grayscale, grayscale)# 灰度图直方图均衡化
image_size=cv.cvGetSize(image)#获取原始图像尺寸
grayscale=cv.cvCreateImage(image_size,8,1)#建立一个空的灰度图
cv.cvCvtColor(image,grayscale,cv.CV_BGR2GRAY)#转换
storage=cv.cvCreateMemStorage(0)#新建一块存储区,以备后用
cv.cvClearMemStorage(storage)
cv.cvEqualizeHist(grayscale,grayscale)#灰度图直方图均衡化
步骤二:
检测并标记目标
OpenCV中,对于人脸检测的模型已经建立为一个XML文件,其中包含了上面提到的harr特征的分类器的训练结果,我们可以通过加载这个文件而省略掉自己建立级联表的过程。
有了级联表,我们只需要将待检测图片和级联表一同传递给OpenCV的目标检测算法即可得到一个检测到的人脸的集合。
Python代码
1.# detect objects
2.cascade = cv.cvLoadHaarClassifierCascade('haarcascade_frontalface_alt.xml',
3. cv.cvSize(1,1))
4.faces = cv.cvHaarDetectObjects(grayscale, cascade, storage, 1.2, 2,
5. cv.CV_HAAR_DO_CANNY_PRUNING,
6. cv.cvSize(50, 50))#设置最小的人脸为50*50像素
7.
8.if faces:
9. print 'face detected here', cv.cvGetSize(grayscale)
10. for i in faces:
11. cv.cvRectangle(image, cv.cvPoint( int(i.x), int(i.y)),
12. cv.cvPoint(int(i.x + i.width), int(i.y + i.height)),
13. cv.CV_RGB(0, 255, 0), 1, 8, 0)#画一个绿色的矩形框
#detectobjects
cascade=cv.cvLoadHaarClassifierCascade('haarcascade_frontalface_alt.xml',
cv.cvSize(1,1))
faces=cv.cvHaarDetectObjects(grayscale,cascade,storage,1.2,2,
cv.CV_HAAR_DO_CANNY_PRUNING,
cv.cvSize(50,50))#设置最小的人脸为50*50像素
iffaces:
print'facedetectedhere',cv.cvGetSize(grayscale)
foriinfaces:
cv.cvRectangle(image,cv.cvPoint(int(i.x),int(i.y)),
cv.cvPoint(int(i.x+i.width),int(i.y+i.height)),
cv.CV_RGB(0,255,0),1,8,0)#画一个绿色的矩形框
步骤三:
用highgui画出视频窗口
Python代码
1.highgui.cvNamedWindow ('camera', highgui.CV_WINDOW_AUTOSIZE)
2.highgui.cvMoveWindow ('camera', 50, 50)
3.
4.highgui.cvShowImage('camera', detimg)
highgui.cvNamedWindow('camera',highgui.CV_WINDOW_AUTOSIZE)
highgui.cvMoveWindow('camera',50,50)
highgui.cvShowImage('camera',detimg)
可以看到,OpenCV的API相当清晰,使用Python的包装,可以使得代码非常小。
好了,我们可以看看程序的运行结果:
由于视频流是动态的,所以我们可以在程序的入口中使用一个无限循环,在循环中,每次从视频中读入一个帧,将这个帧传输给人脸检测模块,检测模块在这个帧上进行标记(如果有人脸的话),然后返回这个帧,主程序拿到这个帧后,更新显示窗口。
opencv的其他特性
拉普拉斯边缘检测
Python代码
1.def laplaceTransform(image):
2. laplace = None
3. colorlaplace = None
4. planes = [None, None, None]
5.
6. image_size = cv.cvGetSize(image)
7. if not laplace:
8. for i in range(len(planes)):
9. planes[i] = cv.cvCreateImage(image_size, 8, 1)
10. laplace = cv.cvCreateImage(image_size, cv.IPL_DEPTH_16S, 1)
11. colorlaplace = cv.cvCreateImage(image_size, 8, 3)
12.
13. cv.cvSplit(image, planes[0], planes[1], planes[2], None)
14.
15. for plane in planes:
16. cv.cvLaplace(plane, laplace, 3)
17. cv.cvConvertScaleAbs(laplace, plane, 1, 0)
18.
19. cv.cvMerge(planes[0], planes[1], planes[2], None, colorlaplace)
20. colorlaplace.origin = image.origin
21.
22. return colorlaplace
deflaplaceTransform(image):
laplace=None
colorlaplace=None
planes=[None,None,None]
image_size=cv.cvGetSize(image)
ifnotlaplace:
foriinrange(len(planes)):
planes[i]=cv.cvCreateImage(image_size,8,1)
laplace=cv.cvCreateImage(image_size,cv.IPL_DEPTH_16S,1)
colorlaplace=cv.cvCreateImage(image_size,8,3)
cv.cvSplit(image,planes[0],planes[1],planes[2],None)
forplaneinplanes:
cv.cvLaplace(plane,laplace,3)
cv.cvConvertScaleAbs(laplace,plane,1,0)
cv.cvMerge(planes[0],planes[1],planes[2],None,colorlaplace)
colorlaplace.origin=image.origin
returncolorlaplace
效果图:
CVtypes中自带了一个关于图像色彩空间的直方图的例子:
结束语
OpenCV的功能十分强大,而且提供了大量的算法实现,文中涉及到的内容只是计算机视觉中很小的一部分。
读者可以考虑将采集到的人脸进行标识,从而实现特定人的人脸识别。
或者考虑将人脸检测移植到网络上,从而实现远程监控。
试想一下,原来没有生命的机器,我们可以通过自己的思想,动作来使得它们看起来像是有思想一样,这件事本身就非常的有趣。
三种强大的物体识别算法——SIFT/SURF、haar特征、广义hough变换的特性对比分析收藏
识别算法概述:
SIFT/SURF基于灰度图:
一、首先建立图像金字塔,形成三维的图像空间,通过Hessian矩阵获取每一层的局部极大值,然后进行在极值点周围26个点进行NMS,从而得到粗略的特征点,再使用二次插值法得到精确特征点所在的层(尺度),即完成了尺度不变。
二、在特征点选取一个与尺度相应的邻域,求出主方向,其中SIFT采用在一个正方形邻域内统计所有点的梯度方向,找到占80%以上的方向作为主方向;而SURF则选择圆形邻域,并且使用活动扇形的方法求出特征点主方向,以主方向对齐即完成旋转不变。
三、以主方向为轴可以在每个特征点建立坐标,SIFT在特征点选择一块大小与尺度相应的方形区域,分成16块,统计每一块沿着八个方向占的比例,于是特征点形成了128维特征向量,对图像进行归一化则完成强度不变;而SURF分成64块,统计每一块的dx,dy,|dx|,|dy|的累积和,同样形成128维向量,再进行归一化则完成了对比度不变与强度不变。
haar特征也是基于灰度图:
首先通过大量的具有比较明显的haar特征(矩形)的物体图像用模式识别的方法训练出分类器,分类器是个级联的,每级都以大概相同的识别率保留进入下一级的具有物体特征的候选物体,而每一级的子分类器则由许多haar特征构成(由积分图像计算得到,并保存下位置),有水平的、竖直的、倾斜的,并且每个特征带一个阈值和两个分支值,每级子分类器带一个总的阈值。
识别物体的时候,同样计算积分图像为后面计算haar特征做准备,然后采用与训练的时候有物体的窗口同样大小的窗口遍历整幅图像,以后逐渐放大窗口,同样做遍历搜索物体;每当窗口移动到一个位置,即计算该窗口内的haar特征,加权后与分类器中haar特征的阈值比较从而选择左或者右分支值,累加一个级的分支值与相应级的阈值比较,大于该阈值才可以通过进入下一轮筛选。
当通过分类器所以级的时候说明这个物体以大概率被识别。
广义hough变换同样基于灰度图:
使用轮廓作为特征,融合了梯度信息,以投票的方式识别物体,在本blog的另一篇文章中有详细讨论,这里不再赘述。
特点异同对比及其适用场合:
三种算法都只是基于强度(灰度)信息,都是特征方法,但SIFT/SURF的特征是一种具有强烈方向性及亮度性的特征,这使得它适用于刚性形变,稍有透视形变的场合;haar特征识别方法带有一点人工智能的意味,对于像人脸这种有明显的、稳定结构的haar特征的物体最适用,只要结构相对固定即使发生扭曲等非线性形变依然可识别;广义hough变换完全是精确的匹配,可得到物体的位置方向等参数信息。
前两种方法基本都是通过先获取局部特征然后再逐个匹配,只是局部特征的计算方法不同,SIFT/SURF比较复杂也相对稳定,haar方法比较简单,偏向一种统计的方法形成特征,这也使其具有一定的模糊弹性;广义hough变换则是一种全局的特征——轮廓梯度,但也可以看做整个轮廓的每一个点的位置和梯度都是特征,每个点都对识别有贡献,用直观的投票,看票数多少去确定是否识别出物体。
本文来自CSDN博客,转载请标明出处:
串口通信—Winbase.h—描述
用于串口通信的函数和结构在Winbase.h头文件中定义。
函数描述
CreateFile打开串行口
GetCommState用指定通信设备的当前控制设置填充设备控制块(DCB结构)
SetCommState按照DCB结构的说明配置通信设备。
这个函数重新初始化所有硬件和控制设备,但不清空I/O队列
GetCommTimeouts获得指定通信设备上所有读/写操作的超时参数
SetCommTimeouts设置指定通信设备上所有读/写操作的超时参数
WriteFile向串行口写数据,这样将把数据传送给串行连接另一端的设备
ReadFile从串行口读数据,这样将从串行连接另一端的设备接收数据
SetCommMask指定为通信设备监视的一组事件
GetCommMask获得指定通信设备的事件掩码值
WaitCommEvent等待指定通信设备的事件的发生。
WaitCommEvent函数监视的事件
包含在与设备句柄相关联的事件掩码中
EscapeCommFunction指导指定通信设备执行扩展功能。
通常用于将串行口设置为IR模式
ClearCommBreak恢复指定通信设备的字符传输,并设置传输线路为不可中断状态
ClearCommError获得通信错误数据,并报告指定通信设备的当前状态
打开端口
CreateFile函数用于打开串行口,因为硬件供应商和设备驱动程序开发者可以随意命名端口,所以应用程序应该列出所有可用端口,从而使用户能够指定要打开的端口。
如果端口不存在,则CreateFile函数返回ERROR_FILE_NOT_FOUND,而且应该通知用户端口不可用。
打开串行口
1在第一个参数lpzPortName指向的通信口后插入一个冒号。
例如,指定“COM1:
”为通信端口。
2指定dwShareMode参数为0。
通信端口不能像文件一样被共享。
3在dwCreationDisposition参数中指定OPEN_EXISTING。
这个标志是必须的。
4指定dwFlagsAndAttributes参数为0。
WindowsCE只支持非重叠I/0.
下面的代码段说明了如何打开串行通信端口。
hPort=CreateFile(lpszPortName,//指出通信端口
GENERIC_READ|GENERIC_WRITE,//读写模式
0,//共享模式
NULL,//安全属性
OPEN_EXISTING,//如何打开服务端口
0,//端口属性
NULL);//端口属性句柄的拷贝
配置串行口
打开串行口后,一般情况下,应用程序需要改变缺省设置。
用GetCommState函数可以获得缺省设置,用SetCommState函数可以设置新的端口设置。
另外,端口配置还包括用COMMTIMEOUTS结构设置读/写操作的超时值。
当发生超时时,ReadFile或WriteFile函数返回成功传输的具体字符数。
配置串行口
DCBPortDCB;
PortDCB.DCBlength=sizeof(DCB);
GetCommState(hPort,&PortDCB);
PortDCB.BaudRate=9600;//波特率
PortDCB.fBinary=TRUE;//只支持二进制串行传输模式
PortDCB.fParity=TRUE;//启用奇偶校验
PortDCB.fOutxCtsFlow=FALSE;//TRUE是由CTS线来控制端口的输出
PortDCB.fOutxDsrFlow=FALSE;//TRUE是由DSR线来控制端口的输出
PortDCB.fDtrControl=DTR_CONTROL_ENABLE;//DTR_CONTROL_DISABLE:
禁用DTR(DataTerminalReady)线并保持此状态;
DTR_CONTROL_ENABLE;
启用DTR(DataTerminalReady)线
DTR_CONTROL_HANDSHAKE
根据接收缓冲区数据的数量告诉串行驱动程序切换DTR线状态
PortDCB.fDsrSensitivity=FALSE;//TRUE为端口将忽略任何输入的字节,除非端口DSR线被启用
PortDCB.fTXContinueOnXoff=TRUE;//TRUE为如接收缓冲区已满且驱动程序已传送XOFF字符,
将使驱动程序停止传输字符