信息内容安全复习.docx
《信息内容安全复习.docx》由会员分享,可在线阅读,更多相关《信息内容安全复习.docx(28页珍藏版)》请在冰豆网上搜索。
信息内容安全复习
1、信息内容安全:
如何利用计算机从包含海量信息且迅速变化的网络中,对与特定安全主题相关信息进行自动地获取和分析的技术。
2、信息类型:
文字、音频、图像/视频
3、内容安全的范畴:
舆情监测;信息过滤;内容分级;信息隐藏
4、网络信息获取:
(1)主动获取技术:
通过向网络发出请求来获取信息,特点是接入方式简单,能够获取更广泛的信息内容,但会对网络造成额外的负担。
——————————网络媒体信息获取
(2)被动获取技术则在网络出入口上通过例如旁路侦听方式获取网络信息,特点是接入需要网络管理者的协作,获取的内容仅限于进出本地网络的数据流,但不会对网络造成额外流量。
——————————————————网络通信信息获取
广播式:
新闻网站、论坛(BBS)
交互式:
视频、音频点播
5、网络媒体形态:
广播式媒体、交互式媒体
6、发布信息类型:
文字、音频、图像/视频
6、信息发布方式:
匿名浏览、需要身份认证
7、网页具体形态:
(1)静态网页:
页面内容事先由设计人员写好,内容是固定不变的;
静态网页每个网页都有一个固定的URL,且网页URL以.htm、.html、等常见形式为后缀,而不含有“?
”和参数;
(2)动态网页:
页面内容由后台服务器根据对请求的处理结果自动生成,请求不同,生成的结果就不同;动态网页常见后缀,.php、.asp、.jsp等
(3)共同处:
不论静态页面或动态页面,它们到达浏览器后的表现形式都一样,即HTML文档;
判断:
(1)动态网页的网页上有各种动画、滚动字幕等视觉效果。
(X)
(2)采用动态网页技术的网站可以实现更多的功能,如用户注册、用户登录、在
线调查、用户管理、订单管理等等。
(Y)
(3)采用Javascript脚本语言实现网页动态效果的页面是动态页面。
(X)
8、媒体信息的特征表达:
是将媒体信息表示成计算机能够高效计算的形式。
9、信息内容识别:
是指以特征表达为基础,对信息内容进行识别、分类,确定其是否为所需要的目标内容,识别的准确度和速度是重要指标。
分类:
文字、音频、图像/视频。
10、搜索引擎:
是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
URL判重:
在信息采集操作启动前进行
内容摘要判重:
在采集信息存储时进行
内容安全领域网络媒体信息与搜索引擎技术相通、目标不同。
搜索引擎功能组件:
用户接口、搜索器 、索引器 、检索器四个部分组成。
11、网络媒体信息获取分类:
(1)全网信息获取:
信息获取范围涉及整个国际互联网内所有网络媒体信息,保证信息全面性,耗时长,本地存储信息量大。
(2)定点信息获取:
信息获取范围限制在一定范围内,更加注重实效性。
(3)基于主题的信息获取:
面向某些特定话题,在信息获取过程中增加话题匹配环节,本地存储信息量小。
12、
如何查看:
缓存-查看cookie信息
网络媒体信息获取方法:
(1)
Cookie是您访问网站时该网站发送到您计算机中的小文件。
网站依靠Cookie来记住您的用户名密码等访问信息。
重构网络交互过程,实现网络媒体信息获取。
●需身份认证静态媒体发布信息获取
●基于Cookie机制实现认证
●基于网络交互重构实现信息获取
●内嵌脚本语言片段的动态网页信息获取
●利用HTMLDOM树提取动态网页内的脚本语言片段
●基于Rhino实现JavaScript动态网页信息提取
(2)利用开源浏览器实现网络媒体信息获取。
●
基于浏览器模拟实现网络媒体信息获取
13、网络蜘蛛:
是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
(1)工作原理:
网络爬虫是通过网页的链接地址来寻找网页,从网站某一个网页(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
(2)分类:
1)传统爬虫:
从一个或若干初始网页的URL开始,获得初始网页上的URL,在
抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统
的一定停止条件。
2)聚焦爬虫:
需要根据一定的网页分析算法过滤与主题无关的链接,将有用的链接放入等待抓取的URL队列,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
14、网页搜索策略:
(1)广度优先策略:
在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。
该算法的设计和实现相对简单。
在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。
(2)深度优先策略
(3)最佳优先方法:
按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。
它只访问经过网页分析算法预测为“有用”的网页。
存在的一个问题是,很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。
15、跨站广告:
显示广告
跨站广告
收集信息
访问淘宝时,生成了记录信息的cookie,关键:
cna
访问带有淘宝广告的网站,淘宝读取相关信息,得到cna
cna交由服务器处理,服务器按照浏览历史给出广告
Cookie,是网站在客户端上存放的一小块数据。
他们都由某个域存放,只能被这个域访问。
他们的区别其实并不是技术上的区别,而是使用方式上的区别。
一般,网站自身的Cookie被称为第一方Cookie,而来自他站的Cookie生成或者访问被称为第三方Cookie。
而淘宝跨站广告的本质是第三方Cookie。
16、特征:
指某一物质自身所具备的特殊性质,是区别于其他物质的基本征象和标志
一幅图像的特征:
能够充分表达该幅图像所描述的内容,以区别于其他图像或其他不同
类型图像
计算机提取的图像特征:
可计算、可高效计算
特征类型:
颜色、纹理、形状、空间关系
17、特征描述-就是用一组数值(特征向量、空间点)或符号,即特征描述子(descriptor),来表征图像、物体或图像局部区域等的某些特征。
18、应用:
基于图像内容的检索;基于图像内容的分类;目标物分割;图像填补、修复;图像拼接
19、数字图像的表示方法:
灰度图像(256级颜色,uint8):
每个像素可以是0~255之间的任何一个值;二值图像(黑白两色,logical/boolean):
图中的每个像素的像素值用1位存储,它的值只有“0”或者“1”。
存储量的计算:
一幅640×480的灰度图像就需要占据的存储空间是?
(300KB)
答:
640*480/1024=300KB
一幅640×480的二值图像需要占据的存储空间是?
(37.5KB)
答:
黑白图像只有两种颜色,每个像素点用一位二进制数就可以表示,一个字节的二进制数可以表示8个像素点,所以需要的总字节数就是640×480÷8=38400
20、彩色图像(RGB三通道,每通道256级颜色,三维数组,uint8)
21、
特征空间是240000维度,再来一幅,放缩到400*600,拉成向量,做比较
可计算的,但计算效率高吗?
平移不变吗?
旋转不变吗?
缩放不变吗?
不是
图像空间距离:
22、颜色特征:
(1)颜色矩:
(2)颜色直方图:
直方图是一个二维图,横坐标为图像中各个像素点的灰度级别,纵坐标表示具有各个灰度级别的像素在图像中出现的次数或概率。
直方图比较:
a、卡方系数(值越小越相似):
b、相关系数(绝对值越大越相似):
c、直方图相交法(值越大越相似):
(3)颜色聚合矢量:
23、纹理特征:
(1)灰度共生矩阵:
A)方向:
0°、45°、90°、135°
B)偏移量:
待统计的元素距离
C)级数:
当图像灰度值级数是N时,灰度共生矩阵为N*N的矩阵.
D)灰度矩阵=频度矩阵/总频次
E)共生矩阵反应图像灰度分布关于方向、局部邻域和变化幅度的综合信息。
F)能量特征:
是灰度共生矩阵元素值的平方和,反映了图像灰度分布均匀程度。
如果共生矩阵的所有值均相等,则值小;相反,如果其中一些值大而其它值小,则值大。
能量特征:
,P(i,j)表示共生矩阵元素
G)若灰度共生矩阵值分布均匀,也即图像近于随机或噪声很大,熵会有较大值。
熵是图像所具有的信息量的度量,是一个随机性的度量,当共生矩阵中所有元素有最大的随机性、空间共生矩阵中所有值几乎相等时,共生矩阵中元素分散分布时,熵较大。
它表示了图像中纹理的非均匀程度或复杂程度。
(2)LBP特征
对于每个像素,将其环形邻域内的8个点(也可以是环形邻域多个点.应用LBP算法的三个邻域示例所示)进行顺时针或逆时针的比较,如果中心像素值比该邻点大,则将邻点赋值为1,否则赋值为0,这样每个点都会获得一个8位二进制数(通常转换为十进制数)。
●旋转不变:
比较8位二进制数排列中最小的可能。
24、
熵是图像所具有的信息量的度量即图像近于随机或噪声量,是一个随机性的度量,当共生矩阵中所有元素有最大的随机性、共生矩阵中所有值几乎相等时,共生矩阵中元素分散分布时,熵较大。
表示了图像中纹理的非均匀程度或复杂程度。
若灰度共生矩阵值分布均匀,熵会有较大值。
形状特征:
形状特征相比颜色、纹理,鉴别力更高。
形状特征的性能往往取决于图像分割和轮廓提取的效果。
(1)目标(轮廓)提取:
●链码----->(起始点不变)旋转不变:
差分码不变
●多边形近似:
要用尽可能少的线段,来代表边界,并保持边界的基本形状
1、基于收缩的最小周长多边形法
2、基于聚合(merge)的最小均方差线段逼近法
3、基于分裂(split)的最小均方差线段逼近法:
原始边界->按最大距离分割边界->连接垂直点->最后的多边形
(2)边界描述的形状特征
●周长是边界的全局特征,指轮廓的周长。
区域R的边界B是由R的所有边界点按4-方向或8-方向连接组成的,区域的其它点称为区域的内部点
对于区域R而言,它的每1个边界点P都应满足2个条件:
(1)P本身属于区域R;
(2)P的邻域中有象素不属于区域R
区域的边界点和内部点要采用不同的连通性来定义,否则会出现歧义
如果区域R的内部点用8-方向连通来判断,则得到的边界为4-方向连通的,如果用4-方向连通来判断,则得到的边界为8-方向连通的
如果边界用单位长链码表示,则水平和垂直码的个数加上√2乘以对角码的个数=》边界长度,将边界的所有点从0排到K-1(设边界点共K个),则边界长度计算式为:
●形状数:
1个边界的形状数是这些差分中其值最小的1个序列,也就是说,形状数是值最小的(链码)差分码
每个形状数都有1个对应的阶(order),阶定义为:
形状数序列的长度(即码的个数)。
计算形状数步骤:
1、从所有满足给定阶要求的矩形中选取其长短轴比例最接近给定边界如图a的矩形,如图b所示
2、根据给定阶将选出的矩形划分为如图c所示的多个等边正方形(18阶)
3、求出与边界最吻合的多边形,如将面积的50%以上包在边界内的正方形划入内部得到d图
4、计算链码、差分码以及形状数:
Chaincode:
000030032232221211
Difference:
300031033013003130
Shapeno.:
000310330130031303
形状数提供了1种有用的形状度量方法,对每
个阶是唯一的,不随边界的旋转和尺度的变化
而改变
对2个区域边界而言,它们之间形状上的相似性可借助它们的形状数进行描述:
从小到大逐步计算两个边界的各阶形状数,并相互