//">
[CDATA[
href\=\'(/blog/\d*)\'
]]>
XML规则:
1.必须包含target节点,target的encode与timeout属性如果采用默认,可以不设置
2.multi-url与wildcard-url可以任选一个,也可以并存,最多2个。
合理的情况包括:
只有一个multi-url,只有一个wildcard-url,一个multi-url和一个wildcard-url。
注意,无论wildcard-url跟multi-url的顺序如何,系统都会从multi-url开始执行。
3.multi-url下包含至少一个single-url元素,通过single-url元素的href属性设置url
4.wildcard-url属性包括href,startpos,endpos,这3个属性都是必须的。
目前只支持(*)通配,url中只能有一个(*),(*)将会被替换成startpos和endpos之间的数字。
5.target-regex属性包括root,该属性值将会被添加在通过这个正则匹配得到的url之前。
主要针对相对url。
相对url需要加上站点的根路径组成完整路径。
而如果是绝对url的话,可以将root属性放空。
注意,正则表达式需要放在CDATA标签内。
因为正则包含特殊字符,必须放在CDATA内,否则很可能导致解析错误。
解析过程:
1.首先获得页面编码与超时设置,在接下来读取任何html页面的过程中,这2个参数都会被应用。
默认的编码为UTF-8,默认的超时时限为5000ms。
如果要抓取的网站访问很慢,响应时间特别长,那么这个超时时限可以相应设置得高一点。
如果在target中没有指定这2个值,那么系统会采用默认的编码跟超时设置。
2.判断是否包含multi-url定义,包含的话调用相应的方法,如果target下定义了target-regex元素,那么multi-url中定义的url会先被读取,然后将读取到的内容使用target-regex中定义的正则表达式进行匹配,将匹配结果作为目标列表返回。
如果target下没有定义target-regex,那么将multi-url下所有的url作为目标列表返回。
3.判断是否包含wildcard-url定义,包含的话调用相应的方法,首先获得起始跟终结位置,替换生成所有通配的url,接下来同multi-url,如果target下定义了target-regex元素,那么所有生成的通配url会先被读取,然后将读取到的内容使用target-regex中定义的正则表达式进行匹配,将匹配结果作为目标列表返回。
如果target下没有定义target-regex,那么将所有生成的通配url作为目标列表返回。
举例1:
最简单的定义抓取目标
例如我们抓取XX的首页,显然这是没什么意义的事情,这里只是举例说明抓取目标的定义方法。
这样就完整定义了抓取地址,对于target,我们定义了encode属性,但是省略了timeout属性,因为系统默认是utf8编码,而XX是gb2312编码,必须指定。
而timeout我们默认就可以。
举例2:
通配符url定义抓取目标
上网时候经常可以看到某篇文章,如果比较长,就可以会被分成多页,我们点击下一页翻看,对于这样的url地址一般都是非常有规律的,通常它的url带有一个类似page=1之类的属性。
假设我们抓取某篇文章的全部内容,这篇文章地址为
startpos="1"endpos="3"/>
我们假设这个网站响应很快,并采用UTF8编码,target的2个属性我们就忽略了。
系统会自动解析成,,这样的3个网址。
举例3:
multi-url+正则表达式定义抓取目标
比较经常的情况是,我们要抓取的内容在多个地址上。
例如XX贴吧,我们想要某个贴吧前5页的所有的帖子的内容,显然,采用例子一定义所有帖子的url太烦琐,而帖子的url地址又没办法用通配符来表示,这个时候,使用正则抓取是最好的方法。
这要求使用者有正则表达式的基础。
[CDATA[
class=t\shref=\"(.*?
)\"
]]>
首先我们列出3个页面列表,每个页面上大概有50个帖子,通过查看源代码我们看到它的url是这样写的kz=350025590"target=_blank>,通过总结规律,我们得出了上面target-regex的正则表达式,系统将通过这个正则去匹配所有符合条件的地址。
注意,必须将我们要的地址页就是这里href里面的内容用()括起来,这样系统才会获取这个分组。
由于XX这里采用的是相对路径,所以我们要设定根节点root,系统匹配完成后会用root加上匹配结果作为目标地址,也就是
同样的,wildcard-url元素也可以配合target-regex来使用。
清除目标定义
作用:
将抓取到的目标文件用定义的规则进行裁减。
先去掉网页中我们不需要的内容,可能对于后面的解析有帮助。
清除目标定义的XML文件范例:
[CDATA[
|
]]>
[CDATA[
.*?
]]>
XML规则:
1.必须包含cleaner节点。
clean任务只要是为了提高后面处理任务的执行效率。
clean任务先去掉了网页中不会参与解析的内容,可以减少后面执行解析的速度。
2.clean节点可以任意多个,预定义的type属性包括:
head,css,script,tags,regex。
clean类型为head的,会将网页内容截断只保留body跟body之间的内容。
head之间的内容会被删除。
clean类型为css的,会将页面上所有css定义去掉,但是这个清除不包括去掉内联的style定义。
clean类型为script的,会将页面上所有javascript脚本去掉。
类型为tags的,如果CDATA内没有定义任何字段,那么会清除页面上所有的html标签,如果CDATA定义了字段,那么会清除定义的html标签。
最后一个也是最强大的一个,正则表达式类型,系统会对所有匹配的内容进行正则替换。
解析过程:
1.读取clean列表,获得要进行清除的任务。
2.判断clean类型,执行相应的操作。
注意:
由于clean会对内容进行全文搜索与替换,在内容很长的情况下可能会非常消耗资源并要执行很长时间。
对于clean操作如非必要,慎用。
只有head类型的是例外,head由于只在头尾出现,所以匹配执行速度很快。
是比较常用的定义。
举例1:
对于抓取,我们通常只关心网页的文字内容。
那么解析前我们就可以将head部分的内容都去掉。
这部分内容对于解析毫无意义。
那么我们可以这样定义:
很简单完成。
举例2:
可能我们也不想要内容中的脚本,和头。
同样简单。
举例3:
清除网页上所有的span跟pre标签
[CDATA[
|
]]>
处理过程定义
作用:
系统的核心过程,通过定义这个过程,完成对抓取内容的解析。
包括保存到数据库,裁减等。
处理过程定义的XML文件范例:
[CDATA[
.*<.*?
>(.*?
).*?