爬虫蜘蛛程序的制作大体制作过程.docx

资源描述

爬虫蜘蛛程序的制作大体制作过程.docx

《爬虫蜘蛛程序的制作大体制作过程.docx》由会员分享，可在线阅读，更多相关《爬虫蜘蛛程序的制作大体制作过程.docx（9页珍藏版）》请在冰豆网上搜索。

爬虫蜘蛛程序的制作大体制作过程.docx

爬虫蜘蛛程序的制作大体制作过程

问题是对某一网站或所有网站进行抓取，即下载所有网页。

怎么实现呢？

先将问题最小化（转化的思想，转化为小规模，可以解决的问题）：

如果只有一个网页，怎么下载？

问题变地很简单，只要用WebClient/WebRequest（甚至OpenFileDialog都可以）打开Url地址，将数据流存入本地存储器的文件（以相应的扩展名作为扩展名）即可。

示例代码如下：

stringBoardStream;//下载内容存入此变量

Uriurl=newUri（“”）;//将下载地址转换为Uri类型

HttpWebRequestrequestPage=（HttpWebRequest）WebRequest.Create（url）;

WebResponseresponse=requestMainPage.GetResponse（）;

Streamstream=response.GetResponseStream（）;//获取页面流

if（response.ContentType.ToLower（）.StartsWith（"text/"））//如果获得成功（即为文本格式）

{

StreamReaderreader=newStreamReader（stream,System.Text.Encoding.UTF8）;//读取获得内容流

BoardStream=reader.ReadToEnd（）;//将内容流转换为文本并存入变量BoardStream，即为所需要的数据流

}

StreamWritersaveAPage=newStreamWriter（“C:

\a.html”,false,System.Text.Encoding.GetEncoding（"gb2312"））;//实例化写入类，保存路径假设为C:

\a.html

saveAPage.Write（Rich.Text）;//创建写入任务

saveAPage.Flush（）;//写入文件（即清理缓存流）

saveAPage.Close（）;//关闭写入类的对象

好了，这样便完成了一个网页的下载。

最简化问题解决！

好了，下面的问题是，如何获得更多的网页？

可以分两步：

1.得到更多的地址

2.下载地址指向的链接内容（和上面下载一页的方法一样）

循环进行上面两步即可以完成蜘蛛的全部功能了'

要得到更多的地址，最好的办法是模拟人使用网页的办法。

我们平时怎么浏览整个网站？

无非是从主页依次点开各层链接而已。

好了，思路出来了：

分析已经下载的主页文本，提取其中所有的Url地址信息，再依次下载得到的Url地址指向的链接即可。

现在网络上有不少Web2.0的网站了，这对解析Url地址有不小的负面作用。

在Web2.0出现前，所有的链接都是在HREF后面出现的，而现在却没有了这样的关键字，地址可能出现于任何的关键字之后。

怎么办呢？

经过大量分析，笔者发现：

其实现在所有的链接还有一个共性，即都包裹在双引号（””）当中，这便对解析提供了极大的方便。

笔者将链接分为两类：

1.完整链接，即：

””类，其前面有明显的标志http:

//，这样的内容很好提取，只要用String的静态方法IndexOf（）找出http:

//的位置以及从此位置算起第一个“””出现的位置（即链接结束的位置），再用SubString（）方法将地址提取出来即可。

2.非完整链接，其形式一般为”\index.htm”，提取方法和完整链接的方法相同，只是判断它是不是链接上有一定难度（因为属性等其它信息也可能以“”\”开头，这时就很难判断了。

笔者采取的方法是试下载，即下载一下试试，如果超时刚不是，不超时刚是。

注意：

要在它的前面加上根地址，如“

在《爬虫/蜘蛛程序的制作（C#语言）》一文中，已经介绍了爬虫程序实现的基本方法，可以说，已经实现了爬虫的功能。

只是它存在一个效率问题，下载速度可能很慢。

这是两方面的原因造成的：

1.分析和下载不能同步进行。

在《爬虫/蜘蛛程序的制作（C#语言）》中已经介绍了爬虫程序的两个步骤：

分析和下载。

在单线程的程序中，两者是无法同时进行的。

也就是说，分析时会造成网络空闲，分析的时间越长，下载的效率越低。

反之也是一样，下载时无法同时进行分析，只有停下下载后才能进行下一步的分析。

问题浮出水面，我想大家都会想到：

把分析和下载用不同的线程进行，问题不就解决了吗？

2.只是单线程下载。

相信大家都有用过网际快车等下载资源的经历，它里面是可以设置线程数的（近年版本默认是10，曾经默认是5）。

它会将文件分成与线程数相同的部分，然后每个线程下载自己的那一部分，这样下载效率就有可能提高。

相信大家都有加多线程数，提升下载效率的经历。

但细心的用户会发现，在带宽一定的情况下，并不是线程越多，速度越快，而是在某一点达到峰值。

爬虫作为特殊的下载工具，不具备多线程的能力何以有效率可谈？

爬虫在信息时代的目的，难道不是快速获取信息吗？

所以，爬虫需要有多线程（可控数量）同时下载网页。

好了，认识、分析完问题，就是解决问题了：

多线程在C#中并不难实现。

它有一个命名空间：

System.Threading，提供了多线程的支持。

要开启一个新线程，需要以下的初始化：

ThreadStartstartDownload=newThreadStart（DownLoad）;//线程起始设置：

即每个线程都执行DownLoad（），注意：

DownLoad（）必须为不带有参数的方法ThreaddownloadThread=newThread（startDownload）;//实例化要开启的新类downloadThread.Start（）;//开启线程

由于线程起始时启动的方法不能带有参数，这就为多线程共享资源添加了麻烦。

不过我们可以用类级变量（当然也可以使用其它方法，笔者认为此方法最简单易用）来解决这个问题。

知道开启多线程下载的方法后，大家可能会产生几个疑问：

1.如何控制线程的数量？

2.如何防止多线程下载同一网页？

3.如何判断线程结束？

4.如何控制线程结束？

下面就这几个问题提出解决方法：

1.线程数量我们可以通过for循环来实现，就如同当年初学编程的打点程序一样。

比如已知用户指定了n（它是一个int型变量）个线程吧，可以用如下方法开启五个线程。

Thread[]downloadThread;//声名下载线程，这是C#的优势，即数组初始化时，不需要指定其长度，可以在使用时才指定。

这个声名应为类级，这样也就为其它方法控件它们提供了可能ThreadStartstartDownload=newThreadStart（DownLoad）;//线程起始设置：

即每个线程都执行DownLoad（）downloadThread=newThread[n];//为线程申请资源，确定线程总数for（inti=0;i

好了，实现控制开启线程数是不是很简单啊？

2.下面出现的一个问题：

所有的线程都调用DonwLoad（）方法，这样如何避免它们同时下载同一个网页呢？

这个问题也好解决，只要建立一下Url地址表，表中的每个地址只允许被一个线程申请即可。

具体实现：

可以利用数据库，建立一个表，表中有四列，其中一列专门用于存储Url地址，另外两列分别存放地址对应的线程以及该地址被申请的次数，最后一列存放下载的内容。

（当然，对应线程一列不是必要的）。

当有线程申请后，将对应线程一列设定为当前线程编号，并将是否申请过一列设置为申请一次，这样，别的线程就无法申请该页。

如果下载成功，则将内容存入内容列。

如果不成功，内容列仍为空，作为是否再次下载的依据之一，如果反复不成功，则进程将于达到重试次数（对应该地址被申请的次数，用户可设）后，申请下一个Url地址。

主要的代码如下（以VFP为例）：

<建立表>CREATETABLE（ctablename）（curlM,ctextM,ldownedI,threadNumI）&&建立一个表ctablename.dbf，含有地址、文本内容、已经尝试下载次数、线程标志（初值为-1，线程标志是从0开始的整数）四个字段<提取Url地址>cfullname=（ctablename）+'.dbf'&&为表添加扩展名USE（cfullname）GOTOPLOCATEFOR（EMPTY（ALLTRIM（ctext））ANDldowned<2AND（threadNum=thisNumORthreadNum=-1））&&查找尚未下载成功且应下载的属于本线程权限的Url地址，thisNum是当前线程的编号，可以通过参数传递得到gotUrl=curlrecNum=RECNO（）IFrecNum<=RECCOUNT（）THEN&&如果在列表中找到这样的Url地址UPDATE（cfullname）SETldowned=（ldowned+1）,threadNum=thisNumWHERERECNO（）=recNum&&更新表，将此记录更新为已申请，即下载次数加1，线程标志列设为本线程的编号。

<下载内容>cfulltablename=（ctablename）+'.dbf'USE（cfulltablename）SETEXACTONLOCATEFORcurl=（csiteurl）&&csiteurl是参数，为下载到的内容所对应的Url地址recNumNow=RECNO（）&&得到含有此地址的记录号UPDATE（cfulltablename）SETctext=（ccontent）WHERERECNO（）=recNumNow&&插入对应地址的对应内容<插入新地址>ctablename=（ctablename）+'.dbf'USE（ctablename）GOTOPSETEXACTONLOCATEFORcurl=（cnewurl）&&查找有无此地址IFRECNO（）>RECCOUNT（）THEN&&如果尚无此地址SETCARRYOFFINSERTINTO（ctablename）（curl,ctext,ldowned,threadNum）VALUES（（cnewurl）,"",0,-1）&&将主页地址添加到列表

好了，这样就解决了多线程中，线程冲突。

当然，去重问题也可以在C#语言内解决，只根建立一个临时文件（文本就可以），保存所有的Url地址，差对它们设置相应的属性即可，但查找效率可能不及数据库快。

3.线程结束是很难判断的，因为它总是在查找新的链接。

用者认为可以假设：

线程重复N次以后还是没有能申请到新的Url地址，那么可以认为它已经下载完了所有链接。

主要代码如下：

stringurl="";inttimes=0;while（url==""）//如果没有找到符合条件的记录，则不断地寻找符合条件的记录{url=getUrl.GetAUrl（……）;//调用GetAUrl方法，试图得到一个url值if（url==""）//如果没有找到{times++;//尝试次数自增continue;//进行下一次尝试}if（times>N）//如果已经尝试够了次数，则退出进程{downloadThread[i].Abort;//退出进程}else//如果没有尝试够次数{Times=0;//尝试次数归零处理}//进行下一步针对得到的Url的处理}

4.这个问题相对简单，因为在问题一中已经建议，将线程声名为类级数组，这样就很易于控制。

只要用一个for循环即可结束。

代码如下：

for（inti=0;i

好了，一个蜘蛛程序就这样完成了，在C#面前，它的实现原来如此简单。

这里笔者还想提醒读者：

笔者只是提供了一个思路及一个可以实现的解决方案，但它并不是最佳的，即使这个方案本身，也有好多可以改进的地方，留给读者思考。

最后说明一下我所使用的环境：

winXPsp2Pro

VFP9.0

VisualStudio2003.net中文企业版

来源链接：

该文章转载自网络大本营：

问题是对某一网站或所有网站进行抓取，即下载所有网页。

怎么实现呢？

先将问题最小化（转化的思想，转化为小规模，可以解决的问题）：

如果只有一个网页，怎么下载？

问题变地很简单，只要用WebClient/WebRequest（甚至OpenFileDialog都可以）打开Url地址，将数据流存入本地存储器的文件（以相应的扩展名作为扩展名）即可。

示例代码如下：

stringBoardStream;//下载内容存入此变量

Uriurl=newUri（“”）;//将下载地址转换为Uri类型

HttpWebRequestrequestPage=（HttpWebRequest）WebRequest.Create（url）;

WebResponseresponse=requestMainPage.GetResponse（）;

Streamstream=response.GetResponseStream（）;//获取页面流

if（response.ContentType.ToLower（）.StartsWith（"text/"））//如果获得成功（即为文本格式）

{

StreamReaderreader=newStreamReader（stream,System.Text.Encoding.UTF8）;//读取获得内容流

BoardStream=reader.ReadToEnd（）;//将内容流转换为文本并存入变量BoardStream，即为所需要的数据流

}

StreamWritersaveAPage=newStreamWriter（“C:

\a.html”,false,System.Text.Encoding.GetEncoding（"gb2312"））;//实例化写入类，保存路径假设为C:

\a.html

saveAPage.Write（Rich.Text）;//创建写入任务

saveAPage.Flush（）;//写入文件（即清理缓存流）

saveAPage.Close（）;//关闭写入类的对象

好了，这样便完成了一个网页的下载。

最简化问题解决！

好了，下面的问题是，如何获得更多的网页？

可以分两步：

1.得到更多的地址

2.下载地址指向的链接内容（和上面下载一页的方法一样）

循环进行上面两步即可以完成蜘蛛的全部功能了'

要得到更多的地址，最好的办法是模拟人使用网页的办法。

我们平时怎么浏览整个网站？

无非是从主页依次点开各层链接而已。

好了，思路出来了：

分析已经下载的主页文本，提取其中所有的Url地址信息，再依次下载得到的Url地址指向的链接即可。

现在网络上有不少Web2.0的网站了，这对解析Url地址有不小的负面作用。

在Web2.0出现前，所有的链接都是在HREF后面出现的，而现在却没有了这样的关键字，地址可能出现于任何的关键字之后。

怎么办呢？

经过大量分析，笔者发现：

其实现在所有的链接还有一个共性，即都包裹在双引号（””）当中，这便对解析提供了极大的方便。

笔者将链接分为两类：

1.完整链接，即：

””类，其前面有明显的标志http:

//，这样的内容很好提取，只要用String的静态方法IndexOf（）找出http:

//的位置以及从此位置算起第一个“””出现的位置（即链接结束的位置），再用SubString（）方法将地址提取出来即可。

笔者采取的方法是试下载，即下载一下试试，如果超时刚不是，不超时刚是。

注意：

要在它的前面加上根地址，如“

在《爬虫/蜘蛛程序的制作（C#语言）》一文中，已经介绍了爬虫程序实现的基本方法，可以说，已经实现了爬虫的功能。

只是它存在一个效率问题，下载速度可能很慢。

这是两方面的原因造成的：

1.分析和下载不能同步进行。

在《爬虫/蜘蛛程序的制作（C#语言）》中已经介绍了爬虫程序的两个步骤：

分析和下载。

在单线程的程序中，两者是无法同时进行的。

也就是说，分析时会造成网络空闲，分析的时间越长，下载的效率越低。

反之也是一样，下载时无法同时进行分析，只有停下下载后才能进行下一步的分析。

问题浮出水面，我想大家都会想到：

把分析和下载用不同的线程进行，问题不就解决了吗？

2.只是单线程下载。

相信大家都有用过网际快车等下载资源的经历，它里面是可以设置线程数的（近年版本默认是10，曾经默认是5）。

它会将文件分成与线程数相同的部分，然后每个线程下载自己的那一部分，这样下载效率就有可能提高。

相信大家都有加多线程数，提升下载效率的经历。

但细心的用户会发现，在带宽一定的情况下，并不是线程越多，速度越快，而是在某一点达到峰值。

爬虫作为特殊的下载工具，不具备多线程的能力何以有效率可谈？

爬虫在信息时代的目的，难道不是快速获取信息吗？

所以，爬虫需要有多线程（可控数量）同时下载网页。

好了，认识、分析完问题，就是解决问题了：

多线程在C#中并不难实现。

它有一个命名空间：

System.Threading，提供了多线程的支持。

要开启一个新线程，需要以下的初始化：

ThreadStartstartDownload=newThreadStart（DownLoad）;//线程起始设置：

即每个线程都执行DownLoad（），注意：

DownLoad（）必须为不带有参数的方法ThreaddownloadThread=newThread（startDownload）;//实例化要开启的新类downloadThread.Start（）;//开启线程

由于线程起始时启动的方法不能带有参数，这就为多线程共享资源添加了麻烦。

不过我们可以用类级变量（当然也可以使用其它方法，笔者认为此方法最简单易用）来解决这个问题。

知道开启多线程下载的方法后，大家可能会产生几个疑问：

1.如何控制线程的数量？

2.如何防止多线程下载同一网页？

3.如何判断线程结束？

4.如何控制线程结束？

下面就这几个问题提出解决方法：

1.线程数量我们可以通过for循环来实现，就如同当年初学编程的打点程序一样。

比如已知用户指定了n（它是一个int型变量）个线程吧，可以用如下方法开启五个线程。

Thread[]downloadThread;//声名下载线程，这是C#的优势，即数组初始化时，不需要指定其长度，可以在使用时才指定。

这个声名应为类级，这样也就为其它方法控件它们提供了可能ThreadStartstartDownload=newThreadStart（DownLoad）;//线程起始设置：

即每个线程都执行DownLoad（）downloadThread=newThread[n];//为线程申请资源，确定线程总数for（inti=0;i

好了，实现控制开启线程数是不是很简单啊？

2.下面出现的一个问题：

所有的线程都调用DonwLoad（）方法，这样如何避免它们同时下载同一个网页呢？

这个问题也好解决，只要建立一下Url地址表，表中的每个地址只允许被一个线程申请即可。

具体实现：

（当然，对应线程一列不是必要的）。

当有线程申请后，将对应线程一列设定为当前线程编号，并将是否申请过一列设置为申请一次，这样，别的线程就无法申请该页。

如果下载成功，则将内容存入内容列。

主要的代码如下（以VFP为例）：

展开阅读全文