摘要:本文讨论了如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序,可以通过一个入口网址(如http://www.comprg.com.cn)来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载到本地。然后可以利用其他的分析工具对这些网络资源做进一步地分析,如提取关键词、分类索引等。也可以将这些网络资源作为数据源来实现象Google一样的搜索引擎。
关键词:C#2.0,Html,网络蜘蛛, 键树,正则表达式
一、引言
在最近几年,以Google为首的搜索引擎越来越引起人们的关注。由于在Google出现之前,很多提供搜索服务的公司都是使用人工从网络上搜集信息,并将这些信息分类汇总后作为搜索引擎的数据源。如yahoo公司一开始就是通过数千人不停地从网上搜集供查询的信息。这样做虽然信息的分类会很人性化,也比较准确,但是随着互联网信息爆炸式地增长,通过人工的方式来搜集信息已经不可能满足网民对信息的需求了。然而,这一切随着Google的出现而得到了彻底改变。Google一反常规的做法,通过程序7*24地从网上不停地获取网络资源,然后通过一些智能算法分析这些被下载到本地的网络资源,最后将这些分析后的数据进行索引后就形成了一套完整的基本上不需要人工干预的搜索引擎。使用这种模式的搜索引擎甚至可以在几天之内就可获取Internet中的所有信息,同时也节省了大量的资金和时间成本。而这种搜索引擎最重要的组成部分之一就是为搜索引擎提供数据源的网络蜘蛛。也就是说,实现网络蜘蛛是实现搜索引擎的第一步,也是最重要的一步。
二、网络蜘蛛的基本实现思想和实现步骤
网络蜘蛛的主要作用是从Internet上不停地下载网络资源。它的基本实现思想就是通过一个或多个入口网址来获取更多的URL,然后通过对这些URL所指向的网络资源下载并分析后,再获得这些网络资源中包含的URL,以此类推,直到再没有可下的URL为止。下面是用程序实现网络蜘蛛的具体步骤。
1. 指定一个(或多个)入口网址,并将这个网址加入到下载队列中(这时下载队列中只有一个或多个入口网址)。
2. 负责下载网络资源的线程从下载队列中取得一个或多个URL,并将这些URL所指向的网络资源下载到本地(在下载之前,一般应该判断一下这个URL是否已经被下载过,如果被下载过,则忽略这个URL)。如果下载队列中没有URL,并且所有的下载线程都处于休眠状态,说明已经下载完了由入口网址所引出的所有网络资源。这时网络蜘蛛会提示下载完成,并停止下载。
3. 分析这些下载到本地的未分析过的网络资源(一般为html代码),并获得其中的URL(如标签中href属性的值)。
4. 将第3步获得的URL加入到下载队列中。并重新执行第2步。
三、实现数据的输入输出
从实现网络蜘蛛的步骤中我们可以看出,下载队列的读、写URL的操作一直贯穿于整个系统中。虽然这个下载队列可以用.Queue类实现,但是各位读者要清楚地知道,在互联网上的URL可不是几十个、几百个这么少。而是以千万计的。这么多的URL显然不能保存在内存中的Queue对象中。因此,我们需要将它保存在容量更大的存储空间中,这就是硬盘。
本文采用了一个普通的文本文件来保存需要下载和分析的URL(这个文本文件也就是下载队列)。存储格式是每一行为一个URL。既然将URL都保存在了文本文件中,就需要对这个文本文件进行读写。因此,在本节实现了一个用于操作这个文本文件的FileIO类。
在实现FileIO类之前,先来说一下要如何操作这个文本文件。既然要将这个文件作为队列使用,那么就需要对这个文件进行追加行和从文件开始部分读取数据操作。让我们首先来实现向文件中追加行操作。实现代码如下:
向文件中追加行的实现代码
// 这两个变量为类全局变量 private FileStream fsw; private StreamWriter sw; // 创建用于向文件中追加行的文件流和StreamWriter对象 public void OpenWriteFile(string file) { if (!File.Exists(file)) // 如果文件不存在,先创建这个文件 File.Create(file).Close(); // 以追加模式打开这个文件 fsw = new FileStream(file, FileMode.Append ,FileAccess.Write, FileShare.ReadWrite); // 根据创建的FileStream对象来创建StreamWriter对象 sw = new StreamWriter(fsw); } // 关闭写文件流 public void CloseWriteFile() { if (fsr != null) fsw.Close(); } // 向文件中追加一行字符串 public void WriteLine(string s) { sw.WriteLine(s); sw.Flush(); // 刷新写入缓冲区,使这一行对于读文件流可见 } |
从文件中读取行的实现代码
// 这两个变量为类全局变量 private FileStream fsr; private StreamReader sr; // 创建用于读取文件行的文件流和StreamWriter对象 public void OpenReadFile(string file) { if (!File.Exists(file)) // 如果文件不存在,首先创建这个文件 File.Create(file).Close(); fsr = new FileStream(file, FileMode.OpenOrCreate, FileAccess.Read, FileShare.ReadWrite); sr = new StreamReader(fsr); } // 关闭读文件流 public void CloseReadFile() { if(fsr != null) fsr.Close(); } // 从文件中读取一行 public string ReadLine() { if(sr.EndOfStream) // 如果文件流指针已经指向文件尾部,返回null return null; return sr.ReadLine(); } |
IsEof方法的实现代码
// 用于判断文件流指针是否位于文件尾部 public bool IsEof() { return sr.EndOfStream; } |