利用C#语言构造一个Web程序

尤朋

2009-07-31

本文介绍如何用C#语言构造一个Web程序，它能够把整个网站的内容下载到某个指定的目录，程序的运行界面。你可以方便地利用本文提供的几个核心类构造出自己的Web程序。

C#特别适合于构造Web程序，这是因为它已经内置了HTTP访问和多线程的能力，而这两种能力对于Web程序来说都是非常关键的。下面是构造一个Web程序要解决的关键问题：

1.HTML分析：需要某种HTML解析器来分析Web程序遇到的每一个页面；

2.页面处理：需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘，或者进一步分析处理；

3.多线程：只有拥有多线程能力，Web程序才能真正做到高效；

4.确定何时完成：不要小看这个问题，确定任务是否已经完成并不简单，尤其是在多线程环境下。

HTML解析

C#语言本身不包含解析HTML的能力，但支持XML解析；不过，XML有着严格的语法，为XML设计的解析器对HTML来说根本没用，因为HTML的语法要宽松得多。为此，我们需要自己设计一个HTML解析器。本文提供的解析器是高度独立的，你可以方便地将它用于其它用C#处理HTML的场合。

本文提供的HTML解析器由ParseHTML类实现，使用非常方便：首先创建该类的一个实例，然后将它的Source属性设置为要解析的HTML文档：

ParseHTML parse = new ParseHTML();  



parse.Source = "Hello World";

接下来就可以利用循环来检查HTML文档包含的所有文本和标记。通常，检查过程可以从一个测试Eof方法的while循环开始：

while(!parse.Eof())  


{  



char ch = parse.Parse();

Parse方法将返回HTML文档包含的字符--它返回的内容只包含那些非HTML标记的字符，如果遇到了HTML标记，Parse方法将返回0值，表示现在遇到了一个HTML标记。遇到一个标记之后，我们可以用GetTag()方法来处理它。

if(ch==0)  


{  



HTMLTag tag = parse.GetTag();  



}

一般地，Web程序最重要的任务之一就是找出各个HREF属性，这可以借助C#的索引功能完成。例如，下面的代码将提取出HREF属性的值（如果存在的话）。