VB.NET实用教程之抓取网页乱码解决方案

VB.NET实用教程教你调试VB.Net调用Microsoft.XMLHttp组件抓取网页时,遇到抓取中文字符出现乱码的问题,在这里给大家仔细分析一下,举一个小案例如下。以下为VB.Net抓取网页的函数LobDotCn  注:url_Link为抓取的目标页面 IsGb2312为是否Gb2312字符。

VB.NET实用教程代码:

Public Function LobDotCn(ByVal url_Link As String, ByVal IsGb2312 As Boolean)    


On Error Resume Next  


Dim XmlHttp As Object  



XmlHttp = CreateObject("Microsoft.XMLHttp")  



XmlHttp.Open("POST", url_Link, False)  


XmlHttp.Send()  


Dim WebContent As Object  


Dim Str_WebContent As String  


If IsGb2312 Then  



WebContent = XmlHttp.ResponseBody  




Str_WebContent = System.Text.Encoding.Default.GetString(WebContent)  



Else  



WebContent = XmlHttp.ResponseText  




Str_WebContent = WebContent.ToString  



End If  



XmlHttp = Nothing 




LobDotCn = Str_WebContent 



End Function 

调用方式 :

变量  = LobDotCn("http://www.lob.cn", True)   '抓取 Gb2312网页    
变量  = LobDotCn("此处填写网址", False)    ' 抓取utf-8网页

附Microsoft.XMLHttp组件的相关说明:
Open( bstrMethod, bstrUrl, varAsync, bstrUser, bstrPassword )
◆bstrMethod:  数据传送方式,即GET或POST。
◆bstrUrl:     服务网页的URL。
◆varAsync:   是否同步执行。缺省为True,即同步执行,但只能在DOM中实施同步执行。用中一般将其置为False,即异步执行。
◆bstrUser:    用户名,可省略。
◆bstrPassword:用户口令,可省略。
Send( varBody )
◆varBody:指令集。可以是XML格式数据,也可以是字符串,流,或者一个无符号整数数组。也可以省略,让指令通过Open方法的URL参数代入。
◆setRequestHeader( bstrHeader, bstrvalue )
◆bstrHeader:HTTP 头(header)
◆bstrvalue: HTTP 头(header)的值

如果Open方法定义为POST,可以定义表单方式上传:
xmlhttp.setRequestHeader( "Content-Type", "application/x-www-form-urlencoded")

相关推荐