java 读html

zhangpeng

2011-02-22

关注关注

要做个信息查询，需要从别的网站提取一些信息，获取整个网页以后发现想要的内容是一个table，需要取出table每行每单元格的内容，变成自己想要的格式，使用第三方控件HTMLParser来完成。

下载地址：http://htmlparser.sourceforge.net/

StringstrUrl="http://www.baidu.com";(需要查询的网站，这里举例随便的)

URLurl=newURL(strUrl);

//输入流

InputStreamReaderisr=newInputStreamReader(url.openStream());

BufferedReaderbr=newBufferedReader(isr);

//获取html转换成String

Strings;

StringAllContent="";

while((s=br.readLine())!=null)

{

AllContent=AllContent+s;

}

//使用后HTMLParser控件

ParsermyParser;

NodeListnodeList=null;

myParser=Parser.createParser(AllContent,"utf-8");

NodeFiltertableFilter=newNodeClassFilter(TableTag.class);

OrFilterlastFilter=newOrFilter();

lastFilter.setPredicates(newNodeFilter[]{tableFilter});

try{

//获取标签为table的节点列表

nodeList=myParser.parse(lastFilter);

//循环读取每个table

for(inti=0;i<=nodeList.size();i++){

if(nodeList.elementAt(i)instanceofTableTag){

TableTagtag=(TableTag)nodeList.elementAt(i);

TableRow[]rows=tag.getRows();

//循环读取每一行

for(intj=1;j<rows.length;j++){

TableRowtr=(TableRow)rows[j];

TableColumn[]td=tr.getColumns();

//读取每行的单元格内容

for(intk=0;k<td.length;k++){

System.out.print(td[k]..getStringText());//（按照自己需要的格式输出）

}

}catch(ParserExceptione){

e.printStackTrace();

}

htmlparser table

zhangpeng

0 关注 0 粉丝 0 动态

关注关注

Python知识点 - Xpath提取某个标签，需要转换为HTML。

# lxml转Html. from lxml import etree. from HTMLParser import HTMLParser. def lxml_to_html(text:etree):. content = etree.tostring(

爱好HtmlCssJs 2019-11-25

Python HTML解析模块HTMLParser用法分析【爬虫工具】

本文实例讲述了Python HTML解析模块HTMLParser用法。分享给大家供大家参考，具体如下：。先简略介绍一下。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序

wgPython 2019-04-05

htmlparser网页抓取

logger.info("分析网站首页的新闻列表，内容为所有网页新闻地址的HTML内容。

RedGuyanluo 2016-02-03

htmlparser页面解析（基础运用）

htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。

jkshangss 2012-08-06

jeecms 采集功能优化,基于htmlparser实现,多线程版

panyingdao 2011-11-03

HTML Parser 使用例子

htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说，htmlparser就是目前最好的html

loverlucky 2010-11-22

htmlparser

简介htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或　　提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。　　毫不夸张地说，htmlparser就是目前最

GATSBYER 2012-03-16

htmlparser中自定义html标签进行解析

但有些时候，我们可能需要自定义非HTML标签实现一些额外的功能，比如我经常使用htmlparser解析并处理页面后需要返回最终的处理结果，一般情况下我们获取html这个根标签，然后toHtml()就可以得到了。这样就会出现数据遗漏的情况，我这里就来讲下我的

souhugirl 2011-11-30

Java实现之网络爬虫

最近公司闲来无事，看到了Apachenutch项目，记得前段时间做了网上数据的抓取，是别人给的代码，自己改动一下代码，然后实现其功能。当初没有深究，所以现研究了一下。从网上看了很多的例子，实现网络爬虫，大概三步走：一是加载所要爬虫的网站。三是爬虫匹配的内容

taowanyy 2014-12-08

HtmlParser初步研究

目的是快速入手，而不是深入研究，做了一下整理，和大家共同讨论一下。HtmlParser主要靠Node、AbstractNode和Tag来表达Html，因为Remark和Text相对简单，此处就将其忽略了。Node是形成树结构表示HTML的基础，所有的数据表

souhugirl 2010-04-12

基于Htmlparser的天气预报程序

htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或。该程序是基于命令窗口模式，用htmlparser去抓取页面上的天气信息。通过观察地址栏，我们可以知道页面接收一个中文的参数，这个参数为城市名，所以我

SPARK 2010-04-12

spider简单的爬虫程序

*ParsingDetector可用于检查HTML、XML等文件或字符流的编码构造方法中的参数用于指示是否显示探测过程的详细信息

wusiye 2010-01-05

wx-mina-html-view: 微信小程序渲染html

不支持<form>, <input>, <select>等表单元素.使用方法请参考pages/index目录里的文件.拷贝html-view目录到你的项目.在页面的js/wxml/wxss中, 引入代码:index.js

谷歌架构师 2019-06-21

python入门之tkinter实现简单的RSS功能

tkinter,在上一篇《简单的记事本》中已经了解了一些tkinter的用法，在这里延续了上一篇，加深一下印象。urllib，HTMLPaser库的使用，注意python3已经与python2有了很大不同。对于下面的class Window，定义了一些窗口

Yellowpython 2019-06-21

Java发送Http请求，解析html返回

今天是2008年7月7日星期一，下午一直在学校做个人开始页面。因为离不开google的翻译，所以想把google的翻译整合到我的开始页面中来，于是乎就遇到了一个问题，怎样使用java程序发送http请求然后截获远程服务器返回的数据进行适当处理之后再输出？另

wusiye 2008-07-08

htmlparser 解析HTML 思路

HTML正则表达式VBVB.NET搜索引擎.有些甚至在Java版本中无法支持的标签也在这个版本中得到了支持。该爬虫可以遵循robot.txt协议文件来获得组织和允许访问的列表。Source把二进制文件转换成相应的字符序列，存储一组未加工的字符序列。

happyzhangyin 2012-08-28

使用 jsoup 对 HTML 文档进行解析和操作(比HTMLParser好）

Java 程序在解析 HTML 文档时，相信大家都接触过 htmlparser 这个开源项目，我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章，分别是：从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能

wangnan0 2012-03-15

使用 jsoup 对 HTML 文档进行解析和操作

andyhu00 2011-04-07

jsoup学习

2011-10-2815:00:40|分类：java_js_flex_css|标签：jsoupjava抓取详解|字号订阅。但现在我已经不再使用htmlparser了，原因是htmlparser很少更新，但最重要的是有了jsoup。jsoup是一款Java的

Jym 2013-08-28

ios开发点滴－libxml/HTMLparser.h file not found

libxml/HTMLparser.h file not found 在导入asihttprequest包时出问题导入了libxml2.dylib，但是却提示libxml/HTMLparser.h file not found，那是因为你的开发环境默认的

Theqianduan 2013-05-12

安科网

java 读html

zhangpeng

zhangpeng

相关推荐

Python知识点 - Xpath提取某个标签，需要转换为HTML。

Python HTML解析模块HTMLParser用法分析【爬虫工具】

htmlparser网页抓取

htmlparser页面解析（基础运用）

jeecms 采集功能优化,基于htmlparser实现,多线程版

HTML Parser 使用例子

htmlparser

htmlparser中自定义html标签进行解析

Java实现之网络爬虫

HtmlParser初步研究

基于Htmlparser的天气预报程序

spider简单的爬虫程序

wx-mina-html-view: 微信小程序渲染html

python入门之tkinter实现简单的RSS功能

Java发送Http请求，解析html返回

htmlparser 解析HTML 思路

使用 jsoup 对 HTML 文档进行解析和操作(比HTMLParser好）

使用 jsoup 对 HTML 文档进行解析和操作

jsoup学习

ios开发点滴－libxml/HTMLparser.h file not found

zhangpeng