Jsoup对象

行吟阁

2020-03-03

1.Jsoup：工具类，解析HTML，XML文档，加载文档进内存，获取dom树-->返回Document文档对象

parse（）：解析HTML和XML，返回Documet对象

重载方法

parse?(File in, String charsetName)：解析HTML或XML文件的。（也就是需要存在一个File对象，物理文件）
- 常用于XML
parse?(String html)：解析HTML或XML的字符串（字符串就是，HTML和XML的内容）
- 不常用
parse?(URL url, int timeoutMillis)：通过网络路径获取指定的HTML或者XML的文档对象
- timeoutMillis超时时间
- 获取的路径就是对应的HTML文档，这个HTML文档只不过是在浏览器上被解析成用户看到的界面。真实的数据还是代码
- 常用于HTML爬虫程序
- 例如比价网：慢慢买

2. Documet：文档对象=内存中DOM树

主要用来获取Element对象（document继承了node的下的element对象，能获取任意的Element对象）

getElementById?(String id)：根据id属性值，获取唯一的element对象
getElementsByTag?(String tagName)：根据标签名称，获取元素对象集合
getElementsByAttribute?(String key)：根据属性名称，获取元素对象集合
getElementsByAttributeValue?(String key, String value)：根据属性名称和属性值，获取元素对象集合

3.Elements：元素Element对象的集合。可以当做：泛型为Element的ArrayList集合

Jsoup对象上面的倒数三个方法）

4.Element：元素对象。获取元素的名称、属性、文本

获取子元素对象（只能获取element对象的子标签）
- getElementById?(String id)：根据id属性值，获取唯一的element对象
- getElementsByTag?(String tagName)：根据标签名称，获取元素对象集合
- getElementsByAttribute?(String key)：根据属性名称，获取元素对象集合
- getElementsByAttributeValue?(String key, String value)：根据属性名称和属性值，获取元素对象集合
获取属性值（从node继承过来的方法）
- String attr(String key)：根据属性名称获取属性值，通过传入的属性名称。属性名称不区分大小写
- String写在方法前面表示返回值
获取文本内容
- String text()：获取子标签的纯文本内容
- String html()：获取标签体的所有内容（包扩子标签的标签和文本）

Jsoup对象

5.Node：节点对象。是上面所有的爹

是Documet和Element的父类

行吟阁

0 关注 0 粉丝 0 动态

行吟阁

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号