正则提取div中间的内容

杨柳天下

2018-07-22

package com.yueguang.regex;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class ParseDIV {
public static void main(String[] args) throws IOException {
Pattern pattern = Pattern.compile("(<div>)([^<]*)(</div>)");
File file = new File("overview.html");
FileWriter fileWriter = new FileWriter(new File("output.txt"));
Scanner in = new Scanner(file, "UTF8");
// Scanner in = new Scanner(System.in,"UTF8");
while (in.hasNextLine()) {
String nextLine = in.nextLine();
Matcher matcher = pattern.matcher(nextLine);
// System.out.println(nextLine);
// System.out.println(matcher);
while (matcher.find()) {
//System.out.println(matcher.group(2));
fileWriter.write(matcher.group(2)+"");
}
}
fileWriter.flush();
fileWriter.close();
}
}

输入是一个需要提取的内容在每行上都以<div>content</div>的形式表示，可以一行有多个，只要每行上的格式完整

简单的正则的应用，里面值得注意的地方是不要把 [^<] 写成 . ；因为点会匹配所有字符，那么如果一行存在多个第一个div中的内容和最后一个div中间内容都会被匹配到，我们只需要明白<不可能出现在div 里，并且这是div 结束符号的开始，那么我们就可以成功匹配到正确的content，另外值得说的一点是字符集的问题，我的IDE中配置的是UTF8，显示的时候如果使用了ANSI之类的格式都会显示乱码，改一下编辑器的默认显示格式即可

正则提取div中间的内容

正则

安科网

正则提取div中间的内容

杨柳天下

杨柳天下

相关推荐

MySQL全面瓦解之查询的正则匹配详解

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

ASP删除img标签的style属性只保留src的正则函数

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

liunx正则危险符号“*”星号

正则 : 模式

CTF-字符？正则？

10、正则

形式语言与自动机五正则语言的三个性质

[javascript] 获取正则子表达式里的内容

JS leetcode 宝石与石头题解分析，正则字符组也有妙用

什么？你还不会身份证号码验证？最全的身份证正则验证js

用它匹配大数据长文本，让你的处理效率提升 100 倍！

linux正则应用场景

模块-re模块

前端常用正则校验

node环境下console语句对非空数组输出时，会清空正则捕获组。

正则注意事项

mongodb正则$regex命令行简单使用

JavaScript正则表达式匹配字符串字面量

杨柳天下