正则提取div中间的内容
- package com.yueguang.regex;
- import java.io.File;
- import java.io.FileNotFoundException;
- import java.io.FileWriter;
- import java.io.IOException;
- import java.util.Scanner;
- import java.util.regex.Matcher;
- import java.util.regex.Pattern;
- public class ParseDIV {
- public static void main(String[] args) throws IOException {
- Pattern pattern = Pattern.compile("(<div>)([^<]*)(</div>)");
- File file = new File("overview.html");
- FileWriter fileWriter = new FileWriter(new File("output.txt"));
- Scanner in = new Scanner(file, "UTF8");
- // Scanner in = new Scanner(System.in,"UTF8");
- while (in.hasNextLine()) {
- String nextLine = in.nextLine();
- Matcher matcher = pattern.matcher(nextLine);
- // System.out.println(nextLine);
- // System.out.println(matcher);
- while (matcher.find()) {
- //System.out.println(matcher.group(2));
- fileWriter.write(matcher.group(2)+"");
- }
- }
- fileWriter.flush();
- fileWriter.close();
- }
- }
输入是一个 需要提取的内容在每行上都以<div>content</div>的形式表示,可以一行有多个,只要每行上的格式完整
简单的正则的应用,里面值得注意的地方是 不要把 [^<] 写成 . ; 因为点会匹配所有字符,那么如果一行存在多个 第一个div中的内容和最后一个div中间内容都会被匹配到,我们只需要明白<不可能出现在div 里,并且这是div 结束符号的开始,那么我们就可以成功匹配到正确的content,另外值得说的一点是字符集的问题,我的IDE中配置的是UTF8,显示的时候如果使用了ANSI之类的格式都会显示乱码,改一下编辑器的默认显示格式即可
相关推荐
杨德龙 2020-11-11
不要皱眉 2020-10-14
满地星辰 2020-09-16
梦的天空 2020-08-25
lrjnlp 2020-07-19
qidu 2020-07-05
flyingssky 2020-07-05
flyingssky 2020-06-27
RuoShangM 2020-06-17
天高任鸟飞 2020-06-13
Darklovy 2020-06-11
qidu 2020-06-08
Darklovy 2020-06-07
jyj00 2020-06-06
flyingssky 2020-06-04
山水沐光 2020-05-26
山水沐光 2020-05-25