网站首页 > 技术文章正文

Java中如何使用正则技术提取html中的任意内容

nanyue 2024-12-27 15:45:52 技术文章 4 ℃

在Java中，可以使用正则表达式来提取HTML中的任意内容。以下是一个示例代码，演示如何使用正则表达式从HTML中提取文本：

import java.util.regex.Matcher;  import java.util.regex.Pattern;    public class HtmlParser {      public static void main(String[] args) {          String html = "<html><head><title>My Website</title></head><body><p>This is some sample text.</p></body></html>";          Pattern pattern = Pattern.compile("<p[^>]*>(.*?)</p>");          Matcher matcher = pattern.matcher(html);          String pText = matcher.group(1);          System.out.println(pText);      }  }

在上面的代码中，我们首先定义了一个HTML字符串，然后使用Pattern和Matcher类来匹配HTML中的文本。Pattern类用于定义正则表达式，Matcher类用于在HTML中查找匹配的文本。

在正则表达式中，我们使用了<p[^>]*>来匹配以<p>开头，后面跟着任意数量的字符，再以</p>结尾的文本。其中，[^>]*表示匹配任意数量的字符，</p>表示匹配</p>后面的任意字符。

最后，我们使用group(1)方法来获取匹配的文本，并将其打印到控制台上。

需要注意的是，正则表达式可以根据HTML标签的不同来进行不同的

上一篇：一看就懂 | 30分钟入门正则表达式，看这一篇就够了(值得收藏)
下一篇： Linux下find与exec的联手干大事 linux find -newer

网站首页 > 技术文章 正文

Java中如何使用正则技术提取html中的任意内容

猜你喜欢

网站首页 > 技术文章正文