有关html信息抽取的问题
需要提取的html类似以下情况:...(其它内容)....
<b>target</b>
<tr>
annotations1<tr>
annotations2<tr>
....<tr>
...(其它内容)....
需要的东西包括target以及后面的annotations。不知道有什么方法可以把这些信息提取出来,希望有做过的前辈提供下帮助。
感谢ing……
--------------------编程问答-------------------- 没做过。不过如果放在span里面。或者div什么的里面的很好做的。
--------------------编程问答-------------------- 前台的话用jquery获取呗,后台推荐你一个jsoup的开源包,进行html解析,写法跟jquery找元素很相似 --------------------编程问答-------------------- 第一种方式,正则:
下面只是简单了写了点,没有考虑重复标签的问题。重复标签采取的是加入到list里面的简单方式
//正则提取
public static List<String> getContext2() {
//String html="kk<p>123456</p>ssss";
String html="ss<p>kk帖子</p>ss";
List<String> resultList = new ArrayList<String>();
Pattern p = Pattern.compile("<p>(.*?)</p>");//匹配<p>开头,</p>结尾的文档,这里替换成你需要的标签就可以了
Matcher m = p.matcher(html );//开始编译
while (m.find()) {
String str=m.group(1);//获取被匹配的部分
resultList.add(str);
}
return resultList;
}
第二种方式,dom读取的方式,这种方式可靠性高一点。
补充:Java , Java相关