当前位置:编程学习 > JAVA >>

有关html信息抽取的问题

需要提取的html类似以下情况:

...(其它内容)....
<b>target</b>
<tr>
annotations1<tr>
annotations2<tr>
....<tr>
...(其它内容)....

需要的东西包括target以及后面的annotations。不知道有什么方法可以把这些信息提取出来,希望有做过的前辈提供下帮助。
感谢ing……
--------------------编程问答-------------------- 没做过。不过如果放在span里面。或者div什么的里面的很好做的。
--------------------编程问答-------------------- 前台的话用jquery获取呗,后台推荐你一个jsoup的开源包,进行html解析,写法跟jquery找元素很相似 --------------------编程问答-------------------- 第一种方式,正则:
下面只是简单了写了点,没有考虑重复标签的问题。重复标签采取的是加入到list里面的简单方式

//正则提取
public static List<String> getContext2() {
//String html="kk<p>123456</p>ssss";
String html="ss<p>kk帖子</p>ss";
List<String> resultList = new ArrayList<String>();
        Pattern p = Pattern.compile("<p>(.*?)</p>");//匹配<p>开头,</p>结尾的文档,这里替换成你需要的标签就可以了
        Matcher m = p.matcher(html );//开始编译
        while (m.find()) {
         String str=m.group(1);//获取被匹配的部分
         resultList.add(str);
        }
        return resultList;
    }

第二种方式,dom读取的方式,这种方式可靠性高一点。
补充:Java ,  Java相关
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,