使用htmlparse过滤网页中内容的问题
我想获得http://epub.cnki.net/kns/brief/brief.aspx?pagename=ASP.brief_result_aspx&dbPrefix=CDMD&dbCatalog=中国优秀博硕士学位论文全文数据库&ConfigFile=CDMD.xml&research=off&t=1358246027591&keyValue=钢铁&S=1中论文的超链接这是代码
StringBuffer returnText = new StringBuffer();
//使用解析目标的URL地址构造一个Parser
try {
Parser parser = new Parser( (HttpURLConnection) (new URL(url)).openConnection() );
parser.setEncoding("UTF-8");
//构造一个接点LIST,对于htmlparser来说,任何一个HTML标签都是一个Node
NodeFilter filter = new NodeClassFilter(FormTag.class);
NodeList nodeList = parser.parse(filter);
System.out.println(nodeList.toHtml());
for(int i = 0; i < nodeList.size(); ++i)
{
// System.out.println("ide值是:"+i);
if(nodeList.elementAt(i) instanceof FormTag){
// 进到这里是找到了form标签,进而寻找table
{
System.out.println("查到了form标签:");
FormTag form_1=(FormTag)nodeList.elementAt(i);
//在form_1中查找table标签
Node par_table=(Node)form_1.childAt(14);
if(par_table!=null)
{
System.out.println("fdas");
}
}
}
}
} catch (Exception e1) {
// TODO Auto-generated catch block
e1.printStackTrace();
}
return returnText.toString();
}
中只能获得FormTag在它的子节点中获得table的Node,然后它的tr标签就不能获得了,请大侠帮忙 --------------------编程问答-------------------- 这种匹配找东西用正则匹配 --------------------编程问答-------------------- 除
补充:Java , Eclipse