当前位置:编程学习 > JAVA >>

使用htmlparse过滤网页中内容的问题

我想获得http://epub.cnki.net/kns/brief/brief.aspx?pagename=ASP.brief_result_aspx&dbPrefix=CDMD&dbCatalog=中国优秀博硕士学位论文全文数据库&ConfigFile=CDMD.xml&research=off&t=1358246027591&keyValue=钢铁&S=1
中论文的超链接这是代码
	  StringBuffer returnText = new StringBuffer();
        //使用解析目标的URL地址构造一个Parser
       
        try {
          Parser parser = new Parser( (HttpURLConnection) (new URL(url)).openConnection() );
            parser.setEncoding("UTF-8");
            //构造一个接点LIST,对于htmlparser来说,任何一个HTML标签都是一个Node
            
            NodeFilter filter = new NodeClassFilter(FormTag.class);  
            NodeList nodeList = parser.parse(filter);
             System.out.println(nodeList.toHtml()); 
               
           for(int i = 0; i < nodeList.size(); ++i)
            {
           //  System.out.println("ide值是:"+i);
            
               if(nodeList.elementAt(i) instanceof FormTag){  
             // 进到这里是找到了form标签,进而寻找table
               {
              System.out.println("查到了form标签:");
              FormTag form_1=(FormTag)nodeList.elementAt(i); 
              
              //在form_1中查找table标签
             Node par_table=(Node)form_1.childAt(14);  
             if(par_table!=null)
             {
             System.out.println("fdas");
            
             }
            
               }
               
               }
                
                      
            }
      
        } catch (Exception e1) {
            // TODO Auto-generated catch block
            e1.printStackTrace();
        }
 
        return returnText.toString();
    }


中只能获得FormTag在它的子节点中获得table的Node,然后它的tr标签就不能获得了,请大侠帮忙 --------------------编程问答-------------------- 这种匹配找东西用正则匹配 --------------------编程问答-------------------- 除
补充:Java ,  Eclipse
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,