当前位置:编程学习 > JAVA >>

抓取网页特定的内容

前几天看到了这样一个需求
用JAVA写一个WEB程序,可以输入:
1、  网页的URL地址,如:http://www.haodew.com/index.html
2、  一个关键词(如)如:电子商务

输入URL和关键词之后,点击确定按钮,程序返回如下结果:

1、  该关键字在该页面中出现的次数;

2、  找到在该页面中出现该关键词的倒数第二句话,并将这句话显示出来。

................................. --------------------编程问答--------------------

private String getListHtml(String listUrl) throws IOException {
        String sHtml = "";
        URLConnection uc = null;
        BufferedReader br = null;
        try {
            java.net.URL url = new URL(listUrl);
            uc = url.openConnection();

            //设置模拟浏览器浏览参数,防止部分网站阻止
            uc.setRequestProperty("User-Agent",
                    "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
            uc.connect();

            boolean bgCatch = false;
            boolean edCatch = false;
            String line = "";

            br = new BufferedReader(new InputStreamReader(new DataInputStream(
                    uc.getInputStream()), "UTF8"));//编码视具体情况而定

            while ((line = br.readLine()) != null) {
                System.out.println(line);//自己处理获得的每行HTML内容
                sHtml += line + "\r\n";
            }
        } catch (MalformedURLException e) {
            e.printStackTrace();
            throw new IOException("该地址格式不正确!");
        } catch (ConnectException e) {
            e.printStackTrace();
            throw new IOException("该地址不可到达!");
        } finally {
            try {
                if (br != null)
                    br.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return sHtml;
    }




注意IFRAME或者frameset --------------------编程问答-------------------- 我也是1楼的方式用的。 --------------------编程问答--------------------
引用 1 楼 bigc2001 的回复:
Java code

private String getListHtml(String listUrl) throws IOException {
        String sHtml = "";
        URLConnection uc = null;
        BufferedReader br = null;
        try {
          ……



大赞直接贴代码~
补充:Java ,  Web 开发
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,