当前位置:编程学习 > JAVA >>

Java网络爬虫技术

公司突然要我去研究网络爬虫技术,之前没接触过,在网上大概了解了下,觉得这方面资料好像比较少,麻烦有经验的同行给点实际性的建议和指导,最好有一个源码看看,如何去网上抓取别人网页中我需要的URL,整个具体流程是怎样的?想直接看源码,首先是爬虫如何实现,其次是如何通过爬虫程序去遍历意向网页,然后遍历网页的同时如何读取想要的东西?给个小例子就行,不胜感激。 --------------------编程问答-------------------- 有这么几本书
1,网络机器人Java编程指南,浅显易懂,有点过时,但适合新手
2,自己动手写网络爬虫,有点基础还可以看看,写的有点乱,很多内容交代不清楚,并且大篇幅代码抄袭。。。
3,搜索引擎 ——原理、技术与系统,北大天网为案例,很好很强大,有点学术味道
4,Web数据挖掘  Bing Liu,刘兵的书,强烈推荐
5,搜索引擎:信息检索实践,很好的书,强烈推荐
还有一些论文,自己去找吧
案例的话,可以研究下Nutch爬虫部分代码,写的很清晰
有了以上这些,应该算是入门了 --------------------编程问答-------------------- 前段时间也玩了下。还不错,挺有意思。
java.net.HttpURLConnection 建立URL连接的,
org.htmlparser.Parser 解析的。可以过滤关键字

楼主可以google下,资料还是很多的。
http://blog.csdn.net/huxiweng/article/details/6722997 --------------------编程问答-------------------- nutch,单独的爬虫heritrix,不过要自己通过lucene来建索引等等 --------------------编程问答-------------------- 顶下。 --------------------编程问答-------------------- 来看看 --------------------编程问答-------------------- 我们公司也做过,我当时用的好像是jsoup可一看下这个很简单的! --------------------编程问答-------------------- 涉及到用户登录的时候呢?比如我要获取一段只有登录后才能读到的信息。。。
登录方式并且还有好多种,有些用cookie保存登录状态的,还有其他一些方式获取登录令牌的,
能不能多举些例子? --------------------编程问答--------------------
引用 7 楼 idlqy 的回复:
涉及到用户登录的时候呢?比如我要获取一段只有登录后才能读到的信息。。。
登录方式并且还有好多种,有些用cookie保存登录状态的,还有其他一些方式获取登录令牌的,
能不能多举些例子?


涉及到登录可以用httpclient来做 --------------------编程问答-------------------- 这不是做搜索引擎吗?前几天我们老师也讲过,很好玩的,但是不会啊! --------------------编程问答-------------------- 正则表达式匹配? --------------------编程问答-------------------- 顶楼主呢。同求代码mfkwfc@qq.com --------------------编程问答--------------------
引用 1 楼 Ol_lO 的回复:
有这么几本书
1,网络机器人Java编程指南,浅显易懂,有点过时,但适合新手
2,自己动手写网络爬虫,有点基础还可以看看,写的有点乱,很多内容交代不清楚,并且大篇幅代码抄袭。。。
3,搜索引擎 ——原理、技术与系统,北大天网为案例,很好很强大,有点学术味道
4,Web数据挖掘  Bing Liu,刘兵的书,强烈推荐
5,搜索引擎:信息检索实践,很好的书,强烈推荐……


这位兄弟推荐的书很靠谱~ --------------------编程问答-------------------- 网络机器人Java编程指南源代码可以上作者的网页下载
http://www.jeffheaton.com/java/bot/updates.shtml --------------------编程问答-------------------- 恰好我之前有研究过,这里是一个非常好的例子:
使用 HttpClient 和 HtmlParser 实现简易爬虫
HttpClient和HtmlParser来自第三类库(文章中会介绍),模拟的一个Http客户端,可以程序化发起浏览页面的请求,然后用HtmlParser来不断抽取需要的网址,然后发起新的访问,由此循环下去,直到“爬”完所有网页。
--------------------编程问答-------------------- 学爬虫? 
 http://yijianfengvip.blog.163.com/blog/static/17527343220121027113418509/  

我的爬虫系列专题
--------------------编程问答-------------------- 爬虫获取的数据 分析过滤

http://yijianfengvip.blog.163.com/blog/static/175273432201210300392310/ --------------------编程问答-------------------- 我做过网络爬虫,用的是HttpParser和HttpComponent(原名HttpClient),你研究一下这两个就ok了,至于算法方面就按照图的遍历来做了,DFS或者BFS看你的需求了。 --------------------编程问答-------------------- java基础知识而已,用正则咯 --------------------编程问答--------------------
补充:Java ,  Java EE
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,