当前位置:编程学习 > JAVA >>

爬虫 抓取数据

请问,像今日头条新闻那样的很多新闻都是从其他网站上面爬去的。

那么服务器使用httpclient+jsoup还是用开源的爬虫框架好呢(如nutch,jspider。。)。
个人感觉:
1.如果用httpclient+jsoup就全部自己去观察,解析dom而且还要考虑多线程和量增问题,如果数据量大了,也许处理起来会很麻烦。
2.如果要是用爬虫框架呢,我现在就在看nutch,感觉nutch太大了,做我这个似乎不太合适。

请问你们是什么意见?
爬虫 框架 开源 --------------------编程问答-------------------- 没有顶,自己做沙发。。
补充:Java ,  Java EE
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,