当前位置：编程学习 > JAVA >>

爬虫抓取数据

请问，像今日头条新闻那样的很多新闻都是从其他网站上面爬去的。

那么服务器使用httpclient+jsoup还是用开源的爬虫框架好呢（如nutch，jspider。。）。
个人感觉：
1.如果用httpclient+jsoup就全部自己去观察，解析dom而且还要考虑多线程和量增问题，如果数据量大了，也许处理起来会很麻烦。
2.如果要是用爬虫框架呢，我现在就在看nutch，感觉nutch太大了，做我这个似乎不太合适。

请问你们是什么意见？
爬虫框架开源 --------------------编程问答-------------------- 没有顶，自己做沙发。。

补充：Java ,  Java EE

上一个：线程简单问题
下一个：java web网页游戏的登录踢人功能后面登录的将前面登录的人踢掉

更多图片编程知识:

更多JAVA疑问解答：: java怎么在线读取ftp服务器上的文件内容; 关于程序员的职业规划; HTML和JSP矛盾吗？; java小程序如何打包？; java怎么split路径文件名？; 关于Hibernate实体自身多对一的抓取问题; 关于apache2+tomcat群集出现的问题; SSH 导入导出excel 谁有这块的资料吗?; springmvc 加载一个jsp页面执行多个方法报404; 关于用jquery 导入 excel; java对时间进行循环放到List中; 一个图片的输入输出程序，第一次调用某方法会中断，第二次调用则正常; 请上过传智播客的人说一下传智播客怎么样呀！是不是像它说的那样好呀！; spring的schema怎么配置; 【菜鸟求助】SSH中怎么从JSP页面往后台传值呢

站长资源库

如果你遇到编程学习难题：
请访问www.zzzyk.com 试试

CopyRight © 2012 站长网编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络，