当前位置:编程学习 > JAVA >>

如何运用nutch来爬取微博上的信息

现在我们正在弄一个與情检测系统,需要用nutch来抓取数据,普通网页上的数据容易抓取,但是像微博这样的需要登录和验证的网页怎么抓取啊,请各位大虾们指教一下,有源码的最好发一下,小弟可以借鉴一下。 --------------------编程问答-------------------- 你做毛,这谁会啊 --------------------编程问答-------------------- 也在查找资料相关方面的资料,楼主找到了告诉一声呗~~~ --------------------编程问答-------------------- 不知道你的定位是什么,如果是仅仅抓微博内容,再进行分析的话是不用登陆验证的 --------------------编程问答-------------------- 同问,我是用的heritrix,想抓取登录后的微博内容。。。 --------------------编程问答-------------------- 你好!请教一些问题:
请问一下
1。你是如何把nutch抓取到的二进制内容,在项目中读取的。
2。nutch抓取时候,发现有很多url没有被成功抓取过来,请问你做的时候,有什么   办法是提高成功率。
3。对抓取过来内容你们是如何进行关键词搜索

希望群主可以帮忙解答一下。万分感激!
email:83132614@qq.com --------------------编程问答-------------------- 除 --------------------编程问答-------------------- 个人觉得使用Nutch、Hetrix抓网页还可以的,但是对于微博就不那么好了,因为微博和网页区别还是很大的
补充:Java ,  Eclipse
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,