当前位置:编程学习 > JAVA >>

如何去自动抓取其他网站上的新闻信息

为了以后的网站的维护,及开发的便利,能否有一个技术去支持连接其他网站,获取他们网站上的信息,如:新浪中的房地产信息,我想从中抽取过来,及时添加到我所开发的网站上,这样可以减免功能的重余;就是说新浪房地产信息更新了,我的网上的相应的新闻信息也随着改变。。。。怎么实现呢,能否具体点,在此O(∩_∩)O谢谢你的技术交流! --------------------编程问答-------------------- 据说都是用的爬虫 自动去抓 
会的说说·· --------------------编程问答-------------------- apache htmlClient htmlParser --------------------编程问答-------------------- 这个帮顶下,很好的问题! --------------------编程问答-------------------- 希望有经验的开发者,提供些宝贵的经验和知识,谢谢您们的交流! --------------------编程问答--------------------
顶一下,现在也想弄这个东东! --------------------编程问答-------------------- 不过爬虫爬下来的东西,怎么整理也是个大问题哩,最好是比较规范的网站,抓下来的内容格式也很完整和规范,那么就很好做内容分析处理,不然就麻烦了 --------------------编程问答-------------------- 正规网站,排版应该变动不会经常变动. 用htmlparser,把需要的内容,根据html标签,把他们依次取出来,存自己数据库里. 一天更新个几次.

我只做过网页抓取. --------------------编程问答-------------------- 能否推荐一下那种爬虫技术好(我查了好多爬虫工具,没用过,第一次用到这个技术的),如何去用,能否告知一下呢,谢谢了! --------------------编程问答-------------------- --------------------编程问答-------------------- --------------------编程问答-------------------- rss
补充:Java ,  Java EE
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,