如何去自动抓取其他网站上的新闻信息

为了以后的网站的维护，及开发的便利，能否有一个技术去支持连接其他网站，获取他们网站上的信息，如：新浪中的房地产信息，我想从中抽取过来，及时添加到我所开发的网站上，这样可以减免功能的重余；就是说新浪房地产信息更新了，我的网上的相应的新闻信息也随着改变。。。。怎么实现呢，能否具体点，在此O(∩_∩)O谢谢你的技术交流! --------------------编程问答-------------------- 据说都是用的爬虫自动去抓
会的说说·· --------------------编程问答-------------------- apache htmlClient htmlParser --------------------编程问答-------------------- 这个帮顶下，很好的问题！ --------------------编程问答-------------------- 希望有经验的开发者，提供些宝贵的经验和知识，谢谢您们的交流! --------------------编程问答--------------------

顶一下，现在也想弄这个东东！ --------------------编程问答-------------------- 不过爬虫爬下来的东西，怎么整理也是个大问题哩，最好是比较规范的网站，抓下来的内容格式也很完整和规范，那么就很好做内容分析处理，不然就麻烦了 --------------------编程问答-------------------- 正规网站,排版应该变动不会经常变动. 用htmlparser,把需要的内容,根据html标签,把他们依次取出来,存自己数据库里. 一天更新个几次.

我只做过网页抓取. --------------------编程问答-------------------- 能否推荐一下那种爬虫技术好（我查了好多爬虫工具，没用过，第一次用到这个技术的），如何去用，能否告知一下呢，谢谢了! --------------------编程问答-------------------- --------------------编程问答-------------------- --------------------编程问答-------------------- rss

补充：Java ,  Java EE