有关爬虫的技术探讨

前一段时间一直在找spider，发现网上很多都是,固定一个页面，然后分页html标记，剥离html来取得自己要的内容

这样很费劲，而且有以下缺点：
1、不及时。
2、不能抓取相关页面整合成一个整体页面的.

不知道google，百度这种，别人刚发的贴子没几秒钟，就被google收下来了，而且转成了自己的格式，不知是什么技术？？？

比如一个页面显示标题列表：
aaaaatitle
bbbbbtitle

相对应当的aaaaatitle页面：标题内容，时间，作者都有，
相对应当的bbbbbtitle页面：标题内容，时间，作者都有，
这实际是三个页的内容

而google收录时就会变成一个快照页面:把aaaaatitle页面,bbbbbtitle页面的标题与内容，作者，时间都放在一个页了。 --------------------编程问答-------------------- 帮顶 --------------------编程问答--------------------

引用楼主 enasp 的帖子:

别人刚发的贴子没几秒钟，就被google收下来了，而且转成了自己的格式，不知是什么技术？？？

没几秒钟？如果不是推广的，估计也得需要很长时间。
那种速度快的，都是做了相关的推广。
很简单，就是在网页里边添加一个对百度、google的特地一个地址。
这样，在浏览器对这个网页解释的时候，会请求那个百度、google的地址，这个请求的时候，http头会有一个reference的字段，字段里边有这张网页的地址，这样，百度、google的服务器便知道了这张网页，可能就会启动内部的收录机制。

如果百度、google的服务器不知道这张网页，花费的时间会很长。 --------------------编程问答-------------------- 顶 --------------------编程问答-------------------- 呵，是挺快的，我记得前天上午在CSDN发了一个贴，反正当天下午就可以搜索到啦。。 --------------------编程问答--------------------

引用 4 楼 dreamw 的回复:

呵，是挺快的，我记得前天上午在CSDN发了一个贴，反正当天下午就可以搜索到啦。。

很多类似火车票之类的，一般要不了一分钟的就被GOOGLE收录

所以探讨一下相关技术实现方法 --------------------编程问答-------------------- google的技术那么简单就被人知道了人家还吃什么。看见有的做seo优化的吹牛什么精通google搜索引擎算法就笑掉大牙。 --------------------编程问答-------------------- up....jf --------------------编程问答-------------------- 关注 --------------------编程问答-------------------- 帮顶 --------------------编程问答-------------------- 顶 --------------------编程问答--------------------

引用 5 楼 hnchina1 的回复:

引用 4 楼 dreamw 的回复:
呵，是挺快的，我记得前天上午在CSDN发了一个贴，反正当天下午就可以搜索到啦。。

很多类似火车票之类的，一般要不了一分钟的就被GOOGLE收录

所以探讨一下相关技术实现方法

垂直搜索不是什么垃圾都搜，它仅仅搜索很小的范围，特别是一些类似2楼所说的网站。 --------------------编程问答-------------------- 帮顶，不过好像google和百度会对网站分级，它认为的信息比较重要的网站会更快的搜索到，比如codeproject之类的网站

补充：.NET技术 ,  C#