有关爬虫的技术探讨
前一段时间一直在找spider,发现网上很多都是,固定一个页面,然后分页html标记,剥离html来取得自己要的内容这样很费劲,而且有以下缺点:
1、不及时。
2、不能抓取相关页面整合成一个整体页面的.
不知道google,百度这种,别人刚发的贴子没几秒钟,就被google收下来了,而且转成了自己的格式,不知是什么技术???
比如一个页面显示标题列表:
aaaaatitle
bbbbbtitle
相对应当的aaaaatitle页面:标题 内容,时间,作者都有,
相对应当的bbbbbtitle页面:标题 内容,时间,作者都有,
这实际是三个页的内容
而google收录时就会变成一个快照页面:把aaaaatitle页面,bbbbbtitle页面的标题与内容,作者,时间都放在一个页了。 --------------------编程问答-------------------- 帮顶 --------------------编程问答--------------------
没几秒钟?如果不是推广的,估计也得需要很长时间。
那种速度快的,都是做了相关的推广。
很简单,就是在网页里边添加一个对百度、google的特地一个地址。
这样,在浏览器对这个网页解释的时候,会请求那个百度、google的地址,这个请求的时候,http头会有一个reference的字段,字段里边有这张网页的地址,这样,百度、google的服务器便知道了这张网页,可能就会启动内部的收录机制。
如果百度、google的服务器不知道这张网页,花费的时间会很长。 --------------------编程问答-------------------- 顶 --------------------编程问答-------------------- 呵,是挺快的,我记得前天上午在CSDN发了一个贴,反正当天下午就可以搜索到啦。。 --------------------编程问答--------------------
很多类似火车票之类的,一般要不了一分钟的就被GOOGLE收录
所以探讨一下相关技术实现方法 --------------------编程问答-------------------- google的技术那么简单就被人知道了人家还吃什么。看见有的做seo优化的吹牛什么精通google搜索引擎算法就笑掉大牙。 --------------------编程问答-------------------- up....jf --------------------编程问答-------------------- 关注 --------------------编程问答-------------------- 帮顶 --------------------编程问答-------------------- 顶 --------------------编程问答--------------------
垂直搜索不是什么垃圾都搜,它仅仅搜索很小的范围,特别是一些类似2楼所说的网站。 --------------------编程问答-------------------- 帮顶,不过好像google和百度会对网站分级,它认为的信息比较重要的网站会更快的搜索到,比如codeproject之类的网站
补充:.NET技术 , C#