当前位置:编程学习 > C#/ASP.NET >>

谁有爬虫程序开发经验?

如果我要做这样一个搜索程序 

比如:
名称         address          tel       link
武汉火车站   湖北省武汉市....   123456   http://www.wh.cn

只取这几个名称显示成一个列表.与之相关的20条


能过google baidu? 问题怎么取这几个字段? --------------------编程问答-------------------- up --------------------编程问答-------------------- 名称        address            tel          link 
武汉火车站  湖北省武汉市....  123456       http://www.wh.cn 

只搜与这几个名称相关的网页并取出来显示成一个列表 --------------------编程问答-------------------- 要自动分析结果,取出正确答案,那基本没戏
如果只是取得GOOGLE或百度的搜索结果,基本就是写几个合适的正则就能搞定了 --------------------编程问答-------------------- 1:蜘蛛程序仅仅只是收集网页,只是一个downloader;
2:对文本进行分析的是SE的分析引擎,其中包括了HTML格式化等语言处理程序,分析后形成索引;
3:搜索则是搜索引擎SE来做,通过对搜索结果进行评分决定相关性排序的顺序,显示给用户;

泛化意义上的搜索引擎是这几个组件的综合体

有些蜘蛛喜欢在采集同时进行分析,但纯粹意义上的蜘蛛只做很简单的工作的

LZ你想要的是一整套SE,要采集然后分析的

如果只是对GOOGLE、BAIDU进行聚合,那么搞几个正则,分析GOOGLE、BAIDU的返回内容就可以了

--------------------编程问答-------------------- webrequest等获取数据,再用正则获取相关值
参考
参考
补充:.NET技术 ,  C#
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,