谁有爬虫程序开发经验?
如果我要做这样一个搜索程序比如:
名称 address tel link
武汉火车站 湖北省武汉市.... 123456 http://www.wh.cn
只取这几个名称显示成一个列表.与之相关的20条
能过google baidu? 问题怎么取这几个字段? --------------------编程问答-------------------- up --------------------编程问答-------------------- 名称 address tel link
武汉火车站 湖北省武汉市.... 123456 http://www.wh.cn
只搜与这几个名称相关的网页并取出来显示成一个列表 --------------------编程问答-------------------- 要自动分析结果,取出正确答案,那基本没戏
如果只是取得GOOGLE或百度的搜索结果,基本就是写几个合适的正则就能搞定了 --------------------编程问答-------------------- 1:蜘蛛程序仅仅只是收集网页,只是一个downloader;
2:对文本进行分析的是SE的分析引擎,其中包括了HTML格式化等语言处理程序,分析后形成索引;
3:搜索则是搜索引擎SE来做,通过对搜索结果进行评分决定相关性排序的顺序,显示给用户;
泛化意义上的搜索引擎是这几个组件的综合体
有些蜘蛛喜欢在采集同时进行分析,但纯粹意义上的蜘蛛只做很简单的工作的
LZ你想要的是一整套SE,要采集然后分析的
如果只是对GOOGLE、BAIDU进行聚合,那么搞几个正则,分析GOOGLE、BAIDU的返回内容就可以了
--------------------编程问答-------------------- webrequest等获取数据,再用正则获取相关值
参考
参考
补充:.NET技术 , C#