怎么通过关键字来爬网页?
我们一般做爬虫都是给一个因定的地址,然后用正则获取需要的内容!能不能通过关键字把互联网上相关的网页都爬过来?
比如我要把“销售”二字相关的网页都爬过来!怎么爬? 是不是通过google就行?有没有相关代码 --------------------编程问答-------------------- 如果行,我也搞一个搜索引擎 --------------------编程问答-------------------- 我是爬网页 --------------------编程问答-------------------- 很占網絡哦,我宿舍那只在爬都被群毆 --------------------编程问答-------------------- 不能通过post到google ? 把google的快照抓过来? --------------------编程问答--------------------
这两者description有什么不一样,为啥新浪的能抓到,chinabyte的抓不到??
--------------------编程问答-------------------- 顶 --------------------编程问答-------------------- 见识了 --------------------编程问答-------------------- 从IE的查看代码来看,并没有什么不同,可就是抓不下chinabyte的description
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<!--[30,59,1] published at 2009-03-27 16:27:16 from #194 by 2418-->
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>新浪首页</title>
<meta name="description" content="新浪网为全球用户24小时提供全面及时的中文资讯,内容覆盖国内外突发新闻事件、体坛赛事、娱乐时尚、产业资讯、实用信息等,设有新闻、体育、娱乐、财经、科技、房产、汽车等30多个内容频道,同时开设博客、视频、论坛等自由互动交流空间。">
<meta name="stencil" content="PGLS000022">
<meta name="publishid" content="30,59,1">
<meta http-equiv="X-UA-Compatible" content="IE=EmulateIE7" />
<meta name="verify-v1" content="6HtwmypggdgP1NLw7NOuQBI2TW8+CfkYCoyeB8IDbn8=" />
</head>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>ChinaByte比特网_报道IT中国,专注IT新闻、评论、信息化</title>
<meta http-equiv="Content-Language" content="zh-CN" />
<meta name="generator" content="MSHTML 6.00.2900.2604" />
<meta name="author" content="ChinaByte比特网_报道IT中国,专注IT新闻、评论、信息化" />
<meta name="Copyright" content="比特网 | 互联网 | 互联网的资讯平台、新闻窗口,为你展现互联网企业多姿多彩的载体" />
<meta name="description" content="ChinaByte比特网,作为中国IT产业的易做图高地和风向标,其原创新闻和评论每天被上百家门户、地方网站、行业网站及报刊争相转载、改编。全面的信息化和企业级IT内容为行业信息化、企业信息化工作者提供实用的资讯服务,拥有大批CIO、CTO等信息化决策读者人群。" />
<meta name="keywords" content="IT新闻,IT评论,IT财报,IT技术,IT博客,IT论坛,IT社区,信息化博客,信息化报道,IT产业,家电,通信,3g,TD,互联网新闻,互联网评论,cio,cto,ceo,应用案例,解决方案,服务器,刀片服务器,虚拟化,存储,网络,信息安全,路由器,交换机,台式机,笔记本,打印机,投影机,一体机,行业信息化,企业信息化,云计算,saas,固态存储,开源,ERP,CRM,IT服务管理,ITIL,企业数据中心,机房,UPS,布线,供电,绿色信息化,虚拟化" />
<link href="http://image.yesky.com/TLimages/chinabyte/css/cb_index_090220.css" type="text/css" rel="stylesheet" media="all" />
<link href="http://image.yesky.com/TLimages/chinabyte/css/headfloor_950_index_090220.css" type="text/css" rel="stylesheet" media="all" />
<base target="_blank" />
</head>
是不是有些网站做了这样屏蔽?? --------------------编程问答-------------------- up --------------------编程问答-------------------- 没弄过,学习
帮顶
补充:.NET技术 , C#