当前位置:编程学习 > C#/ASP.NET >>

怎么深度抓取内容

一般新闻系统都有一个标题列表,如下所示,
然后链接到具体内容,即类似常见的主细表!

想把标题与内容都抓下来保存,有什么办法?





 <!--新闻列表-->
  <div class="con_n_list mar">
   <ul>
   
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/418480.html" title="青海一派出所连遭两次暴力袭击 两警员受伤">青海一派出所连遭两次暴力袭击 两警员受伤</a></li>
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/417843.html" title="江苏响水县上访者被抓进学习班流亡8个月">江苏响水县上访者被抓进学习班流亡8个月</a></li>
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/418591.html" title="一女子在重庆闹市区持油桶声称自焚">一女子在重庆闹市区持油桶声称自焚</a></li>
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/417915.html" title="京鲁动车组途中撞死人 车头开裂成两半(图)">京鲁动车组途中撞死人 车头开裂成两半(图)</a></li>
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/418476.html" title="山东潍坊寒亭区发红头文件要干部替开发商卖房">山东潍坊寒亭区发红头文件要干部替开发商卖房</a></li>
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/417851.html" title="清明临近各地再掀公祭热 媒体吁官方公祭英烈">清明临近各地再掀公祭热 媒体吁官方公祭英烈</a></li>
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/417845.html" title="官方调查称镍铬烤瓷牙未致肾病结论遭质疑">官方调查称镍铬烤瓷牙未致肾病结论遭质疑</a></li>
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/417937.html" title="信用卡爆出惊天支付漏洞 仅后三码即可消费">信用卡爆出惊天支付漏洞 仅后三码即可消费</a></li>
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/417840.html" title="湖北消委承认下属网站向入会企业收取会费">湖北消委承认下属网站向入会企业收取会费</a></li>
<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/418554.html" title="北京今年高考人数减少1.7万 为近5年来最少">北京今年高考人数减少1.7万 为近5年来最少</a></li>
   </ul>
  </div>
  <!--新闻列表结束-->







 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<base href="http://himg2.huanqiu.com/"/>
 
<title>青海一派出所连遭两次暴力袭击 两警员受伤_派出所 民警 打砸_环球网</title>
 
<meta name="Title" content="青海一派出所连遭两次暴力袭击 两警员受伤" />
 
<meta name="Author" content="" />
 
<meta name="subject" content="青海一派出所连遭两次暴力袭击 两警员受伤" />
 
<meta name="Description" content="" />
 
<meta name="Keywords" content="派出所 民警 打砸" />
 

</head>
<body>

<div class="ct">
  <div class="section">
    <!-- 文章内容 -->
<div id="content">
      <h2>青海一派出所连遭两次暴力袭击 两警员受伤</h2>
 
      <ul id="source">
        <li id="site">http://www.huanqiu.com</li>
        <li id="fromsite">来源:新华网</li>
        <li id="cmtno">
  <span style="display:none;" id="comnum"></span>
  <span style="display: none;" id="hits"></span>
  <strong><a href="http://www.huanqiu.com/content_comment.php?tid=418480&mid=1&cid=524" target="_blank">网友评论<iframe src="http://www.huanqiu.com/comment.php?job=get_comment_number_iframe&tid=418480&cid=524&mid=1" frameborder="0" style="height:19px;width:50px" scrolling="no"></iframe>条</a></strong>
</li>
        <li id="gotobbs"><a title="进入论坛" href="/bbs" target="_blank">进入论坛</a></li>
        <li id="get_date">2009-03-30 13:15</li>
      </ul>
 
      <div id="text">   

<p>  新华网青海频道西宁03月30日电(记者马勇) 3月28日晚间,青海省西宁市公安局城西分局虎台派出所民警在处理一起辖区邻里纠纷时,遭遇纠纷一方当事人酒后抗法,有两名民警被打伤住院,虎台派出所部分办公设施被砸毁。</p><script language='javascript' src='http://www.huanqiu.com/script/content_plugin.js'></script>
<p>  记者从西宁市公安局城西分局了解到,28日21时许,虎台派出所辖区海湖路美丽家园小区住户达明军、芦承良因房屋漏水一事,与楼上邻居李祖超交涉。交涉未果,达、芦二人遭到正在饮酒的李祖超及其亲友殴打。</p>
<p>  22时42分,虎台派出所接到报警赶赴现场,了解情况过程中,李祖超及其亲友称芦、达二人私闯民宅,并继续殴打达、芦二人。后双方当事人被带至虎台派出所进行处理。</p>
<p>  23时30分许,李祖超一方一名醉酒男子在派出所开始大闹,指责派出所办案民警不处理“抢劫”人员(达、芦二人),并先后两次纠集70多人次打砸虎台派出所。</p>
<p>  打砸过程中,值班民警董永亭被打伤致耳内出血,协警员何兴智头部受伤,现二人已住院治疗,另有数名值班民警和协警人员身体受到不同程度伤害。</p>
<p>  西宁市公安局城西分局政委王小华说,现已查明,李祖超一方参与暴力打砸派出所和袭警的不法分子均为河南来青海务工人员,参与打砸派出所和殴打警察的7人已被警方控制并接受调查。</p>

      </div>
      <p id="print">【<a title="收藏此页" href="javascript:addBookmark(window.location)">收藏此页</a>】【<a title="大" href="javascript:doZoom(18)">大</a> <a title="中" href="javascript:doZoom(14)">中</a> <a title="小" href="javascript:doZoom(12)">小</a>】【<a title="友善打印" href="javascript:printview();">友善打印</a>】【<a title="关闭" href="javascript:window.close()">关闭</a>】</p>
    <!--content--></div>



--------------------编程问答-------------------- e --------------------编程问答-------------------- --------------------编程问答-------------------- 正则表达式 --------------------编程问答--------------------

<li><a target="_blank" href="http://china.huanqiu.com/roll/2009-03/417915.html" title="京鲁动车组途中撞死人 车头开裂成两半(图)">京鲁动车组途中撞死人 车头开裂成两半(图)</a></li>



怎样抓href的内容??,因为这是另外一人页面 --------------------编程问答-------------------- <a.*?href="(.*?").*?title="(.*?)">
就可以了 --------------------编程问答-------------------- 做个采集软件啊~~我就有~ --------------------编程问答--------------------
引用 6 楼 beargo 的回复:
做个采集软件啊~~我就有~


楼上能不能发个代码给我啊? --------------------编程问答-------------------- 顶你 --------------------编程问答-------------------- 抓取回来分析,用正折表达式获取连接地址,再请求此地址,循环此操作直到获取到想要的内容为止 --------------------编程问答-------------------- 抓取回来分析,用正折表达式获取连接地址,再请求此地址,循环此操作直到获取到想要的内容为止.
我的程序代码是商业用途,暂时还不能开源.需要的话可以跟我买啊,呵呵~~
补充:.NET技术 ,  C#
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,