当前位置:编程学习 > C#/ASP.NET >>

C#初学者,有关于采集后过滤的问题.在线等...

        string strHtmlCode = "http://sports.sina.com.cn/k/2008-06-10/12133713169.shtml";
        GetHtmlClass.GetRemoteObj gr = new GetHtmlClass.GetRemoteObj();
        temp = gr.GetRemoteHtmlCode(strHtmlCode);
        string Content = Sprider.GetHtmlContent.GetContent(temp.ToLower().Trim().Replace("\r\n", ""), "<!--正文内容开始-->", "<!--正文内容结束-->");//获取正文
        Content = Regex.Replace(Content, @"\<a href(?<a>[^>]*)\>", "", RegexOptions.IgnoreCase);//过滤正文超连接
        Content = Regex.Replace(Content, @"\<!--(?<a>[^>]*)\>", "", RegexOptions.IgnoreCase);//过滤<!--></!-->
        Content = Content.Replace("</a>", "");
       
        
        Content = Content.Replace("<-->", "");
        Label1.Text = Content;

要过滤采集过来的这个页里最下面的这些内容..请高手指教,,,

新浪网关于版权的最新声明</p-->

声明:新浪网独家稿件,转载请注明出处。 </div> </span><br />
        <span id="Label2">http://sports.sina.com.cn/k/2008-06-10/12133713170.shtml</span>
        <br />
        <span id="Label3">齐小侠:湖人究竟怎么了?总决赛为何迎来反易做图 src=http://i1.sinaimg.cn/ty/k/2008-06-10/U687P6T12D3713169F44DT20080610121359.jpg </span></div>

这一段如何过滤啊...找了一天没找到答案..
     --------------------编程问答-------------------- 利用正则过滤掉HTML标签啊
匹配HTML标记的正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/ 
补充:.NET技术 ,  C#
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,