当前位置:编程学习 > C#/ASP.NET >>

网页源代码截取

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Text;
using System.Windows.Forms;
using System.Net;
using System.IO; 

namespace WindowsApplication2
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }

        private void button1_Click(object sender, EventArgs e)
        {
            System.Net.HttpWebRequest req;
            System.Net.HttpWebResponse res;
            string url = "http://www.baidu.com";
            req = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url);
            res = (System.Net.HttpWebResponse)req.GetResponse();
            System.IO.StreamReader strm = new System.IO.StreamReader(res.GetResponseStream(), Encoding.GetEncoding("gb2312"));
            richTextBox1.Text = strm.ReadToEnd();

        }
    }
}

我现在得到了网页里的源代码,我想提取有用的。
如<title><</title>直接的。
这个如何写呀? --------------------编程问答-------------------- 简单的用正则表达式;复杂一点的嘛,转XML吧,有个MS的SgmlReader类可以转,然后用xpath搞定吧(我做网页分析的时候最喜欢用的);要是遇到原HTML不完整或有错误转不成XML的话,只能用HTMLDocument了,这个好像只能是在WebBrower里面取到吧,有点重量级了,而且不能在命令行程序里用,不知道能不能把HTMLDocument单独搞出来用。 --------------------编程问答-------------------- 你有这方面的例子叫我参考下吗? --------------------编程问答-------------------- 我倒是有,呵呵,不过我出差了,手头没有,^_^,别易做图。
用c#webBrowser就可以提取内容。
我写过从网页上获取天气。存如数据库
补充:.NET技术 ,  C#
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,