C#获取网页信息 - 站长资源库

答案：分析页面源代码，结构化其中的数据（主要是字符串的处理和匹配，推荐正则表达式）
  或者用我的方法
  
 下面的程序是我自己写的，可以获取urls的网页源代码。你可以根据返回的tempstr，你再找到他读取数据那里的规律，再用Substring IndexOf LastIndexOf这些函数来截取你想要的内容保存到数据库，或者用
  正则表达式也可以。看你自己的熟悉程度了。 至于你要实时的，那你定期执行这个程序就可以了啊。你把已采集的地址存一下，以后采集保存前判断下有没有保存同样的数据就可以了。
  
 public string getfiles(string urls)
  {
  WebRequest wrq;
  HttpWebResponse wrp;
  
 wrq=HttpWebRequest.Create(urls);
  wrp=(HttpWebResponse)wrq.GetResponse();
  Stream resStream=wrp.GetResponseStream();
  StreamReader sr = new StreamReader(resStream, System.Text.Encoding.Default);
  string tempstr = sr.ReadToEnd();
  return tempstr;
  }
  
  
就是不知道怎么样把需要的代码从那么多的源html中独立出来?
  这种你可以用正则表达式，或者可以用循环来截取判断字符串在保存进数据库啊。substring indexof这些函数一起用
  
  
假如一个网站有多个目录，怎么让程序自动找到并下载？
  你采集他的文章列表页啊。再得到这些地址HttpRequest 对象获取
上一个：c#中关于线程的简单问题
下一个：C# sda.Update()
更多图片编程知识: