C#获取网页信息
要求从一些网站中获取会员资料请高手指教下怎么通过URL 截取HTML标签内容
万分感谢~!
答案:分析页面源代码,结构化其中的数据(主要是字符串的处理和匹配,推荐正则表达式)
或者用我的方法
下面的程序是我自己写的,可以获取urls的网页源代码。你可以根据返回的tempstr,你再找到他读取数据那里的规律,再用Substring IndexOf LastIndexOf这些函数来截取你想要的内容保存到数据库,或者用
正则表达式也可以。看你自己的熟悉程度了。 至于你要实时的,那你定期执行这个程序就可以了啊。你把已采集的地址存一下,以后采集保存前判断下有没有保存同样的数据就可以了。
public string getfiles(string urls)
{
WebRequest wrq;
HttpWebResponse wrp;
wrq=HttpWebRequest.Create(urls);
wrp=(HttpWebResponse)wrq.GetResponse();
Stream resStream=wrp.GetResponseStream();
StreamReader sr = new StreamReader(resStream, System.Text.Encoding.Default);
string tempstr = sr.ReadToEnd();
return tempstr;
}
就是不知道怎么样把需要的代码从那么多的源html中独立出来?
这种你可以用正则表达式,或者可以用循环来截取判断字符串在保存进数据库啊。substring indexof这些函数一起用
假如一个网站有多个目录,怎么让程序自动找到并下载?
你采集他的文章列表页啊。再得到这些地址HttpRequest 对象获取
上一个:c#中关于线程的简单问题
下一个:C# sda.Update()