当前位置:编程学习 > C#/ASP.NET >>

C#获取网页信息

要求从一些网站中获取会员资料
请高手指教下怎么通过URL 截取HTML标签内容
万分感谢~!
答案:分析页面源代码,结构化其中的数据(主要是字符串的处理和匹配,推荐正则表达式)
或者用我的方法

下面的程序是我自己写的,可以获取urls的网页源代码。你可以根据返回的tempstr,你再找到他读取数据那里的规律,再用Substring IndexOf LastIndexOf这些函数来截取你想要的内容保存到数据库,或者用
正则表达式也可以。看你自己的熟悉程度了。 至于你要实时的,那你定期执行这个程序就可以了啊。你把已采集的地址存一下,以后采集保存前判断下有没有保存同样的数据就可以了。

public string getfiles(string urls)
{
WebRequest wrq;
HttpWebResponse wrp;

wrq=HttpWebRequest.Create(urls);
wrp=(HttpWebResponse)wrq.GetResponse();
Stream resStream=wrp.GetResponseStream();
StreamReader sr = new StreamReader(resStream, System.Text.Encoding.Default);
string tempstr = sr.ReadToEnd();
return tempstr;
}


就是不知道怎么样把需要的代码从那么多的源html中独立出来?
这种你可以用正则表达式,或者可以用循环来截取判断字符串在保存进数据库啊。substring indexof这些函数一起用


假如一个网站有多个目录,怎么让程序自动找到并下载?
你采集他的文章列表页啊。再得到这些地址
HttpRequest 对象获取

上一个:c#中关于线程的简单问题
下一个:C# sda.Update()

CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,