当前位置:编程学习 > C#/ASP.NET >>

如何用VB.net采集网页信息?

我想采集贴吧的信息 我的思路是这样的: 1.得到网页源代码 2.正则表达式替换掉HTML语句等 3.分析并采集 在第一步我就遇到了问题 依靠网上的方法,我不能很好地得到网页源代码 不是出现乱码就是只能显示部分 请问这怎么解决? 有没有更好的采集网页信息的方法?
补充:有几百页呢,我不可能手工下载
答案:我前两天刚做过类似的事情,down了一个网站的产品库到数据库里。

第一步:把所有页面下载到本地
第二步:分析页面结构
第三步:通过正则表达式不断去掉没用的内容,找到规律做成2纬数组
第四步:当有二维数组的时候,就什么都有了。

上一个:我的机器真的没有办法按装vb.net了吗?
下一个:Vb.net中如何判断字段为空!!!

CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,