C#抓取网页数据问题

我写了一个小程序抓取网页上的内容。从数据库内读取出来2600条ID。然后循环读出其中的ID拼接到网站的URL中。再通过正则表达式匹配网页中的内容。将读到的数据存入数据库中。大致就这么一个流程。现在我的问题是运行了一次程序之后，只读取到了2100条ID的数据。还剩余500条没有抓取到。这500条中有的是没有数据的，有的是404的，这些我都能理解。不过有一些ID是可以查到数据的。当获取到这些正常的ID的HTML代码之后，程序用正则表达式来进行匹配，却没有匹配到数据。我以为是正则表达式的问题。就选了一个正常的ID来试验，结果原来的正则表达式又能获取到正确的内容。请问这是怎么回事啊。求教高手啊。 --------------------编程问答-------------------- 想做爬虫工具？ --------------------编程问答--------------------

引用 1 楼 rui_china 的回复:

想做爬虫工具？

是做的公司的一个项目是从网上抓数据放到我们的数据库里面。 --------------------编程问答-------------------- 不要依赖正则，自己写方法。以前我就用VB写过多找规律 --------------------编程问答-------------------- 多测试下正则在什么情况下失效的。。 --------------------编程问答-------------------- 不知道怎么回事。

但是你可以写一个“警报”功能。当得到了网页的html内容，但是没有解析出数据时，应该将日志记录下来！ --------------------编程问答-------------------- 无论如何，如果你不能准确地重现bug，是难以解决问题的。因此捕获问题的手法就比较重要。上csdn解决不了那类连你自己的难以重现、让别人猜测而拿不出具体数据的问题。 --------------------编程问答-------------------- 像这种应该是多线程做的。我怀疑你的程序在跑时，漏掉了。你可以把有抓取的id的网页记录下来，看是不是没分析到这些网页 --------------------编程问答-------------------- 最近在帮公司写一个比价的程序，跟你说的差不多。用了HtmlAgilityPack。

补充：.NET技术 ,  C#