C#抓取网页数据问题
我写了一个小程序抓取网页上的内容。从数据库内读取出来2600条ID。然后循环读出其中的ID拼接到网站的URL中。再通过正则表达式匹配网页中的内容。将读到的数据存入数据库中。大致就这么一个流程。现在我的问题是运行了一次程序之后,只读取到了2100条ID的数据。还剩余500条没有抓取到。这500条中有的是没有数据的,有的是404的,这些我都能理解。不过有一些ID是可以查到数据的。当获取到这些正常的ID的HTML代码之后,程序用正则表达式来进行匹配,却没有匹配到数据。我以为是正则表达式的问题。就选了一个正常的ID来试验,结果原来的正则表达式又能获取到正确的内容。请问这是怎么回事啊。求教高手啊。 --------------------编程问答-------------------- 想做爬虫工具? --------------------编程问答--------------------是做的公司的一个项目 是从网上抓数据放到我们的数据库里面。 --------------------编程问答-------------------- 不要依赖正则,自己写方法。以前我就用VB写过 多找规律 --------------------编程问答-------------------- 多测试下正则在什么情况下失效的。。 --------------------编程问答-------------------- 不知道怎么回事。
但是你可以写一个“警报”功能。当得到了网页的html内容,但是没有解析出数据时,应该将日志记录下来! --------------------编程问答-------------------- 无论如何,如果你不能准确地重现bug,是难以解决问题的。因此捕获问题的手法就比较重要。上csdn解决不了那类连你自己的难以重现、让别人猜测而拿不出具体数据的问题。 --------------------编程问答-------------------- 像这种应该是多线程做的。我怀疑你的程序在跑时,漏掉了。你可以把有抓取的id的网页记录下来,看是不是没分析到这些网页 --------------------编程问答-------------------- 最近在帮公司写一个比价的程序,跟你说的差不多。用了HtmlAgilityPack。
补充:.NET技术 , C#