当前位置:编程学习 > JAVA >>

有验证码的网站怎么自动抓取数据

最近在做一个网站的数据抓取,可是这网站有验证码,难道要把图片取下来,将图片识别为4个数字,用httpclient加上所有参数才能登陆。java在将图片解析为数字有方法没?网上百度了下说用ocr识别,不知道准确率是不是100%,java能将验证码识别为数字,完成用httpclient自动登陆吗? 验证码识别 抓取数据 --------------------编程问答-------------------- orc识别肯定是没有100%的,这不用怀疑。你说的思路只能就是做验证码识别了。
抓数据还有一些旁门左道,比如绕过验证码/绕过登陆等,访问实际数据所在地址。这需要你对此站点的业务以及请求做一定的测试和分析的
--------------------编程问答-------------------- 你可以把图片逆向成数字    --------------------编程问答-------------------- ORC的识别能力不是一般的弱,稍微有点扭曲的字体就不行了 --------------------编程问答-------------------- 估计很难哦。  --------------------编程问答-------------------- 就像这种验证码 ,不知道如何解析成数字 --------------------编程问答-------------------- 靠识别验证码的方法难度太大,一般网站验证码都应该是单独的,所以可以想办法绕过 --------------------编程问答--------------------
引用 5 楼 menglanxiang2 的回复:
就像这种验证码 ,不知道如何解析成数字


这种验证码太规则了,很好识别,先去噪点,然后分割成4个单独的数字,采集10个数字的图片,分别对比各个部分的匹配度就可以了。

网上有相关文章介绍的,我以前找的文章现在不知道怎么再找到了,这是类似的一个文章
http://www.cnblogs.com/yuanbao/archive/2007/09/25/905322.html
补充:Java ,  Java EE
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,