关于jsoup抓取的一些小问题 100分相送~
从百度视频找到酷6相关的url 然后抓取 就报以下错误然后写了个判断 如果不抓酷6就能一直走下去
其他的 视频网站就没事
可是 如果浏览器 去酷6的话 就米问题 说明没有被封ip
--------------------编程问答--------------------
org.jsoup.HttpStatusException: HTTP error fetching URL. Status=403, URL=http://v.ku6.com/show/FT4oJ3DNgAatXPdUuC2QWA...html
importjava.io.IOException;
importorg.jsoup.Jsoup;
importorg.jsoup.nodes.Document;
importorg.jsoup.nodes.Element;
importorg.jsoup.select.Elements;
public class Jsoup01 {
public static void main(String[] args) {
String getUrl = "http://www.open-open.com/jsoup/"; //指定网页地址
String g1 = ".grid >tbody>tr> td > strong > a"; //获取<ahref="***">***</a>规则
String g2 = "abs:href"; //获取URL的规则 try {
Document doc = Jsoup.connect(getUrl).timeout(60000).get(); System.out.println(doc.title());
Elements links = doc.select(g1); //获取<a href="***">***</a>列表
for (Element link : links) {
String bookURL = link.attr(g2); //获取完整URL地址
String bookTitle=link.text(); //获取URL标题
System.out.println(bookURL+" "+bookTitle); }
} catch (IOException e) {
e.printStackTrace(); } } }
--------------------编程问答-------------------- 设置下userAgent,伪装成浏览器就可以了
Jsoup.connect("http://v.ku6.com/show/FT4oJ3DNgAatXPdUuC2QWA...html").userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31");
补充:Java , Java EE