怎样获取新浪微博的内容?
最近要做关于微博的热点发现研究。需要获得大量微博内容数据。新浪api有调用次数限制。其他爬虫爬不到微博的信息。研究了下火车采集和metaseeker,都没成功。请问有什么好的方法和开源工具吗 --------------------编程问答-------------------- Parser parser;try {
URL url;
URLConnection conn = null;
try {
url = new URL("http://www.dianping.com/shop/2212912");
conn = url.openConnection();
conn.setRequestProperty( "User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows XP; DigExt)");
} catch (MalformedURLException e1) {
e1.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
parser = new Parser();
parser.setConnection(conn);
NodeFilter TagName = new TagNameFilter("div");
NodeFilter filterId = new HasAttributeFilter("class", "shop-info-inner Fix");
AndFilter filter = new AndFilter(TagName, filterId);
NodeList nodes = parser.parse(filter);
System.out.println(nodes.toHtml());
} catch (ParserException e) {
e.printStackTrace();
} --------------------编程问答--------------------
用Nutch吧 --------------------编程问答-------------------- 还真不知道! --------------------编程问答--------------------
先了解下Nutch,再试试,谢谢版主。
补充:云计算 , OpenAPI