当前位置:编程学习 > JAVA >>

如何提取网页中的信息

请问一下,如何用java来实现提取网页中table内的信息,比如说我知道一个网页的url,现在要把这个网页里的一张表里的信息提取出来然后再保存到另一张网页的另一个表格里,请问该如何做到,希望各位高手们不吝赐教 --------------------编程问答-------------------- 听起来挺复杂的,直接用IFrame把目标网页嵌过来算不算完成任务?

需要分成几步:
1、抓取目标站点的页面内容:Java代码需要用HttpClient这类组件包,将指定URL的网页GET过来,然后定位到目标Table;
2、解析表格内容:需要用一些HTML组件包来识别第一步抓取出来的HTML字符串,然后在其基础上来遍历Table内容会比较容易,否则就要自己写代码去遍历HTML字符串了;
3、写入自己的网页:这个只需要构造一个List之类的东西然后传递给JSP就行了吧,或者你喜欢Ajax+JSON也没啥问题。
--------------------编程问答-------------------- 用Javascript  直接指定网页对象就可以获取值 --------------------编程问答-------------------- HttpClient(抓HTML)+正则表达 --------------------编程问答-------------------- 突然发现有点被楼主的Java局限了思维,你这个需求本质上是不是想直接在浏览器页面上完成的?

如果是这样的话,过程仍然是3步,但第一步改为用Ajax去抓取目标网页,后面基本差不多但都是用JS实现。


另外,从你的说法上判断,你想要抓取的目标网页应该是另外一个站点的吧?如果是同一个站点,可以IFrame嵌进来,然后直接用JS实现跨框架操作对象。 --------------------编程问答-------------------- 类似于,用socket访问一个网页,然后当成xml进行解析就ok了。 --------------------编程问答-------------------- 抓取目的网站的网页信息,可以采用httpClient,下面的网址是httpClient的入门教程
http://www.ibm.com/developerworks/cn/opensource/os-httpclient/ --------------------编程问答-------------------- 右键查看源代码就可以,如果看不到就下载一个网站整站下载器下载下来再看 --------------------编程问答--------------------  用正则把表格内容读取到,在输出到另一个网页。
补充:Java ,  Web 开发
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,