列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。
列表索引页面:
你要开始采集的列表页。
列表开始/结束标记:
平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。
比如这是某一列表页面的主要部分代码:
<table width="98%" border="0" cellspacing="0" cellpadding="3">
<tr>
<td align="left" valign="top"><br>
<a href=><a href=>....省略
<a href=></td>
</tr>
</table>
红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。
列表索引分页:
(1)设置标签
列表索引页的部分代码如下:
<td height="24" align="center" bgcolor="#F6f7f8"> 1 <A HREF=><a href=>红色部分为分页开始/结束标记,只要这两个代码确定,不是不就可以确定“下一页”了?,剩下的交给程序来处理,有的填写:<A HREF=> 索引分页重定向:参考链接设置
(2)批量生成
如有些列表是这种形式:
第一页
http://www.it.com.cn/news/cyxw/yejie/index_1.html 第二页
http://www.it.com.cn/news/cyxw/yejie/index_2.html 第三页
http://www.it.com.cn/news/cyxw/yejie/index_3.html 那么可以这设置:{$ID}是必须的
原字符串:
http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html 生成范围:1--3
结果程序会生成:
http://www.it.com.cn/news/cyxw/yejie/index_1.html http://www.it.com.cn/news/cyxw/yejie/index_2.html http://www.it.com.cn/news/cyxw/yejie/index_3.html 这样的几个列表页面
(3)手动添加
输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。
(3)链接设置
链接开始/结束标记:
这里没设置好采集过程中可能会路途停止
部分代码
<table width="98%" border="0" cellspacing="0" cellpadding="3">
<tr>
<td align="left" valign="top"><br>
<a href=><a href=>....省略
<a href=></td>
</tr>
</table>
红色部分为链接开始/结束标记,注意:如果新闻标题的前面有栏目链接(包括其它的链接,就像上面这个有IT新闻、Pc新闻一样)的,开始标记必须往前延伸,我以前做的3.62版的录像中开始标记是href=> 链接的重新定位:
如果新闻的链接特殊,可使用本功能对新闻网址重新定位,比如有些代码可能是这样:
<a href=><a href=>....省略
<a href=> 把开始/结束标记设置为红色部分,点击一条新闻看它的真实网页地址,比如第一条新闻的地址是这样,
http://www.scuta.net/news.asp?id=1,那么绝对链接就设置为http://www.scuta.net/news.asp?id={$ID}就成了。