当前位置:编程学习 > 网站相关 >>

Nutch 模块简单介绍

Nutch 的入口 是 : Crawl 。

主要模块:

1。Injector

将 入口  url 放入 crawldb 中。并初始化 crawldb。

2。Generator

读取crawldb中 的url,过滤出将要抓取的url列表,叫 fetchlist ,并生成相应的 segment。

3。Fetcher

将 fetchlist 作为 源,抓取页面,调用 parse 。

4。ParseSegment

分析页面(html/JS/CSS/PDF/World 等等,根据配置)得出 parse_data /parse_text / 外链。

5。CrawlDb(update)

由parse结果,更新crawldb。

6。LinkDb

分析 url 连接关系。

7。SolrIndexer

将数据传送给Solr。

补充:综合编程 , 其他综合 ,
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,