Nutch 模块简单介绍
Nutch 的入口 是 : Crawl 。
主要模块:
1。Injector
将 入口 url 放入 crawldb 中。并初始化 crawldb。
2。Generator
读取crawldb中 的url,过滤出将要抓取的url列表,叫 fetchlist ,并生成相应的 segment。
3。Fetcher
将 fetchlist 作为 源,抓取页面,调用 parse 。
4。ParseSegment
分析页面(html/JS/CSS/PDF/World 等等,根据配置)得出 parse_data /parse_text / 外链。
5。CrawlDb(update)
由parse结果,更新crawldb。
6。LinkDb
分析 url 连接关系。
7。SolrIndexer
将数据传送给Solr。
补充:综合编程 , 其他综合 ,