当前位置:编程学习 > JAVA >>

solr添加庖丁解牛

tomcat6.0 webserver下成功配置了solr。但是默认的分词为空格分词。我想使用庖丁解牛中文分词方法。该如何添加到solr中。网上说了构造如下类,也修改schema.xml的相关配置。但不知道编译好的类往哪里存放。还望指点! 
import java.io.Reader; 
import java.util.Map; 

import net.paoding.易做图ysis.易做图yzer.PaodingTokenizer; 
import net.paoding.易做图ysis.易做图yzer.TokenCollector; 
import net.paoding.易做图ysis.易做图yzer.impl.MaxWordLengthTokenCollector; 
import net.paoding.易做图ysis.易做图yzer.impl.MostWordsTokenCollector; 
import net.paoding.易做图ysis.knife.PaodingMaker; 

import org.apache.lucene.易做图ysis.TokenStream; 
import org.apache.solr.易做图ysis.BaseTokenizerFactory; 

public class ChineseTokenizerFactory extends BaseTokenizerFactory { 
    /** 
    * 最多切分 默认模式 
    */ 
    public static final String MOST_WORDS_MODE = "most-words"; 
  
    /** 
     * 按最大切分 
     */ 
    public static final String MAX_WORD_LENGTH_MODE = "max-word-length"; 
  
    private String mode = null; 

    public void setMode(String mode) { 
        if (mode == null || MOST_WORDS_MODE.equalsIgnoreCase(mode) 
                || "default".equalsIgnoreCase(mode)) { 
            this.mode = MOST_WORDS_MODE; 
        } else if (MAX_WORD_LENGTH_MODE.equalsIgnoreCase(mode)) { 
            this.mode = MAX_WORD_LENGTH_MODE; 
        } else { 
            throw new IllegalArgumentException("不合法的分析器Mode参数设置:" + mode); 
        } 
    } 

    @Override 
    public void init(Map<java.lang.String,java.lang.String> args) { 
        super.init(args); 
        setMode(args.get("mode").toString()); 
    } 

    public TokenStream create(Reader input) { 
        return new PaodingTokenizer(input, PaodingMaker.make(), 
                createTokenCollector()); 
    } 

    private TokenCollector createTokenCollector() { 
        if (MOST_WORDS_MODE.equals(mode)) 
            return new MostWordsTokenCollector(); 
        if (MAX_WORD_LENGTH_MODE.equals(mode)) 
            return new MaxWordLengthTokenCollector(); 
        throw new Error("never happened"); 
    } 
}  --------------------编程问答-------------------- 放在Solr的web应用目录的classes下面就可以了





 

新书推荐!清华出版社新书《搜索引擎零距离》 
http://www.china-pub.com/195494
本书作者主页: http://www.rayeen.com


 【内容简介】
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。.

本书的作者是一位资深的搜索引擎开发人员,书中对数据获取(网络信息挖掘)与数据检索(搜索引擎)两个方面作了深入的介绍。本书首先提出了一套“网络数据挖掘”的完整理论,并给出一个实际的智能爬虫系统,通过理论与实际的完整呈现,使读者能够对“网络数据挖掘”有一个比较具体的认识,然后介绍了一个专用程序语言IRS,并给出了这个语言的编译器以及虚拟机的实现方法。本书还通过对多个开源搜索引擎项目抽丝剥茧的细致分析,引出搜索引擎的一些基本原理与开发方法,并介绍了一个商业化搜索引擎的实例。本书的最后还结合一个Java框架介绍了一些软件设计思想。..

本书涉及网络数据挖掘、搜索引擎原理、编译原理、数据库原理、正则表达式、软件工程、设计模式、Ruby语言、HTTP协议等计算机科学与技术的知识,适合搜索引擎开发人员作为参考,也适合有一定计算机基础的读者阅读,以扩展视野。

本书的内容中,既有教科书式的理论阐述,也有“七天入门”式的实例解析,还有《Linux内核情景分析》风格的细致的代码分析,甚至还有一些英语文献翻译,从初学者到有一定经验的搜索引擎开发人员,各个层次的读者都能找到一些适合自己阅读的章节。... --------------------编程问答-------------------- 没研究过,帮楼主顶一下。 --------------------编程问答--------------------  public TokenStream create(Reader input) {  
  return new PaodingTokenizer(input, PaodingMaker.make(),  
  createTokenCollector());  
  }
   你这个方法不报错?
补充:Java ,  Java EE
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,