Java中文分词器Ansj

Ansj 是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。

介绍一下Ansj！
Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具，目标是“准确、高效、自由地进行中文分词”，可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域，支持行业词典、用户自定义词典。

你认为中文分词的难点是什么？
在这里说分词有点老生常谈了。的确，中文分词已经非常成熟了，但是之间有一些问题依旧比较难解。个人认为大致有以下几点吧：
1. 中文歧义的识别
比较出名的一句话“结婚的和尚未结婚的”，如果使用正向最大匹配，容易分成“结婚/的/和尚/未/结婚的”，于是有的学者试图倒过来识别，逆向匹配会大于正向。但是碰到这句“结合成分子时”，采用逆向最大匹配，则会分为“结合/成分/子时”，更有甚者像“咬了猎人的狗”这种语意不明的词语，就更不容易正确分词了。这是中文分词的软肋。下面是些典型的歧义句：
    交叉歧义（多种切分交织在一起）：内塔内亚胡说的/确实/在理
    组合歧义（不同情况下切分不同）：这个人/手上有痣、我们公司人手
    真歧义（几种切分都可以）：乒乓球拍/卖/完了、乒乓球/拍卖/完了
2. 实体名识别
这个是中文分词遇到的最大的难点，也是最最紧迫的。实体名识别包括人名识别、地名识别、机构名识别，还包括有监督识别和无监督识别。有监督的还好，无监督基本是无解的，比如“王大力发球”是“王大力”还是“大力发球”，一般人都难以识别。
3. 新词热词发现
目前常用的新词发现还是一个比较有研究性的课题，虽然有些论文在准确率很高，但是大多是封闭测试，这意味着结果很难应用到实际工程中。目前Ansj采用的新词发现方式比较简单，采用了高频词的匹配方式，不使用规则，用统计重复串识别新词，根据词性去掉干扰词，虽然有一定的效果，但还是差强人意。
4. 颗粒度问题
这个就是一个规则探讨的问题了，比如“北京大学”是“北京”+“大学”还是“北京大学”，人各有志，就连同一个人不同时间的标注也有可能是有区别的，虽然这个问题严格上来说不属于技术问题，但是对分词结果的评测却有着很大的关系，Ansj采用“能识别就识别”的策略方针，所以在真正R值的时候偏低，总之一句话，适合学术的不一定适合工业，反之亦然。

简单介绍一下Ansj分词用到的算法，其分词原理是什么？
Ansj并非我创新，可以说是一个ictclas的Java版本，基本原理一致，只不过在分词优化算法上做了一些改进。
该算法实现分词有以下几个步骤：
1、全切分，原子切分；
2、 N最短路径的粗切分，根据隐马尔科夫模型和viterbi算法，达到最优路径的规划；
3、人名识别；
4、系统词典补充；
5、用户自定义词典的补充；
6、词性标注（可选）

Ansj分词的准确率大概是多少？
这是我采用人民日报1998年1月语料库的一个测试结果，首先要说明的是这份人工标注的语料库本身就有错误。
    P（准确率）：0.984887218571267
    R（召回率）：0.9626488103178712
    F（综合指标F值）：0.9736410471396494
在歧义、未登录词问题上，Ansj表现怎样？
歧异方面的处理方式自我感觉还可以，基于“最佳实践规则+统计”的方式，虽然还有一部分歧异无法识别，但是已经完全能满足工程应用了。
至于未登录词的识别，目前重点做了中文人名的识别，效果还算满意，识别方式用的“字体+前后监督”的方式，也算是目前我所知道的效果最好的一种识别方式了。

Ansj的性能如何？
在我的测试中，Ansj的效率已经远超ictclas的其他开源实现版本。
核心词典利用双数组规划，每秒钟能达到千万级别的粗分。在我的MacBookAir上面，分词速度大约在300w/字/秒，在酷睿i5+4G内存组装机器上，更是达到了400w+/字/秒的速度。

如何添加自定义词典？
Ansj已经实现了用户自定义词典的动态添加删除，当然，也支持从文件加载词典。
从硬盘加载用户自定义词典的方法：
用户自定义词典默认路径：项目目录/library/userLibrary/userLibrary.dic
格式为：[自定义词] [词性] [词频]，如：csdn创新院 userDefine 1000，中间用TAB键隔开
原分词结果：[csdn，创新，院，是，一个，好，公司]
增加词典后：[csdn创新院，是，一个，好，公司]
详细内容见：用户自定义词典的添加
用户自定义词典的动态添加删除方法见：用户自定义词典的动态添加删除Demo

补充：软件开发 , Java ,