当前位置:编程学习 > C/C++ >>

由c和c++开发的ICTCLAS3.0中文分词技术源码

这可是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。 下载地址:http://ictclas.org/
答案:词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。所有涉及中文内容处理的系统,如果没有一个好的中文词法分析系统支持,正确率都会受很大影响。汉语自动智能分词是中文信息处理的基础与关键。所有涉及中文内容处理的系统,如果没有一个好的中文词法分析系统支持,正确率都会受很大影响。具体来说,汉语自动智能分词的主要应用领域包括: 
  1. 中文输入输出技术:连续语音识别、小键盘智能拼音输入、高自然度语音合成、视频文字识别、OCR;自动校对;高性能的汉字编码识别、简繁体智能转换
  2. 语言学分析:重复串分析、新词识别、句法分析、篇章分析、语义理解与歧义消解
  3. 文本挖掘:自动文摘、命名实体识别与信息抽取、文本分类、文本聚类、信息过滤、自动问答
  4. Web挖掘:信息检索(搜索引擎、问答式搜索引擎、面向行业的专业搜索引擎)、查询扩展
  5. 智能应用:机器翻译、外语辅助写作、用户兴趣发现、情报分析、垃圾邮件与垃圾短信过滤、有害(垃圾、诈骗、色情、反动)信息监控等
  6. 信息增值服务:商情信息自动抽取与统计分析,如房地产信息、产品采购与销售信息
  7. 中文词法分析又是一个非常困难的问题,其难点主要体现在以下几方面:
  8. 词语切分:由于汉语词语之间没有空格分开,需要从连续的汉字串中正确辨认汉语的词语,常见的歧义现象如:“的确切”可能是“的确/切”或者“的/确切”, “马上”可能是一个词表示很快,也可能是两个词“马/上”表示位置;这些类型的歧义现象在汉语中非常常见,会对汉语词语切分造成极大的干扰
  9. 未定义词识别:词典中不可能收录所有的词语,大量的人名、地名、机构名、外来语译名、新词语等等,如“王小山、十里堡、北京计算机研究所、瓦杰帕依、非典”等等,都需要通过软件来自动识别,而在汉语中这些未定义词没有空格作为边界,其组成成分又是有意义的普通汉字,因此识别难度很大
  10. 词性标注:汉语中词语兼类情况非常常见,比如说“领导”可以是动词、也可以是名词,要正确标注出每个词的词性,也有很多困难
  11. 虽然汉语词法分析的研究已经有了很长的历史,但在很多应用系统中,速度快的系统分词准确性不能达到实用化要求,准确率高的系统往往使用了大量的知识库,速度不能达到大规模应用的要求

上一个:一套php基于词频词典的机械中文分词技术引擎
下一个:HTTPCWS 是一款基于HTTP协议的开源中文分词系统

CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,