当前位置:软件学习 > 其它软件 >>

LJParser文本搜索与挖掘开发平台

一、简介
LJParser文本搜索与挖掘开发平台包括:全文精准搜索,新词发现,汉语分词标注,词语统计与术语翻译,自动聚类与热点发现,分类过滤,自动摘要,关键词提取,文档去重,正文提取等十余项功能。针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
LJParser是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
二、功能
   LJParser文本搜索与挖掘开发平台的十大功能:
1. 全文精准检索
支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、易做图、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。
2. 新词发现:
从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。
3. 分词标注:
对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
4. 统计分析与术语翻译
针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。
5. 文本聚类及热点分析
能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
6. 分类过滤
针对事先指定的规则和示例样本,系统自动从海量文档中筛选出符合需求的样本。
7. 自动摘要
能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。
8. 关键词提取
能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。
9. 文档去重
能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
10. HTML正文提取
自动剔除导航性质的网页,剔除网页中的HTML标签和导航、广告等干扰性文字,返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。
三、文件说明
1. LJParser.exe 可执行文件,本版本为试用版本,大规模语料处理需要购买正式版
2. 演示语料 演示用语料,用户可替换,必须为文本文件,演示只支持GBK;正式版本可以支持UTF-8编码;
3. 各种dll为各组件的调用接口,本演示程序全部基于已有的调用接口实现;
4. 文档说明,参见当前目录下的
5. 易做图下载:http://www.lingjoin.com/download/LJParser%20Manual.doc
6. 软件下载:http://www.lingjoin.com/download/LJParser.rar
--------------------编程问答-------------------- "JZSearch精准搜索引擎简介:

JZSearch精准搜索引擎是灵玖中科软件(北京)有限公司专门针对专业细分搜索的需求而打造的一款互联网搜索引擎,它能够依据行业用户的细分特点,方便快捷地构建精、准、快的搜索服务。

JZSearch精准搜索引擎全面采用云计算架构,底层以Hadoop为分布式文件系统,业务处理流程采用Map-Reduce算法架构。在语义自动分类方面,采用了灵玖软件在自然语言理解、信息检索方面的先进技术成果,融合多年在信息发现整合方面的工作积累。

JZSearch精准搜索引擎支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、易做图、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。

JZSearch精准搜索引擎:更精、更准、更专业,是当前互联网精准搜索的一大利器。

JZSearch主要功能:

JZSearch精准搜索引擎具备:精准的信息采集、高效的实时分析、并行的信息索引、分布式的信息检索、方便的日志和维护等功能。


图2:JZSearch精准搜索引擎系统基于云计算平台的架构

精准的信息采集

JZSearch精准搜索引擎当前内置了多个行业的细分网站和专业词汇,基本覆盖了行业内绝大部分的网络空间;同时,JZSearch可以便利地添加任何需要检测的网站,只需要配置网站入口,剩下的事情全部由JZSearch自动实现。

JZSearch采集系统能够在网站和专业词汇的指导下,进行信息的精确采集。目前已经积累了上百万的信息资料,同时每天采集的各类信息数十万条。在采集服务器和带宽允许的情况下,信息延迟不超过3个小时。

专业化的信息搜索

1、支持无词典索引,支持搜索维语、藏语、蒙语、易做图、韩语等多种少数民族语言;

当前的搜索大部分都需要内置一部核心词库,而维语、藏语、蒙语、易做图、韩语等多种少数民族语言往往缺乏相关的电子资源,整理一部词典往往费时费力。JZSearch全文精准搜索引擎支持词典与无词典两种模式,无词典时,采用N-Gram模型,同样可以构建高速的索引与搜索。

2、支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索;

3、内置多种检索模型,支持多种排序策略,包括相关度、时序等;

4、全文索引压缩比约为1/4,大大减少了索引的开销,提高了所有效率;

5、支持丰富的查询语法,支持与、或、非以及邻近运算;支持的典型查询语法包括:

    Sample1: [FIELD] title [AND] 易做图 

    Sample2: [FIELD] title [AND] 易做图某部发生数百人感染甲流疫情

    Sample3: [FIELD] content [AND] 甲型H1N1流感

    Sample4: [FIELD] content [NEAR] 张雁灵 易做图 2

    Sample5: [FIELD] content [OR] 易做图 甲流

    Sample6: [FIELD] title [AND] 易做图 [FIELD] content [NOT] 甲流

    Sample6: [FIELD] title [AND] 易做图 [FIELD] datetime [RANGE] 2008-1-2 2010-1-1

6、可扩展性强:支持数据库的全文搜索,以及word, ppt, pdf, email等各种文档格式的搜索;可以便利地构建各类网络搜索引擎服务。

在JZSearch中输入搜索词,返回的结果都是跟专业领域密切相关的信息。例如,同样搜索"上涨",在汽车领域和金融领域,就体现完全不同的结果:


图3:汽车行业搜索结果例 


图4:金融行业搜索结果例

方便的运营维护

当JZSearch需要转变行业或专业领域时,只需要在配置页面中简单的更换网站列表和关键词汇,就可以快速的实现信息类型的转换。

JZSearch采用全自动的运行控制机制,系统一经启动,无须过多的运行管理,最大化的减轻运营负担。

JZSearch主要特色:

    * 采用先进的云计算平台,融入了Hadoop与Map-Reduce先进技术;

    * 更加精准专业的网站搜索范围

    * 更加贴近行业需求的语义知识库,比如专业术语

    * 更加方便快捷的搜索配置:提供网站列表和关键词即可

    * 无需任何技术、服务器、运维的投入,只需要经营

JZSearch性能环境:

    性能指标 

    本系统的性能主要由单机采集器的性能和需要处理的信息量决定。 

    单台采集器性能: 

        *采集网站数:1000个 

        *每秒采集页面数:35页 

        *平均占用带宽:1M-2M 

    索引和分析服务器: 

        *分词平均速度:20MB/s 

        *索引平均速度:10MB/s 

        *最大处理信息量:1TB 

运行环境:

  操作系统    Linux2.6及以上;也可支持Windows Server 
  关系数据库    MySQL5.0及以上,可定制为Oracle, SQL Server 
  应用服务器   Tomcat5.x及以上、WebSphere Server、WebLogic Server 
  集成应用系统平台   J2EE 
  浏览器   MS Internet Explorer 6.0 SP2以上 
  硬件配置   1台服务器即可 

补充:企业软件 ,  中间件
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,