当前位置:编程学习 > C#/ASP.NET >>

开源自主研发搜索引擎,单机400万网页,任意50词以内检索不超过20毫秒

开源:完全自主研发搜索引擎1.0源代码及说明,单机400万网页全文索引,任意50词以内的检索不超过 20毫秒















搜索引擎1.0源代码、相关说明、下载地址如下:

1、Bwsyq.Search.Demo
    进行检索,就是常说的搜索引擎网站。提供检索服务。
    目前实现了:按关键词进行检索,实现了动态摘要、关键词高亮显示、自动分页、每页显示条目可自定义(默认每页显示10条检索结果)
    未实现功能:相关搜索关键词条显示、按相关度进行排序、快照、网页标题、采集时间、网页URL、并行集群检索
            其中:快照、网页标题、采集时间、网页URL 可根据实际情况自行实现
                  相关搜索关键词条显示、按相关度进行排序、并行集群检索 将在下一版提供
2、Bwsyq.Search.Index
    进行索引,就是常说的全文索引。
    
3、DemoDoc 目录中的 3500个txt文档是用来做索引测试的文档。测试的使用请放置在:D:\index\DemoDoc 也可根据实际情况在代码中修改  

4、index 目录中的.idx 文件是测试建立的索引文件。 测试的使用请放置在:D:\index\index 目录,也可根据事情情况修改配置文件
    
5、注意事项:
   A、目前索引存储路径是 D:\index\index\ 可在配置文件中根据实际情况对配置文件“App.config、Web.config”进行修改
      <KeyInfo Key="SEARCHIDX" Value="D:\index\index\"/>
   B、索引所需词库存储路径是 D:\index\  App_Data  可在配置文件中根据实际情况对配置文件“App.config”进行修改
   <KeyInfo Key="PhysicaPath" Value="D:\index\"/>  修改后将 App_Data文件夹及其中的文件全部拷贝到对应目录即可
   C、检索所需词库存存储路径是 网站项目中的 App_Data 目录,无须修改
   D、BwsyqIndex.dll 是核心库,采用C语言开发,可存放在system32目录,或项目运行的目录bin或release目录中。
   
6、目前提供的版本是2.0版,有如下性能指标:    
   A、单机可索引400万网页、
   B、普通PC: AMD 2.0、 7200转硬盘、2G内存每4分钟可索引1000页(已经做了html parse)的文本
   C、经实际测试任意50词以内的检索,检索运算不超过 20毫秒
   D、检索速度不会因为索引的多少而发生任何变化,索引速度也不会因为文档多少或文档大小而变慢
   E、开发工具VS2008,测试环境 windos7 + CPU(AMD 2.0)、 5400转300G硬盘、2G内存
   注:本版本单机索引限制在 400万网页,超过将不在执行索引。
   
7、本版本截止开发周期业余时间不到 3个周末和3个周日,期间还感冒了一周,所以有很多不完善的地方,请大家多指正。
   我会尽快根据大家提供的建议进行改善并提供改进后的新版本。
   
8、本软件完全属于本人自主创作,完全没有任何借鉴和第三方代码,您可以放心的用于学习和商业用途。

下载地址1:http://www.everbox.com/f/xkdvEM3eyrwYXp9yG4d2b7aawZ
下载地址2:http://www.everbox.com/f/xO8NFbNyW5frP5SXSlaTzNdDIf
下载地址3:http://www.everbox.com/f/XcC7HMzMD7PXRKkNZKEVLfLcEK
下载地址4:http://www.everbox.com/f/WXFsqChwLTbLmX2P6gQuQy1z51
下载地址5:http://www.everbox.com/f/Bi9izWoxroLcn9mBs3N2S4PBeG
下载地址6:http://www.everbox.com/f/Tf3XzMdLVXDcX233qirYPTkMvr

版权所有:未经许可不得转载,有任何疑问请与我本人联系 QQ 99923309 Mail:bwsyq@bwsyq.com 更多详情>> --------------------编程问答-------------------- 我想知道你的中文分词  准确性和性能怎么样 --------------------编程问答-------------------- 看着很厉害啊 --------------------编程问答-------------------- 欢迎分享 --------------------编程问答--------------------
引用 1 楼 datahandler 的回复:
我想知道你的中文分词  准确性和性能怎么样


这也是我关注的,看起来很牛!
看截图,关键字分词好像有点问题,有些词被忽略了? --------------------编程问答-------------------- 是啊,分词怎么样?够智能够准确吗? --------------------编程问答-------------------- 先看看再说。 --------------------编程问答-------------------- 据说这样的帖子会被推荐。。。留名。。。等待出名 。。。你懂得 --------------------编程问答-------------------- 欢迎分享 --------------------编程问答-------------------- 关注分词问题,下载下来看看 --------------------编程问答-------------------- 路过.. 看看! --------------------编程问答-------------------- 孙子兵法讲,搜不如不搜来的更快。 --------------------编程问答-------------------- 支持分享! --------------------编程问答-------------------- 收藏,学习! --------------------编程问答-------------------- C写的? --------------------编程问答-------------------- 学习下~~ --------------------编程问答-------------------- C# 开发的,没使用数据库啊 --------------------编程问答-------------------- 帮顶。。。。。。。。 --------------------编程问答-------------------- 收藏了 --------------------编程问答-------------------- 一看那名字,不就是以前发的那些广告吗 --------------------编程问答-------------------- 收藏中。。。 --------------------编程问答-------------------- 分词感觉不好 --------------------编程问答-------------------- 只是看看     --------------------编程问答-------------------- 占位出租 --------------------编程问答-------------------- 性能还不错 --------------------编程问答-------------------- 我做测试的时候,单机检索3000万网页,任意(50词)以内的搜索不超过50毫秒,担心大家说我吹牛,所以先开放一个400万网页的索引搜索代码,给大家观摩观摩! 

希望各位专家批评指正,多提宝贵意见,谢谢! --------------------编程问答-------------------- 先看看!! --------------------编程问答-------------------- 但愿:你 是 真 的 是 将 执 行 搜 索 引 擎 功 能 的 代 码 开 源,而 不 是 只 给 一 些 无 关 痛 痒 的 用 来 查 询 结 果 的 asp.net 代 码 忽 悠 人 的。 --------------------编程问答-------------------- --------------------编程问答--------------------
引用 27 楼 sp1234 的回复:
但愿:你 是 真 的 是 将 执 行 搜 索 引 擎 功 能 的 代 码 开 源,而 不 是 只 给 一 些 无 关 痛 痒 的 用 来 查 询 结 果 的 asp.net 代 码 忽 悠 人 的。

  --------------------编程问答-------------------- 绝大多数人不会去看。 --------------------编程问答-------------------- 支持简繁体和拼音输入查询吗 --------------------编程问答-------------------- 回去研究下 --------------------编程问答-------------------- 研究研究先。。。。。。 --------------------编程问答-------------------- 留名等火。。
用的非关系型数据库么。
希望不是只是把百度和谷歌的搜索内容结合在一起而已。。 --------------------编程问答-------------------- 哥不关心 --------------------编程问答-------------------- UP!!!!!! --------------------编程问答-------------------- 顶! --------------------编程问答-------------------- 楼主用的分词器用的是什么,建立索引机制是什么?

是lucene.net开发的吗 --------------------编程问答-------------------- --------------------编程问答--------------------
引用 38 楼 sandyxxx 的回复:
楼主用的分词器用的是什么,建立索引机制是什么?

是lucene.net开发的吗


同问! --------------------编程问答--------------------
楼主用的分词器用的是什么,建立索引机制是什么?

是lucene.net开发的吗 --------------------编程问答-------------------- 百度大大会挖你的,发财了你 --------------------编程问答-------------------- 有潜力 --------------------编程问答-------------------- 围观~ --------------------编程问答-------------------- 不管怎样,先定一下,然后下来研究学习。 --------------------编程问答-------------------- 速度!!!!相当快。。。。 --------------------编程问答-------------------- 为什么没有解释呢?

lucene.net吗? --------------------编程问答-------------------- 开源:完全自主研发搜索引擎1.0源代码及说明,单机400

万网页,任意50词以内的检索不超过 20毫秒

开源:基于百万商业圈.NET开发框架开发的并行带分词的

采集器

百万商业圈 .NET 开发框架2.0及开发框架API说明书

(BWFW)(含并行计算及中英文分词功能)

分享一点代码(小型C web开发框架),用C语言实现的一

个WEB 文件上传(含全部源代码)一


天心天字辈ERP全部PDK源代码到了我手上的后果 - 超越天心之WEB天云

大家看看我的BS的甘特图排程做的如何? 无刷新Ajax甘特

图 展示生产排程结果 演示

软件工程概述 - 企业架构 - IT企业做大做强之根本 - 之

我见

实践检验得出的真理:asp.net 项目在 linux mono上编译

需要修改的只有 3个地方

给大家漏一手本人亲自精心撰写的通用ajax框架,完全兼容 

IE FireFox各个版本!(附完整源码及完整范例)

开发了一个中文分词服务器(C语言开发+词库+源代码),最

大特色可以让javascript来调用!

用纯C语言写了一个HtmlParse(网页分析器)外带采集功能

,大小只有200K(免费+开源+操作示意图)
--------------------编程问答--------------------
引用 47 楼 rock_wu 的回复:
为什么没有解释呢?

lucene.net吗?


什么叫完全自主开发呢?还用得着解释吗?当然不是lucene
补充:.NET技术 ,  非技术区
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,