国内首款完全由国人自主研发的开源云平台 BDC 4.0 -- 新增了云索引、云检索、云中文分词
国内首款完全由国人自主研发的开源云平台 BDC 4.0 -- 新增了云索引、云检索、云中文分词BDC 4.0下载地址: http://pan.baidu.com/share/link?shareid=579097387&uk=1614272889
BDC 4.0 云平台分布是云索引、云检索 云中文分词配置说明
一、索引检索配置
首先配置一些基本参数和路径
在配置节:<WebSystem.Framework.Key>
下配置以下配置项:
1、<KeyInfo Key="PhysicaPath" Value="E:\sousuo\"/>
表示中文分词所在的目录,将压缩文件中的App_Data 文件夹拷贝到 所配置的目录中
注;没这个次库索引、检索都无易做图常执行
2、<KeyInfo Key="SEARCHIDX" Value="E:\sousuo\index\"/>
表示全文索引存储的目录
3、<KeyInfo Key="SNAPSHOT" Value="E:\sousuo\snapshot\"/>
表示快照文件存储的目录
4、<KeyInfo Key="BuildIndexRate" Value="5"/>
表示索引频率(分钟整数),建议范围 3 - 10,Value越大索引周期越长,但是IO效率将越高,
(2G以下内存建议使用 5分钟以下,太大高并发将导致内存溢出)
5、<KeyInfo Key="StartDocId" Value="0"/>
表示索引文档编号起始值(整数), 在索引的时候会自动增长,每次服务停止会自动记录下最后的编号,
考虑到分布式索引和检索,建议每个节点的间隔编号以4000000 为间隔,比如:
此节点起始编号是 0,那么下一个节点是 4000000,再下一个节点是 8000000
也就是说,每个节点建议最多索引 400万网页,当然要是你机器足够好,也可以适当调整。
注;单个节点机最多索引 10000000(1千万)网页
二、集群配置
BDC云平台在具体架设硬件集群的时候最好是将硬件划分逻辑层
如下图:
1号节点机 2号节点机 3号节点机
| | |
---------------- ---------------- ----------------
4 5 6 7 8 9 10 11 12
-------
13 14 15 ... ... ... ... ... ... ... ...
以此类推,这么做的好处就在于每个节点上下及不多,有效的减少了节点间的网络通信、有效的减少了上下层节点之间的Map - Reduce的计算时间和数据传输
在配置节:<WebSystem.Framework.Distributed 中进行配置
具体配置及参数说明请参见:
国内首款完全由国人自主研发的开源云平台 BDC 3.0 详解
http://blog.csdn.net/tengyunjiawu_com/article/details/8565766
注;BDC 3.0在集群配置上与 BDC 4.0没有做改动
基于 BDC 4.0的分布式集群的云寻觅索引、检索范例代码 下载地址
http://pan.baidu.com/share/link?shareid=580846343&uk=1614272889
参考范例网站: http://sousuo.yunxunmi.com/
当然目前的版本即便是单机性能也比测试网站性能强至少 10倍!
在30台PC上做了一周时间的测试,每台机器索引了200万的数据,共6000万模拟网页数据。
任意检索不超过 1秒, 发现目前在云检索的性能、相关性等方面上还有很多值得进一步优化的,因此希望大家多提宝贵意见,谢谢!
补充:.NET技术 , C#