当前位置:编程学习 > C#/ASP.NET >>

国内首款完全由国人自主研发的开源云平台 BDC 4.0 -- 新增了云索引、云检索、云中文分词

国内首款完全由国人自主研发的开源云平台 BDC 4.0 -- 新增了云索引、云检索、云中文分词

BDC 4.0下载地址: http://pan.baidu.com/share/link?shareid=579097387&uk=1614272889

 BDC 4.0 云平台分布是云索引、云检索 云中文分词配置说明

 一、索引检索配置 

    首先配置一些基本参数和路径

 在配置节:<WebSystem.Framework.Key>

下配置以下配置项:

  1、<KeyInfo Key="PhysicaPath" Value="E:\sousuo\"/>

     表示中文分词所在的目录,将压缩文件中的App_Data 文件夹拷贝到 所配置的目录中

     注;没这个次库索引、检索都无易做图常执行

   2、<KeyInfo Key="SEARCHIDX" Value="E:\sousuo\index\"/>

     表示全文索引存储的目录

  3、<KeyInfo Key="SNAPSHOT" Value="E:\sousuo\snapshot\"/> 

     表示快照文件存储的目录

   4、<KeyInfo Key="BuildIndexRate" Value="5"/>

     表示索引频率(分钟整数),建议范围 3 - 10,Value越大索引周期越长,但是IO效率将越高,

    (2G以下内存建议使用 5分钟以下,太大高并发将导致内存溢出) 

 

  5、<KeyInfo Key="StartDocId" Value="0"/>

     表示索引文档编号起始值(整数), 在索引的时候会自动增长,每次服务停止会自动记录下最后的编号, 

    考虑到分布式索引和检索,建议每个节点的间隔编号以4000000 为间隔,比如:

    此节点起始编号是 0,那么下一个节点是 4000000,再下一个节点是 8000000

    也就是说,每个节点建议最多索引 400万网页,当然要是你机器足够好,也可以适当调整。

    注;单个节点机最多索引 10000000(1千万)网页

 

二、集群配置 

    BDC云平台在具体架设硬件集群的时候最好是将硬件划分逻辑层

    如下图:

         

                       1号节点机               2号节点机               3号节点机 

                           |                       |                       |

                   ----------------         ----------------        ----------------

                   4       5      6         7      8       9        10     11      12

               -------

               13 14  15  ...     ...      ...    ...     ...      ...    ...      ...

 

以此类推,这么做的好处就在于每个节点上下及不多,有效的减少了节点间的网络通信、有效的减少了上下层节点之间的Map - Reduce的计算时间和数据传输

  

在配置节:<WebSystem.Framework.Distributed 中进行配置

具体配置及参数说明请参见:

国内首款完全由国人自主研发的开源云平台 BDC 3.0 详解
http://blog.csdn.net/tengyunjiawu_com/article/details/8565766

注;BDC 3.0在集群配置上与 BDC 4.0没有做改动

   

基于 BDC 4.0的分布式集群的云寻觅索引、检索范例代码 下载地址
http://pan.baidu.com/share/link?shareid=580846343&uk=1614272889


参考范例网站: http://sousuo.yunxunmi.com/
当然目前的版本即便是单机性能也比测试网站性能强至少 10倍!

  
在30台PC上做了一周时间的测试,每台机器索引了200万的数据,共6000万模拟网页数据。

任意检索不超过 1秒, 发现目前在云检索的性能、相关性等方面上还有很多值得进一步优化的,因此希望大家多提宝贵意见,谢谢!
补充:.NET技术 ,  C#
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,