数据仓库学习笔记（二）

第二章数据仓库环境

    上一章的学习中，大体了解了什么是体系结构话环境，这一章就数据仓库的一些细节进行了讲解。

    这里我想对数据仓库下一个定义：数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。数据仓库是体系结构化环境的核心，是决策支持系统（DSS）处理的基础，与传统的数据环境相比，DDS分析员能够更容易的在数据库环境中进行工作。

    下面分开来讲一下我对数据仓库这四个特点的理解：

    1. 数据仓库的面向主题性。传统的操作型系统是围绕系统的功能性应用来进行组织的，例如对于一个保险公司来说，他的应用问题可能是人寿保险、健康保险、汽车保险、意外伤亡保险等，对于每一种保险，可能都会建立一张表用来存放相应应用主题的信息。

    而数据仓库的面向主题性则完全不同，它更倾向于按照主题来确定数据存放的方式，也就是我们俗称的主题域。例如上例中的保险公司，数据仓库可能会按照顾客、保险单、保险费、索赔等对所有类型的保险进行存储。

    2. 数据仓库的第二个显著特点是集成，在数据仓库的所有特性之中，集成是最重要的。很多时候，数据仓库的数据是从多个不同的数据源传送过来的，虽然抽取过来的数据从内容上讲是有联系的，但不同应用的设计人员在编码、命名习惯、物理属性、属性度量单位等方面都会存在差异，这就使得将数据导入到数据仓库之前必须对他们进行一致性处理。

    3. 数据仓库的第三个重要特性是非易失的。操作性系统的数据是会经常进行改变的，例如火车票的预定，每一个时刻余票的数量都是不一定的，所以某一个时间片段上余票信息是很容易失去的，但在数据仓库环境中，数据一般是不进行数据更新的，数据仓库中保存的是数据的历史状况。

    4. 数据仓库的最后一个特性是随时间变化。时变性的意思是数据仓库中的每个数据单元只是在某一时间是准确的。一些情况下，记录中会加入时间戳，而在另外一些情况下记录则包含一个事物的时间。总之，任何情况下，数据仓库的记录都会包含某种形式的时间标志用以说明数据在那一时刻是准确的，并且数据仓库的关键字结构总是包含时间元素。

    下面来讨论一下数据仓库设计中需要特别注意的两个方面。

    1. 粒度。粒度问题是设计数据仓库的最重要的方面。粒度指的是数据仓库中数据单元的细节程度或综合程度的级别，它会深刻的影响存放在数据仓库中的数据量的大小以及数据仓库所能回答的查询类型。

    下面举一个粒度设计的小例子：原始数据为一个顾客一个月中的所有通话细节，如果将所有的数据都存放到数据仓库中显然是不合适的，这样会导致数据仓库数据量的急剧增加，对于数据分析的效率将造成巨大的影响；但如果将这个月的通话信息进行一个整合，按照月份将具体的通话时间、费用等进行存放，数据量大大的降低，但与此同时会丢掉大量的详细信息，将来的DSS分析员只能对月份及以上的时间跨度进行数据分析，这样直接导致可供分析的选择大大降低。

    所以，根据具体情况，选择一个合适的粒度是十分重要的。在实际应用环境当中，更多使用的其实是双重粒度。具体的使用可以具体从网上搜索一下，在这里不进行详细的讲解了。

    2. 数据仓库中数据的第二个主要设计问题是分区。数据分区是指把数据分散到可独立处理的分离的物理单元当中去。在数据仓库中，围绕分区问题的焦点不是该不该分区而是该如何分区。

    数据分区使得数据可以在小的分开的离散单元中进行管理。这使得数据仓库中的数据装载变得简单，建立索引额更加顺畅，数据归档也变得容易。通常的情况下，分区是在应用层而非系统层进行的。

总结一下：数据仓库设计决策的两个重要方面：数据的粒度与分区。对于大部分机构来说，采用双重粒度是非常有意义的。