数据仓库学习笔记(一)
决策支持系统的发展决策支持系统(decision support system ,简称dss),可以为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者提高决策水平和质量,它是管理信息系统(mis)向更高一级发展而产生的先进信息管理系统。
数据仓库技术就是为更好的实现DDS而出现的。
对于操作性事务处理,大多采用传统开发模式(SDLC开发周期),其步骤为:先理解需求,然后进入设计和开发阶段,数据库的设计都是建立在有了具体的需求之上的。可以想象,不同的系统之间,需求必然也是不同的,每开发一个新的系统,都会根据各自的需求建立一个数据系统。在很多大型企业当中,他们所在使用的软件系统有很多,不同系统之间的实现方式、使用的数据库等都有可能存在差异,但对于决策者来说,当他需要将多个系统中的数据进行统计分析的时候,就会遇到很大的麻烦。合理的使用数据仓库技术,可以有效的解决操作性事务处理与分析性事务处理的矛盾。
数据仓库技术,将数据存储分为了四个层次:操作层、原子/数据仓库层、部门层、个体层。操作层数据只包含面向应用的原始数据,并且主要服务于高性能事务处理领域;数据仓库层只包含面向应用的原始历史数据;部门/数据集市层则是根据最终用户的需求为满足其特殊需要而建立的。(具体可以看下《数据仓库》第一章中对数据仓库体系结构化环境的讲解)
对于以上的体系结构,我理解为:操作层中的数据,就是操作型事务处理系统日常运行使用的数据(数据库/表);根据需求,定期的将操作层中的数据进行集成,传向数据仓库环境(这里的集成可以自己去查阅资料理解下,很重要的概念),集成的过程可以通过使用ETL工具来进行,可以提高效率;当需要进行数据分析系统的开发时,以数据为驱动,分析系统功能,抽取出所需要的数据放入部门/数据集市层;当有更细分的分析业务时,可以对部门层数据再次进行提取,放入个体层中,供分析使用。这样,各层之间的数据冗余就会大大降低。
总结一下,通过对第一章的学习,首先从整体上了解数据仓库是为了解决什么问题而产生的;进而通过分析数据仓库的体系结构层次了解数据仓库的体系原理;理解需求驱动开发与数据驱动开发的区别。