《商务智能与数据挖掘-谢邦昌》第二章读书笔记

2.数据仓库

  数据仓库名字上来看是很好理解的。他与传统的数据库的不同在于。传统的数据库是未经整理后的一大堆数据集。而数据仓库是从数据库中萃取出来。经过整理,规划,建构而成的一个有系统的数据库的子集合。

2.1数据仓库特点:

  数据仓库的四个特点。

  1.面向主题(Subject Orient)。数据建立的着重点就是在于以重要的主题组件作为核心。作为建构的方向。数据需求者只要把谣言觉得相关主题数据,从数据库中攫取,整合之后就可以做研究之用。

  2.整合性(Integrated)各应用系统的数据需经过整合。以便利执行相关分析操作

  3.长期性(Time Variance) 为了执行趋势的分析。数据仓库系统需保留1-10年的历史数据。这与数据库为日常性的数据有所不同。

  4.稳定性(Non-Volatile)数据库可以被随时修改,但数据仓库基本上不会大动。只有内部人员会定期修改。但频率不会太多。也不允许用户做更新的动作。

  由于以上的几个特点。数据仓库必须通过一连串的程序才可建立。而不是说即买即用。。

2.2数据仓库架构

  数据源->整体数据仓库->部门性数据仓库->查询工具->终端用户

  数据仓库的建设过程:

  专业顾问通过与企业进行需求访谈,建立数据仓库的model,然后将企业内各种数据整合到数据库中,并建立前端分析数据的工具以及管理工具,这样的过程即为建立数据仓库的基本过程。

  1.设计(Design) 即数据仓库的数据Model设计,这部分是最重要的,若Model设计的不够周全或布里希那个,不管之后的报表设计如何精美,也可能跑出错误的信息。这也是需要有经验的专业顾问建立数据仓库的一个重要原因。

  2.整合(Integrate)即数据的整合转换过程,包含数据解释(Data Extraction) ,数据转换(Data Transformation)数据清理(Data Cleaning),数据加载(Data Loading)将各种来源的数据整理,转换并加载数据仓库中,程序编写较为繁杂,自动化处理困难,经常需要人工参与操作,大约占掉该项目60-70%的时间和人力。

  3.可视化(Visualize)即前端呈现给用户看的形式,例如数据挖掘(Data Mining) 即OLAP工具,用以呈现分析过的数据形式。

  4.调度(Administration)为管理的工具。

2.3建立数据仓库的原因和目的

  提高企业的竞争能力,降低成本,提高客户满意度。创造利润。

comments powered by Disqus