预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共122页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

会计学5.1数据仓库的基本原理5.1.1数据仓库的概念1、数据仓库的概念1、数据仓库的概念操作型数据(DB数据)与 分析型数据(DW数据)之间的差别为:2、数据仓库特点2、数据仓库特点2、数据仓库特点2、数据仓库特点近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。 历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。 轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。 高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。元数据:整个数据仓库的组织结构由元数据组织,它不包含数据仓库中的实际数据信息。 作用: (1)定位数据仓库的目录内容 (2)数据从业务环境向数据仓库环境传递时数据仓库的目录内容 (3)指导从当前基本数据到轻度综合数据到高度综合数据的综合算法的选择。 组成: (1)数据结构 (2)用于综合的算法 (3)从业务环境到DW规划数据仓库结构图1.数据集市的产生 数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。 目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。 数据集市(DataMarts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。 数据集市是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案3.数据集市与数据仓库的关系1、规模小 2、特定的应用 3、面向部门 4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、工具集的紧密集成 10、更详细的、预先存在的数据仓库的摘要子集 11、可升级到完整的数据仓库 6.数据集市与数据仓库的差别元数据是数据仓库的重要组成部分。元数据描述了数据仓库的数据和环境,即关于数据的数据(metadata)。元数据就相当于数据库系统中的数据字典 元数据包括四种元数据 关于数据源的元数据 关于数据模型的元数据 关于数据仓库映射的元数据 关于数据仓库使用的元数据它是现有的业务系统的数据源的描述信息。这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为: (1)数据源中所有物理数据结构,包括所有的数据项及数据类型。 (2)所有数据项的业务定义。 (3)每个数据项更新的频率,以及由谁或哪个过程更新的说明。 (4)每个数据项的有效值。这类元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础。这类元数据可以支持用户从数据仓库中获取数据。 数据仓库的数据模型是星型模型。 通常企业数据模型被用作建立仓库数据模型的起始点,再对模型加以修改和变换。 这类元数据是数据源与数据仓库数据间的映射。 当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换、变换和加载过程3、关于数据仓库映射的元数据这类元数据是数据仓库中信息的使用情况描述。 数据仓库的用户最关心的是两类元数据: (1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。 (2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。 关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。5.2数据仓库系统1、数据仓库管理系统(3)管理部分 它用于管理数据仓库的工作,包括: 对数据仓库中数据的维护 把仓库数据送出给分散的仓库服务器或DSS用户 对仓库数据的安全、归档、备份、恢复等处理工作 (4)信息目录部件(元数据) 数据仓库的目录数据是元数据,由三部分组成: 技术目录:由定义部件生成,关于数据源、目标、清理规则、变换规则以及数据源和仓库之间的映象信息。 业务目录:由仓库管理员生成,关于仓库数据的来源及当前值;预定义的查询和报表细节;合法性要求等。 信息引导器:使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。 (5)DBMS部分 DW的存储形式仍为关系型数据库。分析工具集分两类工具: (1)查询工具 数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。 一般包含: 可视化工具:以图形化方式展示数据,可以帮助了解数据的结构、关系以及动态性。 多维分析工具(OLAP工具): 通过对信息的多种可能的观察形式进行快速、一致和交互性的存