当前位置:文档之家› 数据仓库技术简介

数据仓库技术简介

数据仓库技术简介
数据仓库技术简介

数据仓库技术概述

数据仓库技术

随着数据库技术的日趋成熟以及应用系统逐渐完善,无论是利用早期的RDB、Dbase,还是后来以其领先的核心技术日渐垄断关系数据库市场的Oracle、Sysbase、DB2,企业已经积累了大量的数据,这些数据信息为企业的发展提供了客观依据。毫无疑问,在竞争激烈的商业环境下,信息将是取胜的关键因素,决策者必须能快速可靠、随时自主地访问企业数据,才能有效地做出计划和决策。在这种需求牵引下,形成了数据仓库(Data Warehouse)的新概念、新技术。

1数据仓库的概念

数据仓库的提出是以关系数据库、并行处理和分布式技术的飞速发展为基础,是解决信息技术(IT)在发展中存在的拥有大量数据,而其中有用信息贫乏的综合解决方案。数据仓库是一种新的数据处理体系结构,是对企业内部各部门业务数据进行统一和综合的中央数据仓库。它为企业决策支持系统(DSS)和经理信息系统(EIS)提供所需的信息。它是一种信息管理技术,为预测利润、风险分析、市场分析以及加强客户服务与营销活动等管理决策提供支持的新技术。

数据仓库技术对大量分散、独立的数据库经过规划、平衡、协调和编辑

后,向管理决策者提供辅助决策信息,发挥大量数据的作用和价值。

概括地说,数据仓库是面向主题的(Subject-Oriented)、集成的(Integrated)、稳定的(Nonvolatile)、不同时间的(Timer-Variant)数据集合,用于支持经营管理中决策制订过程。

数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内容,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。

数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。

传统数据库用于事务处理,也称为操作型处理,是指对数据库联机进行

日常操作,即对一个或一组记录的查询和修改,主要面向企业特定的应用服务。用户关心的是响应时间、数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,它是解决决策支持系统的基础。

数据仓库的数据概念模型是数据的多维视图,它直接影响到前端工具、数据库的设计和联机分析处理(On Line Analytical Processing, OLAP)的查询引擎。在多维数据模型中,一部分数据是数字测量值,而这些数字测量值是依赖于一组维的,这些维提供了测量值的上下文关系。因此,多维数据视图就是这样一些由层次的维构成的多维空间中,存放着数字测量值。多维概念模型的另一个特点是对一个或多个维所做的集合运算。这些运算可以包括对于同样维所限定的测量值的比较。一般来说,时间维是一个有特殊意义的维,对决策中的趋势分析很重要。

针对多维模型产生了OLAP分析方法,包括以下三种:

(1)旋转:即将表格的横、纵坐标交换(x、y)→(y、x).

(2)上钻和下钻:对所关心的数据根据维的层次提升或降低观察的层次。(3)切片和切块:主要根据维的限定做投影、选择等数据库操作获得数据。

2数据仓库的数据组织

一个典型的数据仓库的数据组织结构如图所示:

数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需

要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为"粒度"。粒度越大,表示细节程度越低,综合程度越高。

高度综合级

轻度综合级

当前细节级

早期细节级

图1 DW数据组织结构

数据仓库中还有一种重要的数据--元数据(metadata)。元数据是"关于数据的数据",在数据库中,元数据是对数据库中各个对象的描述;在关系数据库中,这种描述就是对表、列、数据库、视图和其他对象的定义。从广义上讲,数据仓库元数据代表定义数据仓库对象的任何东西,无论是一个表、一个列、一个查询、一个商业规则,还是数据仓库内部的数据转移。

元数据是数据仓库中所有管理、操作数据的数据,是数据仓库的核心。数据仓库反映的是企业数据库的业务模型,其核心是管理元数据。数据仓库元数据被分成三类:

(1)管理元数据。它包括所有建立和使用数据仓库的信息,源数据库的描述,后端和前端工具选择,定义数据仓库的模式,综合数据、维和层次信息,预定义的查询和报表,数据集市的位置和内容,数据存储

的物理组织、分段,数据抽取、清洗、转换的规则,数据刷新的策略,数据存取的权限、用户等限定。

(2)业务元数据。这一部分有业务流程和定义,数据所有关系和存取控制策略。

(3)操作元数据。它是数据仓库在运行时的管理信息,记录数据在进行层次分析时的层次位置、现在数据仓库中的数据信息、监测信息(包括使用统计、错误报告等)。

数据仓库的数据组织方式共有三种:虚拟存储方式、基于关系表的存储和多维数据库存储方式。

虚拟存储方式是虚拟数据仓库的数据组织形式。没有专门的数据仓库来存储数据,数据仓库中的数据仍然在源数据库中,只是通过语义层工具根据用户的多维需求,完成多维分析的功能。这种方式组织比较简单,花费少,用户使用灵活。但同时这种方式也存在一个致命的缺点:当源数据库的数据组织比较规范,没有数据不完备、冗余,又比较接近于多维数据模型时,虚拟数据仓库的多维语义层就容易定义。而一般数据库的组织关系都比较复杂,数据库中的数据又有许多冗余和冲突的地方。在实际组织中,这种方式很难建立起为决策服务的有效数据支持。

关系型数据仓库的组织是将数据仓库的数据存储在关系型数据库的表

结构中,在元数据的管理下,完成数据仓库的功能。这种组织方式在建库时,有两个主要过程完成数据的抽取。首先要提供一种图形化的点击操作界面,

让分析员对源数据库的内容进行选择,定义多维数据模型。然后再编制程序把数据库中的数据抽取数据仓库的数据库中。

多维数据库的组织是直接面向OLAP分析操作的数据组织形式。这种数据库产品也比较多,实现方法不尽相同。其数据组织采用多维数据结构文件存储数据,相应有维索引及相应的元数据管理文件与数据相对应。

1)、维表

多维概念模型可以被多维数据库直接实现,然而,对于采用关系型OLAP 方式,则只能将多维概念模型和多维操作映射到关系和SQL查询上。

大多数数据仓库都采用星型模型来表示多维概念模型。数据库中包括一张事实表(Fact Table),另外对于每一维都有一张维表(Dimensional Table)。事实表中的每条元组都包括保证多维关系的指向各个维表的外键和一些相应的测量数据。维表中记录的是有关这一维的属性。

星型模型使OLAP的复杂查询可以直接通过各维的层次,执行比较、上钻、下钻等操作。在数据仓库中除了维表和事实表的数据之外,数据仓库中应当包含一些预处理过的综合数据。预综合数据的组织可以有两种形式:增加概括表方式和使用多重编码的方式。

这种数据组织方式存在数据冗余、多维操作速度慢的缺点。但这种数据组织方式是主流方案,大多数现存数据仓库集成方案都采用这种形式。

2)、多维数据库数据组织

各公司多维数据库产品的数据组织不完全相同,Arob公司的EESbase多

维数据库是一种具有代表性的产品。例如下面的这种组织方式,可以说明多维数据库的数据组织:用于分析的数据从关系数据库或关系数据仓库中抽取出来,被存放到多维数据库的超立方结构中—多维体。这各种多维体是以多维数组方式记录各数值测量值的具体值。相应各维有一定的记录维及维内层次的元数据结构。

这种数据组织方式消除了大量数据库表中的空穴造成的空间浪费,又没有了在每个元组中在存储的外键信息,而由统一的维与数组的对应系数来限定数据,大大减少了存储空间。

当使用多维数据库作为数据仓库的基本数据存储形式时,最主要的缺点是使以维为基本框架的存储空间大大减少,针对多维数据组织的操作算法,大大提高了多维分析操作的效率。但多维数据库产品还没有统一的标准,应用还较少。

3)、两种数据组织的等价性

关系数据库和多维数据库两种数据组织方法可以构成等价的多维数据模型。多种数据组织方法的等价性的数学依据是:多维空间中各点在离散坐标中一一对应于多维数组。

数据的存储同样是有层次性的。对一个系统的多维视图定义是存储方式的概念形式,是最高层次的模型。采用什么样的存储方式(即前面提到了关系数据库、多维数据库两种形式)是物理数据组织的最高层,它们都能实现对多维数据模型的存储。关系型数据库的组织形式和方式不尽相同。数据的

具体物理存储(如数据文件的结构、索引、编码等技术的采用)是物理存储的最底层技术和方法。对于数据文件的不同组织方法形成关系型数据库或多维数据库,这两种数据库又都能完成数据仓库的数据组织,即实现多维数据的存储。

4)、虚拟数据仓库

虚拟数据仓库(Virtual Data Warehouse),即构造一个透明的访问机制(Demand Driven),使用户以习惯的方式及时、直接地访问大型企业数据库。

虚拟数据仓库策略允许用户使用一些工具通过网络获取数据。因此这种方法最终会使提取和维护大量数据的开销最小。这种方法为用户提供了最多的非预先准备好的查询可能。

虚拟数据仓库是在应用层上进行研究的,其组织形式是用原有的关系表模拟多维数据。用户通过可视化的维定义工具,定义数据仓库中的各维,但在物理存储上并不实际进行数据仓库的组织,而只是在用户进行数据查询使用时,临时从网络和数据库中获取数据源定义的各维数据。由于采用虚拟的方式,无需建立大量的数据存储,虚拟的数据访问方式着眼于最终用户对数据的直接访问,其特点在于用户可以直接访问数据而无需做大量的分析和结构映射。

3数据仓库系统结构

数据仓库是在原有关系数据库基础上发展形成的,但不同于数据库系统

的组织结构形式,它从原有的业务数据库中获得的基本数据和综合数据被分成一些不同的层次。一般数据仓库的结构组成包括当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据。

当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。当前基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据,一般被转存于一些转换介质中,如磁带等。轻度综合数据是从当前基本数据中提取出来的,设计这层数据结构时会遇到“综合处理数据的时间段选取”、“综合数据包含哪些数据属性”和“内容”等问题。最高一层的数据十分精练,是一种准决策数据。

数据仓库系统是一个广义概念。整个系统包括从操作数据库和外部其他数据源的提取、转换工具、数据仓库数据部分(主要指构成数据仓库数据存储的数据库和数据仓库管理系统)、基于数据仓库的数据分析工具以及与以上各部分相关的管理综合部件,构成了整个数据仓库系统。

数据仓库系统所要完成的功能包括辅助用户设计建立数据仓库系统的数据组织和存储;管理、维护数据仓库的正常工作,即完成数据仓库服务器的管理,接受用户查询数据的请求,使数据仓库数据与操作数据库中的数据保持有效同步等工作;综合集成多种分析工具(包括数学统计分析工具、OLAP 多维分析工具、数据开采工具),完成用户根据决策需求对数据仓库的有效使用。

数据仓库系统的总体结构如图所示:

数据源外部数据源数据仓库管理元数据存储

抽取

变换

装载

刷新服务器数学分析工具OLAP查询工具数据

开采

工具

工具

数据仓库系统数据

数据数据

图2 数据仓库系统的总体结构

从图中可以看出数据仓库系统包括以下内容:

数据抽取和转换工具,它们可以完成对数据源的抽取、清洗、维护

等功能。

数据建模工具,用于建立数据仓库与源数据库间的概念模型。

模型、元数据。

能够支持高速存取、有效地支持多维数据模型的前端工具。

这样,整个数据仓库的组织大致分为三个部分:数据在进入数据仓库的存储体之前,包括源数据库、外部数据文件的清洗、变换、装载和刷新的工具,这是第一部分。第二部分是数据仓库的具体数据、元数据的存储和数据仓库服务器(包括数据库服务器和OLAP 服务器)。第三部分是基于数据仓库的查询工具,主要包括数学统计分析、OLAP 查询和数据开采三类工具。

数据仓库的建立首先是根据数据库(包括关系数据库和其他数据源)使用多维视图定义工具完成数据模型的设计,再通过“抽取”工具将数据库中

原始数据转入数据仓库的存储结构(有关数据库和多维数据库两种存储形式)中。这部分要完成清洗、变换和集成数据,将数据装载到数据仓库中,定期清理数据仓库,消除数据仓库与源数据库的不一致,清除失效数据等。在数据初次提取和以后数据同步时,需要花费的时间开销大,需要留出充裕的时间。而且,这一部分的程序可能是数据仓库中最难管理的,并且有可能是各类软件组成的集成体。数据仓库中另一个比较重要的部分是元数据管理部件。数据仓库中数据的存储和管理由多维数据视图来表现,是元数据的最主要部分。元数据存储有数据仓库的结构信息,相应也有一些工具程序完成对多维视图的定义,元数据的管理、存储,对整个数据仓库的检测和管理。数据仓库系统是为决策支持服务的,在数据仓库的数据存储建立以后,用户可以使用系统提供的多分析工具完成对数据的操作,获取个人需要的信息。4数据仓库的关键技术

与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库设计的技术咨询四个方面。

1)数据的抽取

数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、

增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。

在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有一些是躲不开编程的,但整体的集成度还很不够。目前市场上所提供的大多是数据抽取工具。这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据抽取的代码。但数据抽取工具支持的数据种类是有限的;同时数据抽取过程涉及数据的转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌入用户编程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一定使用抽取工具。整个抽取过程能否因工具的使用而纳入有效的管理、调度和维护则更为重要。从市场发展来看,以数据抽取、异构互连产品为主项的数据仓库厂商一般都很有可能被其它拥有数据库产品的公司吞并。在数据仓库的世界里,它们只能成为辅助的角色。

2)、数据的存储和管理

数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析

数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和

产品来看,只有关系数据库系统能够担当此任。关系数据库经过近30年的发展,在数据存储和管理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个GB甚至到TB的数据已是一件平常的事情。一些厂商还专门考虑大数据量的系统备份问题,好在数据仓库对联机备份的要求并不高。

数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。

在针对数据仓库的TPC-D基准测试中,比以往增加了一个单用户环境的测试,成为"系统功力"(QPPD)。系统的并行处理能力对QPPD的值有重要影响。目前,关系数据库系统在并行处理方面已能做到对查询语句的分解并行、基于数据分割的并行、以及支持跨平台多处理机的群集环境和MPP环境,能够支持多达上百个处理机的硬件系统并保持性能的扩展能力。

数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针

对关系数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。普通关系数据库采用B树类的索引,对于性别、年龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入了位图索引的机制,以二进制位表示字段的状态,将查询过程变为筛选过程,单个计算机的基本操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往极不均匀,普通查询优化器所得出得最佳查询路径可能不是最优的。因此,面向决策支持的关系数据库在查询优化器上也作了改进,同时根据索引的使用特性增加了多重索引扫描的能力。

以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作,而连接操作对于关系数据库来说是一件耗时的操作。扩充的关系数据库中对连接操作可以做预先的定义,我们称之为连接索引,使得数据库在执行查询时可直接获取数据而不必实施具体的连接操作。数据仓库的查询常常只需要数据库中的部分记录,如最大的前50家客户,等等。普通关系数据库没有提供这样的查询能力,只好将整个表的记录进行排序,从而耗费了大量的时间。决策支持的关系数据库在此做了改进,提供了这一功能。此外,数据仓库的查询并不需要像事务处理系统那样精确,但在大容量数据环境中需要有足够短的系统响应时间。因此,一些数据库系统增加了采样数据

的查询能力,在精确度允许的范围内,大幅度提高系统查询效率。

总之,将普通关系数据库改造成适合担当数据仓库的服务器有许多工作可以做,它已成为关系数据库技术的一个重要研究课题和发展方向。可见,对于决策支持的扩充是传统关系数据库进入数据仓库市场的重要技术措施。

数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数据仓库领域遇到的最严峻的挑战之一。用户在使用数据仓库时的访问方式与传统的关系数据库有很大的不同。对于数据仓库的访问往往不是简单的表和记录的查询,而是基于用户业务的分析模式,即联机分析。如图所示,它的特点是将数据想象成多维的立方体,用户的查询便相当于在其中的部分维(棱)上施加条件,对立方体进行切片、分割,得到的结果则是数值的矩阵或向量,并将其制成图表或输入数理统计的算法。

选择

选择

数据

选择

表示

图 3联机分析数据处理示意图

关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发展的早期,人们发现采用关系数据库去实现这种多维查询模式非常低效、查询处理的过程也难以自动化。为此,人们提出了多维数据库的概念。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,它不是关系型数据库,在使用时需要将数据从关系数据库中转载到多维数据库中方可访

问。采用多维数据库实现的联机分析应用我们称之为MOLAP。多维数据库在针对小型的多维分析应用有较好的效果,但它缺少关系数据库所拥有的并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。这种状态由"星型模式"在关系数据库设计中得到广泛的应用才彻底改变。几年前,数据仓库专家们发现,关系数据库若采用"星型模式"来组织数据就能很好地解决多维分析的问题。"星型模式"只不过是数据库设计中数据表之间的一种关联形式,它的巧妙之处在于能够找到一个固定的算法,将用户的多维查询请求转换成针对该数据模式的标准SQL语句,而且该语句是最优化的。"星型模式"的应用为关系数据库在数据仓库领域打开绿灯。采用关系数据库实现的联机分析应用称为ROLAP。目前,大多数厂商提供的数据仓库解决方案都采用ROLAP。

在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支持扩充的并行关系数据库将是数据仓库的核心。在市场上,数据库厂商将成为数据仓库的中坚力量。

3)、数据的表现

数据表现是数据仓库的门面。这是一个工具厂商的天下。它们主要集中在多维分析、数理统计和数据挖掘方面。

多维分析是数据仓库的重要表现形式,由于MOLAP系统是专用的,因此,关于多维分析领域的工具和产品大多是ROLAP工具。这些产品近两年来更加注重提供基于Web的前端联机分析界面,而不仅仅是网上数据的发布。

数理统计原本与数据仓库没有直接的联系,但在实际的应用中,客户需要通过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似,数据挖掘与数据仓库也没有直接的联系。而且这个概念在现实中有些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据之中的规律。这听起来虽然很吸引人,但在实现上却有很大的出入。市场上许多数据挖掘工具其实不过是数理统计的应用。它们并不是真正寻找出数据的规律,而是验证尽可能多的假设,其中包括许多毫无意义的组合,最后由人来判断其合理性。因此,在当前的数据仓库应用中,有效地利用数理统计就已经能够获得可观的效益。

4)、数据仓库设计的技术咨询

在数据仓库的实施过程中,有一些更为基本的问题需要解答。它们包括:数据仓库提供哪些部门使用不同的部门怎样发挥数据仓库的决策效益数据仓库需要存放哪些数据这些数据以什么样的结构存放数据从哪里装载装载的频率多少为合适需要购置哪些数据管理的产品和工具来建立数据仓库等等。这些问题依赖于特定的数据仓库系统,属于技术咨询的范畴。事实上,数据仓库决不是简单的产品堆砌,它是综合性的解决方案和系统工程。在数据仓库的实施过程中,技术咨询服务至关重要,是一个不可缺少的部分,它甚至于比购买产品更为重要。目前,数据仓库的技术咨询主要来自数据仓库软件产品的供应商和独立的针对数据仓库技术的咨询公司。

5数据仓库技术发展技术发展

数据集成技术是数据库技术发展的一个必然结果,已经受到各大软件厂商的极大关注,已经成为信息技术的一个热点技术。从数据库技术到数据仓库技术,从数据仓库技术到数据(信息、应用)集成技术。

计算机技术,尤其是数据库技术的发展为DSS提供了技术支持;激烈的市场竞争促进了高层次决策人员对DSS的实际需求。两方面的共同作用,促成了以数据挖掘(Data Mining 简称DM)为核心、以OLAP和DM工具为手段建设DSS的可行方案。数据仓库(DW)技术的发展需要以下数据库技术的支持。

(1)高性能数据库服务器 DW的应用不同于传统DB的OLTP应用。传统DB的应用是操作型的,而DW的应用是分析型的,它需要高性能的DBMS核心的支持,以使较快地获得分析结果,这通常需数秒至数分钟。虽然比OLTP的响应时间长一些,但由于分析型应用涉及的数据量大,查询要求复杂,因此,对DBMS核心的性能要求更高,同DBMS必须具有良好的查询优化机制。

(2)并行数据库技术 DW中的数据量大,而且随着时间的延长,新的数据还会不断进入。DW中的数据库通常是GB甚至TB级的,可谓是超大规模数据库(VLDB)。而并行数据库技术是存储和管理VLDB,并提供对VLDB复杂查询处理的有效技术。

(3)数据库互操作技术 DW中的数据大多来自企业或行业中业已运行的OLTP数据库或外部的数据源。这些数据库常常是异构的,甚至是文件系统中的数据。DW必须从这些异构数据源中定期抽取、转换和集成所需要的数据,

并把它们存入DW中。因此,异构数据源之间的互访和互操作技术是必需的。

数据仓库模型的设计

2.5数据仓库模型的设计 数据仓库模型的设计大体上可以分为以下三个层面的设计151: .概念模型设计; .逻辑模型设计; .物理模型设计; 下面就从这三个层面分别介绍数据仓库模型的设计。 2.5.1概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。 1.界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前: . 要做的决策类型有哪些? . 决策者感兴趣的是什么问题? . 这些问题需要什么样的信息? . 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。 2,确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内

数据仓库与数据挖掘

数据仓库与数据挖掘 摘要 数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念.做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。用Data Miner作为对数据挖掘的工具,给出了应用于医院的数据仓库实例。指出了数据挖掘技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性,为支持医院管理者的分析决策作出了积极探索。 Abstract The Data Mine is a burgeoning technology,the research about it is developing flourishing.In this paper,it expatiates and analyses the concepts of Data Warehouse and Data Mine Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.The data warehouse supports the mass data on the further handling and recycling.The paper points out the use of data mining in patient charge control,medical quality control, hospital resources allocation management. It helps the hospital to make decisions positively 关键字:数据仓库;数据挖掘;医院信息系统 Key words:Data Warehouse;Data Mine;Hospital information system

数据仓库建设方案

1.数据仓库概述 经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

2. 全域数据库总体架构 边防一体化其他XML Excel Web 服务消息队列文本数据智能传感器 虚拟传感器摄像头全域数据库总体架构 全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。 数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的

数据仓库技术简介13页

数据仓库技术简介 数据仓库是近年来兴起的一种新的数据库应用。在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品是,业界掀起了数据库热。比如INFORMIXGONGSIDE公司的数据仓库解决方案;ORACLE公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(VLDB),数据工程国际会议(Data Engineering)等,都出现了专门研究数据仓库(Data Warehousing,简记为DW)、联机分析处理(On-Line Analytical Processing,简记为OLAP)、数据挖掘(Data Mining, 简记为DM)的论文。对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。本章将简要介绍一下用到的数据仓库技术背景,并在下一章结合数据清理系统设计实例,更深一步阐述数据仓库技术在现实中的重大意义 一.从数据库到数据仓库 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。而传

统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。 近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(Data Warehousing,简称DW)。作为决策支持系统(Decision-making Support System,简称DSS),数据仓库系统包括: ①数据仓库技术; ②联机分析处理技术(On-Line Analytical Processing,简称OLAP); ③数据挖掘技术(Data Mining,简称DM); 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。 1.什么是数据仓库 业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程 数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓

数据仓库的粗略发展历程

数据仓库的粗略发展历程及相关概念 1.1 概述 数据仓库的概念可能比一般人想像的都要早一些,中间也经历比较曲折的过程。其最初的目标是为了实现全企业的集成(Enterprise Integration),但是在发展过程中却退而求其次:建立战术性的数据集市(Data Marts)。到目前为止,还有很多分歧、论争,很多概念模棱两可甚至是彻底的让人迷惑。本文试图从数据仓库的发展历史中看到一些发展的脉络,了解数据仓库应该是怎么样的,并展望一下未来的数据仓库发展方向。 同时,由于新应用的不断出现,出现了很多新的概念和新的应用,这些新的应用如何统一现成完整的企业BI应用方案还存在很多争论。本文试图对这些概念做一些简要的阐述,让大家对此有初步的了解。 1.2 粗略发展过程 1.2.1 开始阶段(1978-1988) 数据仓库最早的概念可以追溯到20世纪70年代MIT的一项研究,该研究致力于开发一种优化的技术架构并提出这些架构的指导性意见。第一次,MIT的研究员将业务系统和分析系统分开,将业务处理和分析处理分成不同的层次,并采用单独的数据存储和完全不同的设计准则。 同时,MIT的研究成果与80年代提出的信息中心(Information Center)相吻合:即把那些新出现的、不可以预测的、但是大量存在的分析型的负载从业务处理系统中剥离出来。但是限于当时的信息处理和数据存储能力,该研究只是确立了一个论点:这两种信息处理的方式差别如此之大,以至于它们只能采用完全不同的架构和设计方法。 之后,在80年代中后期,作为当时技术最先进的公司,DEC已经开始采用分布式网络架构来

支持其业务应用,并且DEC公司首先将业务系统移植到其自身的RDBMS产品:RdB。并且,DEC公司从工程部、销售部、财务部以及信息技术部抽调了不同的人员组建了新的小组,不仅研究新的分析系统架构,并要求将其应用到其全球的财务系统中。该小组结合MIT的研究结论,建立了TA2(T echnical Architecture 2)规范,该规范定义了分析系统的四个组成部分: ?数据获取 ?数据访问 ?目录 ?用户服务 其中的数据获取和数据访问目前大家都很清楚,而目录服务是用于帮助用户在网络中找到他们想要的信息,类似于业务元数据管理;用户服务用以支持对数据的直接交互,包含了其他服务的所有人机交互界面,这是系统架构的一个非常大的转变,第一次将交互界面作为单独的组件提出来。 1.2.2 全企业集成(Enterprise Intergration,1988) 同时,IBM也在处理信息管理不同方面的问题,其最烦人的问题是不断增加的信息孤岛,IBM 的很多客户要面对很多分立系统的数据集成问题,而这些系统有不同的编码方式和数据格式。1988年,为解决全企业集成问题,IBM爱尔兰公司的Barry Devlin 和Paul Murphy第一次提出了“信息仓库(Information Warehouse)”的概念,将其定义为:“一个结构化的环境,能支持最终用户管理其全部的业务,并支持信息技术部门保证数据质量”,并在1991年在DEC TA 2的基础上把信息仓库的概念包含进去,并称之为VITAL规范(virtually integrated technical architecture life cycle),将PC、图形化界面、面向对象的组件以及局域网都包含在VITAL 里,并定义了85种信息仓库的组件,包括数据抽取、转换、有效性验证、加载、Cube开发和图形化查询工具等。但是IBM只是将这种领先的概念用于市场宣传,而没有付诸实际的架构设计。这是IBM有一个领域上创新后停止不前导致丧失其领先地位。 因此,在90年代初期,数据仓库的基本原理、框架架构,以及分析系统的主要原则都已经确定,

《数据仓库与数据挖掘技术》第1章:数据仓库与数据挖掘概述

数据仓库与数据挖掘技术

第1章数据仓库与数据挖掘概述1.1数据仓库引论1 1.1.1为什么要建立数据仓库1 1.1.2什么是数据仓库2 1.1.3数据仓库的特点7 1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤11 1.1.5分析数据仓库的内容12 1.2数据挖掘引论13 1.2.1为什么要进行数据挖掘13 1.2.2什么是数据挖掘18 1.2.3数据挖掘的特点21 1.2.4数据挖掘的基本过程与步骤22 1.2.5分析数据挖掘的内容26 1.3数据挖掘与数据仓库的关系28 1.4数据仓库与数据挖掘的应用31 1.4.1数据挖掘在零售业的应用31 1.4.2数据挖掘技术在商业银行中的应用36 1.4.3数据挖掘在电信部门的应用40 1.4.4数据挖掘在贝斯出口公司的应用42 1.4.5数据挖掘如何预测信用卡欺诈42 1.4.6数据挖掘在证券行业的应用43 思考练习题一44

1.1.1为什么要建立数据仓库 数据仓库的作用 建立数据仓库的好处

1.1.2 什么是数据仓库 1.数据仓库的概念 W.H.Inmon在《Building the Data Warehouse》中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。 “DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。” “DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。” 数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。 数据仓库是大量有关公司数据的数据存储。 仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库 是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。 定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最 后,数据仓库为最终用户提供了可用来存取数据的工具。

数据仓库技术及实施

数据库与信息管理 电脑知识与技术 1引言 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,数据处理可划分为两大类:操作型处理(OLTP)和分析型处理(统计分析)。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。而传统数据库系统利于应用的日常事务处理工作,而难于实现对数据分析处理要求,更无法满足数据处理多样化的要求。因此,专门为业务的统计分析建立一个数据中心,它是一个联机的系统,专门为分析统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。 2数据仓库概念及发展 2.1什么是数据仓库 数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。 2.2相关基本概念 2.2.1元数据 元数据(metadata):是“关于数据的数据”,相当于数据库系统 中的数据字典,指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种信息,而且整个数据仓库的运行都是基于元数据的,如修改跟踪数据、抽取调度数据、同步捕获历史数据等。 2.2.2OLAP(联机分析处理On-lineAnalyticalProcessing)数据仓库用于存储和管理面向决策主题的数据,OLAP对数据仓库中的数据分析,并将其转换成辅助决策信息。OLAP的一个 重要特点是多维数据分析,这与数据仓库的多维数据组织正好形 成相互结合、相互补充的关系。OLAP技术中比较典型的应用是对多维数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关数据,其基本思想是:企业的决策者应能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。对OLAP进行分类,按照存储方式的不同,可将 OLAP分成ROLAP、MOLAP和HOLAP;ROLAP没有大小限制;现 有的关系数据库的技术可以沿用;可以通过SQL实现详细数据与概要数据的储存;现有关系型数据库已经对OLAP做了很多优 化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQl的OLAP扩展等大大提高了ROALP的速度;可以针对SMP或MPP的结构进行查询优化。 一般比MDD响应 速度慢;只读、不支持有关预算的读写操作;SQL无法完成部分计算,主要是无法完成多行的计算,无法完成维之间的计算。 MOLAP性能好、 响应速度快;专为OLAP所设计;支持高性能的决策支持计算;复杂的跨维计算;多用户的读写操作;行级的计算。增加系统复杂度,增加系统培训与维护费用;受操作系统平台中文件大小的限制,难以达到TB级;需要进行预计算,可能导致数据爆炸;无法支持维的动态变化;缺乏数据模型和数据访问的标准。 HOLAP综合了ROLAP和MOLAP的优点。它将常用的数据存储为MOLAP,不常用或临时的数据存储为ROLAP,这样就兼顾 了ROLAP的伸缩性和MOLAP的灵活、纯粹的特点。 收稿日期:2006-03-24 作者简介:赵方(1979-),女,浙江杭州人,浙江树人大学助教,硕士在读,主要从事教学、科研工作,以数据库应用、信息管理为主要研究方向。 数据仓库技术及实施 赵 方 (浙江树人大学,浙江杭州310015) 摘要:介绍了数据仓库的基本概念,针对数据仓库建立对创建数据仓库的过程进行了分析,对实现数据抽取、数据仓库的存储和管理等进行分析和比较。 关键词:数据仓库;联机分析处理;数据抽取;数据存储中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2006)17-0032-02 ResearchofDataWarehouseTechnology ZHAOFang (ZhejiangShurenUniversity,Hangzhou310015,China) Abstract:Inthispaper,theinternalcharacteristicsofDataWarehouseareintroduced.AnalyzedtheprocedureofintegratedDataWarehouseandbuildingthedatawarehouse,DataExtract,DataWarehouseStorageandhowtomanagetheDataWarehouse. Keywords:DataWarehouse;OLAP(On-lineAnalyticalProcessing);DataExtractTransformLoad;DataStorage 32

数据仓库技术及其在金融行业的应用

数据库技术及其在金融行业的应用 1. 前言 数据库仓库(DW)技术从1991年开始出现,经过多年的摸索和应用,目前在一些发达国家已经建设得比较成熟,为企业综合与灵活的分析型应用提供了强大的数据支撑,为管理层的分析决策和操作层的智能营销提供了技术保证,为企业带来了多方面的收益。而在国内,数据库仓库仍处于尝试或初级建设阶段。 国内的金融行业,随着外部监管和信息披露的压力、内部管理和决策分析的需要,在建设分析类应用时,也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除信息孤立、支持综合分析和灵活及时的分析型应用、适应管理和发展、提高业内竞争力。 本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现状做一个简单分析。 2. 数据仓库概念 2.1. DW的提出 2.1.1. 需求 业务系统的建设与逐渐完善,巨量数据信息的积累。 分析类需求不断增加,传统分析类应用造成巨大的资源浪费和管理困难。 业务数据平台异构、数据来源口径多、标准不统一、信息孤立。 整合部门级应用,建设企业级应用,满足综合分析、复杂查询、智能营销等高级需求。 2.1.2. DW概念的提出 MIT在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采用完全不同的架构和设计方法。 1988年,IBM为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范。但没有进行实际的设计。 1991年,Bill Inmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。

数据仓库建设方案84099

1. 数据仓库概述 经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

2. 全域数据库总体架构 核心业务边防一体化其他XML Excel Web 服务消息队列文本数据智能传感器 虚拟传感器摄像头全域数据库总体架构 全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。 数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个XXX 层面保证

数据挖掘与数据仓库课程简介

数据挖掘与数据仓库课程简介 英文名:Data Mining and Data Warehouse 开课单位:计算机学院 课程编码:203086 学分学时:学分,学时32(含实验10) 授课对象:计算机科学与技术专业方向选修课 先修课程:数据库 课程目的和主要内容: 通过本课程的学习,学生应能理解数据库技术的发展为何导致需要数据挖掘,以及数据挖掘潜在应用的重要性;掌握数据仓库和多维数据结构,OLAP(联机分析处理)的实现以及数据仓库与数据挖掘的关系;熟悉数据挖掘之前的数据预处理技术;了解定义数据挖掘任务说明的数据挖掘原语;掌握数据挖掘技术的基本算法,为将来从事数据仓库的规划和实施以及数据挖掘技术的研究工作打下一定的基础。 主要内容包括数据仓库和数据挖掘的基本知识;数据清理、数据集成和变换、数据归约以及离散化和概念分层等数据预处理技术;DMQL数据挖掘查询语言;用于挖掘特征化和比较知识的面向属性的概化技术、用于挖掘关联规则知识的基本Apriori算法和它的变形、用于挖掘分类和预测知识的判定树分类算法和贝叶斯分类算法以及基于划分的聚类分析算法等;了解先进的数据库系统中的数据挖掘方法,以及对数据挖掘和数据仓库的实际应用问题展开讨论。 参考教材: 《数据挖掘概念与技术》,机械工业出版社,JiaWei Han,Micheline Kamber著,范明等译 参考和阅读书目: 《Data Mining: Concepts and Techniques》Jiawei Han and Micheline Kamber, Morgan Kaufmann, 2000 《机器学习》,Tom Mitchell著,曾华军等译 《SQLServer2000数据挖掘技术指南》,机械工业出版社,Claude Seidman著,刘艺等译 数据挖掘与数据仓库教学大纲 一、课程概况 英文名:Data Mining and Data Warehouse 开课单位:计算机学院 课程编码:203086 学分学时:学分,学时32(含实验10) 授课对象: 先修课程:数据库 课程目的和主要内容: 通过本课程的学习,学生应能理解数据库技术的发展为何导致需要数据挖掘,以及数据

数据仓库面试题

数据仓库及BI工程师面试题集锦 前言 1、介绍一下项目经验、项目中的角色。 一、数据库 1、Oracle数据库,视图与表的区别?普通视图与物化视图的区别?物化视图的作 用? i.视图与表的区别 1. 1、视图是已经编译好的sql语句。而表不是 2. 视图没有实际的物理记录。而表有。 3. 表是内容,视图是窗口 4. 表只用物理空间而视图不占用物理空间,视图只是逻辑概念的存在, 表可以及时四对它进行修改,但视图只能有创建的语句来修改ii. 物化视图与视图区别 1.物化视图和视图差别非常大,不是几句能说清物化视图是自动刷新或者 手动刷新的,视图不用刷新物化视图也可以直接update,但是不影响b ase table,对视图的update反映到base table上物化视图主要用于 远程数据访问,物化视图中的数据需要占用磁盘空间,视图中不保存数据。 2、Oracle数据库,有哪几类索引,分别有什么特点? a) 1.单列索引与复合索引 一个索引可以由一个或多个列组成,用来创建索引的列被称为“索引列”。 单列索引是基于单列所创建的索引,复合索引是基于两列或者多列所创建的索引。 2.唯一索引与非唯一索引 唯一索引是索引列值不能重复的索引,非唯一索引是索引列可以重复的索引。

无论是唯一索引还是非唯一索引,索引列都允许取NULL值。默认情况下,Oracle 创建的索引是不唯一索引。 3.B树索引 B树索引是按B树算法组织并存放索引数据的,所以B树索引主要依赖其组织并存放索引数据的算法来实现快速检索功能。 4.位图索引 位图索引在多列查询时,可以对两个列上的位图进行AND和OR操作,达到更好的查询效果。 5.函数索引 Oracle中不仅能够直接对表中的列创建索引,还可以对包含列的函数或表达式创建索引,这种索引称为“位图索引”。 3、Union与Union All的区别? a)Union会对查询结果进行排序去重,效率比union all 低,union all只是两个查 询集的合并操作。建议使用Union all,查询出来后再对数据进行去重操作。 4、对游标的理解?游标的分类?使用方法? 游标是映射在结果集中一行数据的位置实体,有了游标,用户就可以访问结果集中的任何一条数据。游标分为静态游标和REF游标,静态游标分为显示游标和隐式游标,显示游标使用步骤是声明游标,打开游标,获取记录,关闭游标。所有的DML语句为隐式游标,可以从游标的属性获得sql语句的信息。REF游标是动态关联结果集的临时对象,使用步骤也是先要进行声明游标,然后打开游标,获取记录,关闭游标。 5、如何查找和删除表中的重复数据?给出方法或SQL。 查询表中重复数据。 Select * from people where id in (Select id from people group by id having count(id)>1); Delete from people where id in(select id from people group by id having count(id)>1) and rowid not in (select min(rowid) from people group by id hacing count(id)>1);

数据仓库和LOAP应用技术

数据仓库和LOAP应用技术 传统数据库以及OLTP(On-Line Transaction Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。 因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。 为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。 数据仓库系统是一个信息提供平台,是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。其体系结构如下: 业务处理系统即是数据库去实现的即时记录的功能,在数据准备区进行ETF处理,数据经过抽取、转换之后加载到数据仓库中,因此也说数据仓库是利用的已经存在的历史记录去整合,是利用原有数据分析下一步行动的决策,是有风险的。分析完主题和数据元后建立数据模型(概念模型、逻辑模型、物理模型)并形成事实表和纬度表,然后通过粒度分析将历史记录先抽取整合,然后再根据决策者可能用到的数据集合分解成若干记录,以备不同决策者使用;再利用OLAP工具技术进行数据的分析导出。当然,这些都在了解了管理者即客户的需求之后进行的,或者是由企业的管理者自己进行的技术应用或分析。 模型设计的过程如下:

数据仓库是管理决策分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的工具对数据仓库的信息进行分析决策。 On-line Analytical Processing(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。具体的说,OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP是连接数据仓库和用户的桥梁,通过OLAP服务器用户可以很方便的浏览信息,进行决策!按照数据的存储方式进行分类,OLAP分为MOLAP,ROLAP,HOLAP三类。 OLAP支持最终用户进行动态多维分析、预测分析;切片和切块并在屏幕上显示,从宏观到微观,对数据进行深入分析;可查询底层的细节数据,在观察区域中选转,进行不同维之间的比较,在OLAP中有变量、维、维的层次、维成员、多维数组、数据单元等基本概念降,变量是从现实系统中抽象出来的,用于描述数据的实际含义;维是观察者观察数据的特定角度;维的层次是数据的某个维还可以存在细节程度不同的多个描述方面,称为维的层次;维成员是维的一个取值。如果一个维是多层次的,那么维成员就是不同维层次取值的组合。例如时间维具有年、月、日这三个层次,分别在年、月、目上各取一个值组合起来,就得到了时间维的一个维成员,如:2005年6月6日;多维数据集是决策支持的支柱,也是OLAP的核心,有时也称为立方体或超立方体。 0LAP使用三层的体系结构:数据库服务器、0LAP服务器和客户端工具。 第一层是数据仓库服务器,它实现与基层运营的数据库系统的连接,完成企业级数据一致和数据共享的工作。 第二层是OLAP服务器,它根据最终客户的请求实现分解成OLAP分析的各种动作,并使用数据仓库中的数据完成这些动作。

数据仓库基本架构

数据仓库的基本架构 xiaoyi发表于 2013-07-31 23:57 来源:网站数据分析 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。 数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。 下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库。 数据仓库的数据来源

其实之前的一篇文章已经介绍过数据仓库各种源数据的类型——数据仓库的源数据类型,所以这里不再详细介绍。 对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。 数据仓库的数据存储 源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。其实这个过程一直有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只要存储特定需求的多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并且导入的数据必须经过整理和转换使其面向主题。简单地解释下: (1).为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些冗长的评论文本存在数据仓库就得不偿失;

数据仓库技术与应用

数据仓库技术与应用 LEKIBM standardization office【IBM5AB- LEKIBMK08- LEKIBM2C】

文章编号 :5(2004 03 收稿日期 :27 基金项目 :教育部高等学校骨干教师资助计划项目 (GG 28 作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能。数据仓库技术与应用 项军 , 雷英杰 (空军工程大学导弹学院 , 陕西三原 713800 摘要 :对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计思想 , 详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词 :数据仓库 ; 联机分析处理 ; 数据挖掘中图分类号 :文献标识码 :A The T echnique and Application of Data W arehouse XI ANGJun ,LEI Y ing 2jie (Missile Institute of Air F orce Engineering University ,Sanyuan 713800,China Abstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system. K ey w ords :data warehouse ;on 2line analytical processing ;data mining 0引言

数据仓库技术简介

数据仓库技术概述 数据仓库技术 随着数据库技术的日趋成熟以及应用系统逐渐完善,无论是利用早期的RDB、Dbase,还是后来以其领先的核心技术日渐垄断关系数据库市场的Oracle、Sysbase、DB2,企业已经积累了大量的数据,这些数据信息为企业的发展提供了客观依据。毫无疑问,在竞争激烈的商业环境下,信息将是取胜的关键因素,决策者必须能快速可靠、随时自主地访问企业数据,才能有效地做出计划和决策。在这种需求牵引下,形成了数据仓库(Data Warehouse)的新概念、新技术。 1数据仓库的概念 数据仓库的提出是以关系数据库、并行处理和分布式技术的飞速发展为基础,是解决信息技术(IT)在发展中存在的拥有大量数据,而其中有用信息贫乏的综合解决方案。数据仓库是一种新的数据处理体系结构,是对企业内部各部门业务数据进行统一和综合的中央数据仓库。它为企业决策支持系统(DSS)和经理信息系统(EIS)提供所需的信息。它是一种信息管理技术,为预测利润、风险分析、市场分析以及加强客户服务与营销活动等管理决策提供支持的新技术。 数据仓库技术对大量分散、独立的数据库经过规划、平衡、协调和编辑

后,向管理决策者提供辅助决策信息,发挥大量数据的作用和价值。 概括地说,数据仓库是面向主题的(Subject-Oriented)、集成的(Integrated)、稳定的(Nonvolatile)、不同时间的(Timer-Variant)数据集合,用于支持经营管理中决策制订过程。 数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内容,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。 传统数据库用于事务处理,也称为操作型处理,是指对数据库联机进行

全面认识数据仓库

全面认识数据仓库 1.前言 随着我行信息科技工作进入后蓝图时代,后线分析系统注1建设的需求会越来越高,将在快速响应、高效实施、灵活应变、信息统一、全局分析、深度挖掘、监管有力、报送及时、降低成本等方面提出更多新的挑战。面对蓝图成功投产后新的产品体系,如何统一规划全辖数据资源、整合后线产品架构、准备各项技术预研可能是将来信息科技工作的一个重心。 数据仓库(DW)是各行业后线系统发展的一个重要方向,它在克服部门级应用的局限(数据分隔注2、重复存储、重复中间加工过程注3、维护工作繁琐、资源重复投入等)、满足全辖基础数据共享、提供全局分析视角和应用组件、支持快捷灵活和低成本的开发部署等方面有着不可替代的功能和地位。 数据仓库本身有着不同视角的概念解释,大可涵盖整个企业级应用架构,小可专注于单纯的数据建模与存储;数据仓库涉及重多相关技术,如ETL、数据模型设计、多维分析、数据挖掘等;数据仓库建设可能是一个复杂高难的全局性项目,正确的实施路径、策略、方法与有效的质量管理是项目成败的关键;另外,数据仓库系统实施后的管理与维护,也是保证各类后线应用系统长期顺利运行的重要因素。针对这些数据仓库相关的概念、技术、策略、方法等,可能并不是每个人都有比较全面的了解。因此有必要对这些做一个系统的介绍,使大家对数据仓库有一个全面清晰的认识。

2.数据仓库入门介绍 ?应用需求背景 随着联机事务处理(OLTP)业务系统的深入应用,企业各类业务数据不断积累和丰富,越来越需要从大量数据中提取有价值的信息,以辅助决策和指导经营。管理信息系统(MIS)和早期的决策支持系统注4(DSS)主要是基于传统的数据库技术和事务处理环境,这种系统结构随着业务系统建设规模的扩大、数据量的巨增和数据复杂度的提高,已无法满足综合分析型应用的需求,造成数据丰富而信息贫乏的困境。 首先,人们逐渐认识到,分析处理和事务处理具有极不相同的性质,事务处理通常是对数据库进行联机的查询和修改操作,每笔交易的响应时间和数据的安全完整是关键;而分析型处理往往是对大规模历史数据的批量加工计算,数据的规范统一和整体时间窗口是重要关注点。因此直接采用传统数据库技术和使用事务处理环境来支持分析型系统是不合适和失败的。两类系统的特点比较见表-1: 表-1 另一方面,企业的各类应用系统是在不同时期通常由各部门或分支机构面向

相关主题
文本预览
相关文档 最新文档