当前位置:文档之家› IBM数据仓库解决方案简

IBM数据仓库解决方案简

IBM数据仓库解决方案简
IBM数据仓库解决方案简

I B M数据仓库解决方案简 The latest revision on November 22, 2020

1.1技术架构设计

成功地实施一个仓库项目,通常需要很长的时间。如果仅仅着眼于短期成果,缺乏整体考虑,采用一种不健全的体系结构,不仅会增加系统开发和维护成本,而且必将对发挥数据仓库的作用造成不利的影响。因此一个综合,清晰的远景规划及技术实施蓝图将在整个项目的实施过程中起到重要作用。

技术架构必须具有高度先进性和可扩展性,以满足业务需求的不断变化。一个完整的数据仓库系统包括数据源、数据转换区、数据仓库、数据集市、和数据展现层,通过数据仓库不同层次之间的加工过程,实现财政从数据资产向信息资产的转化过程。在不同层次之间的数据加工过程需要通过ETL技术实现,并对整个过程进行有效的元数据管理。

基于对需求的理解,基于财政部的信息系统框架模型基础之上的财政决策支持系统技术架构如下图所示:

如上图所示意,通过搭建灵活的、可扩展技术架构,在保持数据集市稳定性的同时,可以不断增加数据源,增加应用数据层、增加应用层,满足不断增加的业务分析应用需求。

采用DW+ODS的数据仓库体系结构,使用全新的ETL模式对ODS进程每日数据更新,按周或月周期对数据仓库执行ETL过程。使用COGNOS BI做为前端的查询分析和数据挖掘工具,可满足各种日常数据处理操作,从即时简单报表查询到多维多

级数据分析和挖掘,都能够在统一COGNOS BI平台上完成。

1.1.1数据源和数据接口

数据源指存储于财政各个业务系统的业务数据,以及未来的财政监管和外部数据。数据仓库系统将整合来自于这些系统的数据,形成财政统一的、一致的基础数据集,并提供给不同的应用主题形成数据集市。各个系统在体系架构、开发平台、数据定义、接口标准都会存在不同程度的差异;另外由于业务的不断变化,历史数据与当前数据之间的含义也可能存在不同,因此数据整合必须充分考虑源系统在技术和数据方面存在的差异。

数据仓库系统将采用文本文件的方式从源系统获取数据。每个源系统会就与数据仓库之间就传输数据接口文件(IFF)的格式和方法制定标准,称之为接口规范。

每个数据源会首先通过各自的数据导出程序(Extractor)生成接口文件存储在各自的文件缓冲区内。这个Extractor负责各自范围内导出数据的完备性和一致性,包括:

1)依照各自的业务规则确定增量数据的导出方法

2)保证导出文件的格式符合接口规范的要求

3)保证导出文件的传输时间的及时性

4)保证接口文件的数据质量,不错数、不丢数、不多数

1.1.2财政数据仓库

财政数据仓库(EDW),存储和管理来自源数据系统的数据,按照数据模型分主题进行组织和存放,包括当期的和较长时间的历史数据。数据仓库的核心是企业级数据模型的规划和设计,是所有应用的基础。接下来我们分别对EDW每个数据区域做详细介绍。

1)接口文件区

接口文件区是存储和处理接口文件的区域,如前面章节所述,接口文件区在系统下按照特定的目录结构组织起来。用一些系统命令和工具来管理。

对每个目录按照其特定的用途设定对不同用户的访问权限,比如谁能读,谁能写,谁能改等。

2)细节数据暂存区SSA(SOR Staging Area)

SSA的主要目的是支持把接口文件的装载到数据库,对其进行验证和处理,然后把数据整合到SOR内。验证的方法主要是将新转载的数据与SOR内已有的数据进行查找和比较。SSA内数据结构的设计原则是最大限度的利用接口文件的数据结构,尽量降低实体的个数,同时很好的支持后续的ETL过程。

3)细节数据SOR(System Of Record)

SOR是基于模型开发的一套符合3NF范式规范的表结构。SOR存储了数据仓

库内最细节层次的数据,按照不同的主题域进一步分分类组织。此模型是整个数据仓库数据模型的核心,其设计为具有足够的灵活性,以能够应对添加更多的数据源,支持更多分析需求,同时也能够支持进一步升级和更新。

为了能够在数据仓库内记录数据的变化以支持历史趋势和变化分析,SOR在一些关键的属性值上会跟踪变化(比如客户的信用度、状态等)。跟踪变化的常见方法就是利用渐变维的Type 2方法来处理记录,在表内增加一条记录变化数据的新记录。同时为了降低不必要的存储空间的浪费(相同数据的重复存储),我们可以把实体中动态变化的属性与静态不变或只需覆盖不需跟踪变化的属性分开。比如对用户,我们可以用一张表存放不变化的用户静态属性,用另一张表存放经常变化的用户行为属性,当跟踪用户行为的变化时我们只需在用户行为表内添加记录就行了,没必要把没有发生变化的用户静态表内的数据也复制一份。

4)汇总数据区Summary

汇总数据区是为了方便查询和后续多维数据的更新,创建一些常用的中间汇总表,以提高性能和降低后续ETL工作的复杂性。

由于SOR是高度规范化的数据,因此要完成一个查询需要大量的关联操作;同时数据集市中的数据粒度往往要比SOR高很多,对要成生数据集市所需数据也需要大量的汇总计算,因此如果我们把常用的数据预先关联和

汇总好,并让其尽量多在多个数据集市的计算中共享,就能大幅度的提高整个ETL工作和数据仓库查询的性能。

5)反馈数据区(Feedback Area)

反馈数据区主要记录的是数据仓库自身生成的结果。比如用户对营销活动的反馈等。数据仓库的特性决定了用户在原则上不能直接修改数据仓库中的数据,因此用户的修改数据和其它生成数据必须单独记录,以便于追踪历史和进行比较。

6)元数据存储MDR(Meta Data Repository)

元数据存储用来保存关于数据仓库中的过程、数据的信息(日志、数据词典、配置信息等)。由于各个工具和系统都会生成自己的元数据,同时我们还利用元数据管理工具把这些元数据尽可能的集中存储到数据仓库中的MDR内,因此MDR总的来说只是一个共享元数据供用户集中访问的地方,真正元数据的维护地还是在生成这些元数据的系统或工具内。

1.1.3数据集市

数据集市设计用途是要满足特定的目的,同时具有查询、多维分析、报表和数据挖掘功能。这与企业数据仓库截然不同,设计时企业数据仓库在信息内容与结构方面尽可能拥有开放性与灵活性。

数据集市有以下特征:

为特定用途而设计——数据集市设计的目的,是支持特定用户对数据子集

的特定范围的查询。它以用户所要求的方式提供企业数据仓库的细节汇

总。

优化——数据集市为了支持特定工具的访问而优化。根据工具、根据企业

数据仓库提供的信息子集来设计数据集市,而不是让用户直接访问企业数

据仓库中的大型数据库,这可以改善数据集市的性能。

虚拟或物理数据集市——数据集市可以是物理的实现,也可以是企业数据

仓库表的各种视图。使用视图(虚拟数据集市)可以避免存储数据的多个

副本,简化了数据管理。

数据集市,即Data Mart,指面向专项应用领域的分析主题。Data Mart即是通过OLAP技术或者数据挖掘技术,利用数据仓库的数据根据用户需求建立的数据集市模型,大大提高了前端查询访问的效率,用户能方便地实现灵活、动态、快速、多角度、多层次地分析企业数据。同时,也可以通过定制灵活的OLTP查询来了解明细数据。

1.1.4数据的抽取、转换、加载(ETL)

数据仓库的数据来源于业务处理系统,但是数据仓库的数据并不是对源系统数据的简单叠加,它需要按照数据仓库的逻辑模型和物理模型,在源系统数据分析的基础上,按照源系统数据和数据仓库数据之间的映射关系,经过数据的抽取(Extraction)、转换 (Transformation)和加载(Loading)等环节方可进入数据仓

库,这个过程简称为ETL处理。

数据经过数据抽取、转换和加载处理进入数据仓库的整个过程可以简称为ETL 过程。ETL是搭建数据仓库数据平台的基础,也是保证数据仓库的数据质量的具体实现。根据基于数据仓库项目开发的经验,在大多数据仓库的实施过程当中,ETL 都是一个非常复杂、耗时的过程,其工作量约占整个数据仓库项目的40-50%,占数据仓库设计阶段工作量的70-80%,有许多原因影响这一阶段的时间和进度。比如对原有业务系统和旧的操作环境的了解有限,原系统文档不全等。因为这些原因,使ETL任务花了许多时间在了解旧的业务应用以及如何抽取数据上。ETL实施困难另一个原因是原有的系统平台没有足够的容量/系统资源来支持数据抽取处理,系统资源不足可能表现为:CPU、磁盘空间、I/O带宽或没有一个有效的窗口去运行抽取、转换程序。

ETL过程不仅工作量大,而且还受到很多时间窗口的限制,它不仅需要在不同的特定(非确定)的时间抽取数据,而且还必须要在特定的时间范围内把数据加载到数据仓库。由于ETL过程是数据仓库应用系统每天都要进行的工作, ETL设计的科学性和效率性是非常重要的,关系到数据仓库项目的成败。

ETL遵循如下设计原则:

灵活性:不同的时间段中能够进行数据获取、转换、装载。

可重复性:支持失败的ETL任务行数据重新装载。

模块化:ETL过程分步实施,每个过程通过不同的模块组件来完成。并尽可能复用这些组件;从而提高ETL实施效率,增加数据仓库的可维护性。

迭代方法:满足当前的业务需求,尽可能搭建满足未来的业务需求的平台

上不断开发实施。

ETL逻辑顺序:依赖业务系统数据处理方式,来定义ETL处理流程控制。例如:在银行的ETL过程中,交易记录信息的数据装载应该在账户信息进入

数据仓库之后进行。

1.1.4.1 第一步:数据抽取

在源系统上启动数据抽取控制程序,完成以下工作:

1、数据采集

考虑到数据来源的多样性和复杂性,数据采集主要包括:

对业务系统的数据采集:在日终结后,当日数据自动、增量地转储到数

据备份机上,作为数据仓库的数据源并成为数据备份策略的一部分。

对于税收计划、外部数据、纳税人财务报表的数据采集。可根据实际需

要,采用多种途径。

2、数据发送

在数据采集完成后,各系统上的抽取控制程序将数据文件和校验文件通过

局域网发送到数据转换区。

1.1.4.2 第二步:数据装入转换区

1. 检查数据是否到位

根据校验文件,检查源系统数据是否到位、是否存在传输错误等异常情况。如果数据不全或传输出现错误,如果出错,将出错结果写入错误日志,重新执行第一步。

2. 将外部数据文件装入数据库

把来自外部源数据源的格式化数据转化成数据库、表结构。

3. 修改系统状态:

待该步骤工作完成后,将系统状态改为抽取工作完成。

注:若直接从业务系统数据库中抽取数据,则无须数据转换区步骤。

1.1.4.3 第三步:数据质量检查和出错处理

1. 状态检查:

查询参数表,如果数据抽取工作已经完成,开始执行该步骤工作。

2. 数据质量检查:

根据检查规则,数据质量检查程序扫描源数据数据表,根据规则检查数据

是否合法,给出检查报告和最终的数据质量报告并写入数据库,数据质量检查结果写入质量检查报告。

3. 出错处理:

如果出现严重出错,停止ETL工作,需要系统维护人员现场做出相应的处理,修改正确后,重新执行该步骤工作;对于警告级出错,继续进行下述步骤。

4. 修改系统状态:

待该步骤工作完成后,将系统状态改为数据质量检查工作完成。

1.1.4.4 第四步:数据转换

1、状态检查

查询参数表,如果数据质量检查工作已经完成,开始执行该步工作。

2、数据转换

根据数据仓库要求的数据源格式在Staging Area中进行并行转换处理,并将转换的结果数据存放在待装载数据存放区。

3、生成转换报告

记录数据转换情况,并写入数据库转换日志中。

4、修改系统状态:

待该步骤工作完成后,将系统状态改为数据转换工作完成。

1.1.4.5 第五步:数据加载

1、状态检查

查询参数表,如果数据质量检查工作已经完成,开始执行该步骤工作。

2、数据装入数据仓库

采用非依赖数据并行加载的策略,将待装载数据区的数据装入中心数据仓库,如果标准代码表发生变化,数据装载程序将标准代码的变化情况增量加载到数据仓库代码表中。

3、数据加载情况报告

记录数据加载情况,并写入数据仓库数据库的参数表中。

4、修改系统状态:

待该步骤工作完成后,将系统状态改为数据转换工作完成。

1.1.4.6 第六步:加载时间维

1. 状态检查

查询参数表,如果数据加载工作已经完成,开始执行该步骤工作。

根据当前的时间,依据数据集市多维模型,完成时间维的加载工作。

3. 修改系统状态:

待该步骤工作完成后,将系统状态改为时间维加载工作完成。

1.1.4.7 第七步:加载事实表

1. 状态检查

查询参数表,如果时间维加载工作已经完成,开始执行该步骤工作。

2. 加载事实表

以数据仓库数据为数据源,依据数据集市多维模型,完成事实表的加载工作。

3. 修改系统状态:

待该步骤工作完成后,将系统状态改为事实表加载工作完成。

1.1.4.8 第八步:加载聚合表

1. 状态检查

查询参数表,如果事实表加载工作已经完成,开始执行该步骤工作。

以事实表为数据源,依据数据集市多维模型,完成聚合表的加载工作。

3. 修改系统状态:

待该步骤工作完成后,将系统状态改为ETL工作结束。

1.1.5数据展现

数据访问及展现是通过信息门户,将各类数据集市应用通过统一的平台展现给财政各类用户。同时提供数据分析结果的表达、共享与传递的功能,是信息服务的主要界面,主要包括信息展现与人机交互、信息发布等。

本次的展现选择**的报表分析平台,详细功能见附件一。

1.2数据架构设计

数据仓库的体系结构包括4 个层次的数据:数据源、数据仓库层和数据集市层。

1)数据源(业务系统)包含面向操作应用的原始数据以及外部录入数据,主要服务于高性能的事务处理。

2)数据仓库层(包括ODS 和DW)存储企业的历史数据,其数据是规范的、稳定的。

i.数据仓库包含当前数据、综合数据、历史数据的组织和整理。通过数据

抽取平台获取的各业务数据,从逻辑上和业务上是独立的、分散的,要

实现一体化的查询功能,必须对分散的业务数据进行抽取和整合。如将

分散的单位基础信息、预算数据、支出数据通过一定的策略,整理形成

一套编码统一、业务连贯的数据体系,这是一体化查询系统成功的关

键。

3)数据集市层(包括Relational Data Mart 和Star-Schema Data Mart 和OLAP)是面向部门的、满足最终用户需求的数据,数据集市中的数据

是反规范的、汇总的。

数据整理平台基于各业务数据,可以根据不同的用户查询需求,定制数据整理策略。根据查询角度的不同,按决策的主题要求形成当前的基

本数据层,按综合决策的要求构成综合数据层,随着时问的推移,由时

间控制机制将当前基本数据层转为历史数据层。

4)数据展现层(前端展现)是面向业务用户的需求展现,包括使用报表、多维分析、即席查询等基本功能,提供告警、统计算法等高级功能。

第二章基于基础资料系统的数据模型设计

2.1基本纬度数据模型设计

“金财工程”一体化需以系统统一的数据字典和统一的编码体系为基础,以统

一的应用支撑平台作保障,通过本级财政业务流程的整合,实现对任一笔资金的跟踪和回溯。

为了实现对数据的集中使用,就要从需求出发,在充分考虑到数据的可共享性、系统未来的可扩展性等因素,定义一套标准数据格式,为系统的建设打下一个良好的基础。它包括各种涉及的基础编码表:如预算科目表、经济科目表、预算单位编码表、企业登记表、税种表、预算级次表等。

数据字典是财政业务系统间需要统一维护管理、支持同步和共享的数据元、基础代码集、基础配置数据和相关命名规范的统称。其中数据元又称数据类型,包括定义、标识、表示以及允许值等一系列属性描述的数据单元。通常所说的业务要素就是财政业务系统中构成业务数据的比较重要的数据元,该类数据元均有相应的基础代码集。

数据字典中主要包括的内容:财政业务管理涉及到的所有的数据元及共享的基础代码集;共用的用户列表;相关配置数据及系统开发需遵循的命名规范。

我们将按照省厅建设的基础数据资料库来进行基本纬度模型的建设。

2.2基础资料系统维护功能

九种数据仓库产品及解决方案评析

前言: 随着我国企业信息化建设步伐的不断加快,全球性市场竞争的加剧,越来越多的企业开始建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。 目前市场上各种数据仓库产品及其解决方案品种繁多,且大多属于“舶来品”,产品定位不同,各有特点,究竟选择哪家的产品能更适合自己的企业特点与未来发展? 本文对目前市场上九种主流数据仓库产品(Business Objects、Oracle、IBM、Sybase、Informix、NCR、Microsoft、SAS、CA)进行分析与总结,根据各公司提供的数据仓库工具的功能,将其分为三大类:单点产品、提供部分解决方案的产品、提供全面解决方案的产品。下面对其进行一一介绍,以期能够给你的选择提供一定的参考。 九种数据仓库产品及解决方案评析 =============================================== 一、单点产品 这类产品仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来进行使用。比较有特色的是Business Objects。 Business Objects 所谓单点产品是指仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来进行使用。 ?产品特点: Business Objects是一个集查询、报表和OLAP技术为一身的智能决策支持系统。它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种平台(所有Windows 平台及Unix平台)和多种数据库(如Oracle、informix、Sybase、Microsoft SQL Server、DB2、CA-Ingres、Teradata、Red Brick、FoxFro、dBase、Access等),同时它还支持Internet/Intranet,可以通过WWW进行查询、报表和分析决策。 ?主要工具: Business Objects提供工具如下: BusinessObjects是集成查询,报表和分析功能的工具; Webintelligence是世界上第一个通过Web进行查询、报表和分析的决策支持工具; Businessquery是第一个可以在Microsoft Excel中集成企业公共数据源中数据的工具; Businessminer是面向主流商业用户的数据挖掘工具,可以实现深入的分析用以发掘深层次的数据之间的关系。

IBM数据仓库解决方案简

1.1技术架构设计 成功地实施一个仓库项目,通常需要很长的时间。如果仅仅着眼于短期成果,缺乏整体考虑,采用一种不健全的体系结构,不仅会增加系统开发和维护成本,而且必将对发挥数据仓库的作用造成不利的影响。因此一个综合,清晰的远景规划及技术实施蓝图将在整个项目的实施过程中起到重要作用。 技术架构必须具有高度先进性和可扩展性,以满足业务需求的不断变化。一个完整的数据仓库系统包括数据源、数据转换区、数据仓库、数据集市、和数据展现层,通过数据仓库不同层次之间的加工过程,实现财政从数据资产向信息资产的转化过程。在不同层次之间的数据加工过程需要通过ETL技术实现,并对整个过程进行有效的元数据管理。 基于对需求的理解,基于财政部的信息系统框架模型基础之上的财政决策支持系统技术架构如下图所示: 如上图所示意,通过搭建灵活的、可扩展技术架构,在保持数据集市稳定性的同时,可以不断增加数据源,增加应用数据层、增加应用层,满足不断增加的业务分析应用需求。 采用DW+ODS的数据仓库体系结构,使用全新的ETL模式对ODS进程每日数据更新,按周或月周期对数据仓库执行ETL过程。使用COGNOS BI做为前端的查询分析和数据挖掘工具,可满足各种日常数据处理操作,从即时简单报表查询到多维多级数据分析和挖掘,都能够在统一COGNOS BI平台上完成。 1.1.1数据源和数据接口 数据源指存储于财政各个业务系统的业务数据,以及未来的财政监管和外部数据。数据仓库系统将整合来自于这些系统的数据,形成财政统一的、一致的基础数据集,并提供给不同的应用主题形成数据集市。各个系统在体系架构、开发平台、数据定义、接口标准都会存在不同程度的差异;另外由于业务的不断变化,

企业数据仓库概要设计说明书ETL概要设计分册

XXXX企业数据仓库概要设计说明书ETL概要设计分册 (文档编码:OM-BIDW-C008) (版本01.00.000) 未经许可,不得以任何形式抄袭 XXXX版权所有,翻板必究 OM数据仓库XXXX企业数据组 2009年3月

文档变更历史

目录 1概述 (4) 2设计原则和前提 (5) 2.1 整体部署 (5) 2.2 前提条件 (6) 2.3 设计原则 (6) 3整体框架 (7) 3.1 ETL系统架构图 (7) 3.2 ETL系统功能模块描述 (7) 4数据抽取模块 (9) 4.1 假设与约定 (9) 4.2 模块功能图 (9) 4.3 各子模块功能及处理流程 (11) 5数据加载模块 (11) 5.1 假设与约定 (11) 5.2 数据加载模块图 (11) 5.3 数据加载功能模块描述 (12) 6作业调度模块 (13) 6.1 模块概述 (13) 6.2 假设与约定 (13) 6.3 作业调度流程 (13) 6.4 ETL作业种类及调度实现方法 (14) 7监控管理模块 (15) 7.1 监控管理模块图 (15) ETL监控内容 (16) 附录1控制表及控制文件设计 (16) 附录2:文件目录及编码说明 (19)

1概述 ETL是数据仓库系统开发中至关重要的一个过程,它涉及到对源数据的抽取、整合及各种转换,并最终形成面向用户的分析数据。由于数据仓库系统的数据源来自于多个分散的业务系统,对不同业务系统的数据整合及清洗转换将是一个复杂的过程,ETL过程决定了数据仓库系统获取数据的准确性。 另外由于ETL包括数据抽取、数据清洗、数据转换及数据加载等数据处理过程,这些处理过程分散在不同的系统平台及开发工具上,对这些作业过程的统一调度将是一个重要的问题,作业调度涉及到系统的稳定性。

大数据仓库建设方案设计

第1章数据仓库建设 1.1数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规范,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2数据采集 专家系统数据仓库数据采集包括两个部分内容:外部数据汇集、内部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的内容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume和ETL 工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:

IBM公司数据仓库商业智能解决方案(DOC 45页)

IBM公司数据仓库商业智能解决方案(DOC 45页)

1. 技术瓶颈:海量数据收集、海量数据存储、海量数据多维分析等一系列的问题,即使最热门最被业内人士看好的Hadoop技术能否撑得住? 2. 资源投入:海量数据处理伴随着相应的硬件、软件需求的增长,技术人员的投入上对企业势必成为新的负担。 3. 价值金矿:海量数据中的非结构化数据蕴含着的“价值金矿”,能够帮助企业从未所触及的角度和维度为企业提供商业决策和辅助。 从海量数据价值挖掘层面上看,传统的思维是数据量加大是一定要考虑OLAP的,一般的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此从一般意义上认为处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。 然而目前OLAP存在的最大问题是: 业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和度量一旦发生变化,技术人员需要把整个Cube重新定义并重新生存,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,从而使所谓的BI系统称为死板的日常报表系统. 在思达商业智能平台 Style Intelligence上进行海量数据的多维数据分析,从业务需求的角度出发,维度和度量才是直接针对业务人员的分析语言。在自主知识产权数据块儿技术支持下,直接把维度和度量的生成交给业务人员,由业务人员自己定义好维度和度量之后,将业务的维度和度量直接运行,并最终生成报表。 此种以终为始的设计思路,首先能解决传统OLAP分析中维度难以改变的问题,利用思达商业智能平台 Style Intelligence中数据非结构化的特征,业务人员可以灵活地改变问题分析的角度,对业务人员非常友善。其次思达商业智能平台Style Intelligence 在海量数据处理中利用分布式数据处理架构强大的分布式数据处理能力,无论OLAP分析中的维度增加多少,系统开销并不显著增长。

九大数据仓库方案特点横向比较[1]

九大数据仓库方案特点横向比较[1] 本文针对几大知名的数据仓库解决方案的性能和特点做分析和比较…… IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft、和SAS等有实力的公司相继(通过收购或研发的途径)推出了自己的数据仓库解决方案,BO和Brio等专业软件公司也在前端在线分析处理工具市场上占有一席之地。 IBM--IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server 支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。 严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。例如,它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos 的Impromptu或IBM的Query Management Facility; 多维分析工具支持Arbor Software的Essbase和IBM(与Arbor联合开发)的DB2 OLAP服务器; 统计分析工具采用SAS系统。 Oracle--Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库; Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现; Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic语法的语言,支持OCX和OLE; Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。 在Oracle数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle关系数据库中,当需要详细数据时,Express Server通过构造SQL语句访问关系数据库。但目前的Express还不够灵活,数据仓库设计的一个变化往往导致数据库的重构。另外,目前的Oracle 8i和Express 之间集成度还不够高,Oracle 8i和Express之间需要复制元数据,如果Oracle Discoverer(或BO)需要访问汇总数据,则需要将汇总数据同时存放在Oracle和Express中,系统维护比较困难。值得注意的是,刚刚问世的Oracle 9i把OLAP和数据挖掘作为重要特点。 Sybase--Sybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中,Warehouse Architect是PowerDesigner中的一个设计模块,它支持星形模型、雪花模型和ER模型; 数据抽取与转换工具包括PowerStage、Replication Server、Carleton PASSPORT,PowerStage 是Sybase提供的可视化数据迁移工具。 Adaptive Server Enterprise是Sybase企业级关系数据库,Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,Sybase IQ支持各种流行的前端展现工具(如Cognos Impromptu、Business Objects、Brio Query等); 数据分析与展现工具包括PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo等,PowerDimensions是图形化的OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构的关系型数据仓库和分布式数据集市,从而形成单一的、新型的

Informatica帮助五矿集团建立企业级数据仓库

“Informatica PowerCenter 产品在对数据源的支持、数据转换功能、集成和开放性等方面都有突出表现。同时,Informatica 在接驳SAP 系统方面具有成熟的实施经验,能够完全理解五矿的业务需求。而厂商所拥有的专业的数据管理理念以及技术支持团队的专业能力和服务态度也让我们更青睐Informatica 。”——五矿信息管理部副总经理 何瑞娟女士中国五矿集团公司中国五矿集团公司(以下简称“五矿集团”)是一家国际化的矿业公司,成立于1950年,秉承“珍惜有限,创造无限”的发展理念,致力于提供全球化优质服务。经过半个多世纪的发展,五矿已从单一的五金矿产进出口集团,逐渐蜕变为一个涉及矿产、金融、地产和矿冶科技的多元化集团公司。五矿主要机构遍布全球28个国家和地区,拥有17.7万员工,控股9家境内外上市公司。2012年,中国五矿实现营业收入3250亿元,利润总额80亿元,位列世界500强第169位,在金属类企业中排名第4位。深化信息化建设,建立企业管理与决策支持系统 多元化随之带来的管理问题并没有成为五矿发展的瓶颈,这背后重要的功臣是信息化技术的 有力支撑。五矿是央企信息化建设先进单位,连续三年在央企信息化水平评测中达到A 级。 早在2000年,五矿的第一个信息化规划出炉之时,秉承“小步快跑、量身定做”的规划理念, 五矿信息管理部就自己打造了钢铁贸易ERP 、有色贸易ERP 等系统,把业务流程管理起来。此后, 五矿又陆续开发了统一的标准化系统、用户权限管理系统以及十几套业务管理系统,这些系 统的基础数据和用户权限都由统一平台进行管理。2006年是五矿信息化建设的一个关键年, 因其企业内部经营范围的多元以及业务流程的繁杂,他们决定引进国际套装软件SAP ERP 来 整合业务与管理信息系统。 解决方案: Informatica PowerCenter 收益: 高质量数据整合服务实现数据 统一集中管理 高效稳定的数据集成平台,快 速且准确的提供各个展现系统 所需要的数据 Informatica 产品无编码、图形 化的开发,大大缩短了项目上 线周期 在数据流动的过程中,大大减 轻对业务系统的影响,确保业 务系统的正常使用数据分析力转化为决策力Informatica 帮助五矿集团建立企业级数据仓库成功案例

数据仓库建设的几点建议.doc

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库: 前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW)。什么是数据模型,就是满足整

IBM数据仓库解决方案简

I B M数据仓库解决方案简 The latest revision on November 22, 2020

1.1技术架构设计 成功地实施一个仓库项目,通常需要很长的时间。如果仅仅着眼于短期成果,缺乏整体考虑,采用一种不健全的体系结构,不仅会增加系统开发和维护成本,而且必将对发挥数据仓库的作用造成不利的影响。因此一个综合,清晰的远景规划及技术实施蓝图将在整个项目的实施过程中起到重要作用。 技术架构必须具有高度先进性和可扩展性,以满足业务需求的不断变化。一个完整的数据仓库系统包括数据源、数据转换区、数据仓库、数据集市、和数据展现层,通过数据仓库不同层次之间的加工过程,实现财政从数据资产向信息资产的转化过程。在不同层次之间的数据加工过程需要通过ETL技术实现,并对整个过程进行有效的元数据管理。 基于对需求的理解,基于财政部的信息系统框架模型基础之上的财政决策支持系统技术架构如下图所示: 如上图所示意,通过搭建灵活的、可扩展技术架构,在保持数据集市稳定性的同时,可以不断增加数据源,增加应用数据层、增加应用层,满足不断增加的业务分析应用需求。 采用DW+ODS的数据仓库体系结构,使用全新的ETL模式对ODS进程每日数据更新,按周或月周期对数据仓库执行ETL过程。使用COGNOS BI做为前端的查询分析和数据挖掘工具,可满足各种日常数据处理操作,从即时简单报表查询到多维多

级数据分析和挖掘,都能够在统一COGNOS BI平台上完成。 1.1.1数据源和数据接口 数据源指存储于财政各个业务系统的业务数据,以及未来的财政监管和外部数据。数据仓库系统将整合来自于这些系统的数据,形成财政统一的、一致的基础数据集,并提供给不同的应用主题形成数据集市。各个系统在体系架构、开发平台、数据定义、接口标准都会存在不同程度的差异;另外由于业务的不断变化,历史数据与当前数据之间的含义也可能存在不同,因此数据整合必须充分考虑源系统在技术和数据方面存在的差异。 数据仓库系统将采用文本文件的方式从源系统获取数据。每个源系统会就与数据仓库之间就传输数据接口文件(IFF)的格式和方法制定标准,称之为接口规范。 每个数据源会首先通过各自的数据导出程序(Extractor)生成接口文件存储在各自的文件缓冲区内。这个Extractor负责各自范围内导出数据的完备性和一致性,包括: 1)依照各自的业务规则确定增量数据的导出方法 2)保证导出文件的格式符合接口规范的要求 3)保证导出文件的传输时间的及时性 4)保证接口文件的数据质量,不错数、不丢数、不多数

国内外有哪些公司提供数据仓库解决方案

甲骨文公司数据仓库解决方案详叙 作者邬凡 系别商务学院 专业物流管理 年级10级 学号102067229 评定教师张宏伟

甲骨文公司数据仓库解决方案详叙 一、.数据仓库发展的商业驱动力 (一)、企业生存环境的变化 在信息时代,伴随着Internet技术的蓬勃发展,全世界范围内的各个企业都在经历一场深刻的变革,各企业都在利用Web无所不达的特性来扩展自己将商品和服务推向市场的能力,但同时由于Internet的存在,客户的期望也是水涨船高。客户需要即时访问各类信息,并不断比较您和您的竞争对手的情况。因此,在Internet 时代,谁能在正确的时间以正确的价格交付正确的产品,谁就是赢家。那么,企业在扩大市场、提高效率和保持客户的原始商业驱动力不变的情况下,如何继续保持竞争的优势,它关系到企业在未来的发展命运。有远见的公司都会意识到,只有将自己建成能够对客户做出迅速反应的公司才能获得诸多收获,这些收获包括收入、新客户、客户满意度、客户回头率以及公司效益的增加,从而使竞争力大为提升。 在80年代中期及90年代初,许多企业开始重新设计其商业流程,以期降低成本并提高效率和竞争能力。同时,这些企业也意识到,要达到这些目的,所需要开发的技术耗资巨大、复杂且耗时冗长。因此,许多公司转而求助于企业资源规划(ERP)应用系统。这些应用系统帮助它们实现了内部商业流程,如财务、制造、库存管理和人力资源的自动化和优化,从而将企业从战术性的日常商业运作事务中解放了出来。

自此以后,企业关注的焦点逐渐由改进内部运作转移到更多地关注客户上来。各类人士和商业机构都开始要求得到更多的关注和更及时的服务,许多公司都开始调整自己的商业模式,并将更多的注意力投向外部。由于需要将更多的注意力集中到客户身上,许多企业都再度开始寻求技术的帮助,即求助于客户关系管理(Customer Relationship Management)软件。和ERP一样,CRM解决方案着力于提高企业运作的自动化和改进业务处理流程,建立客户关系管理(CRM)系统的目的是赋予企业更完善的与客户交流的能力,即从潜在客户识别、生成有需求的客户,到销售完结、付运订单以及不断进行的服务和支持,提供全过程的自动化处理和更好的协调与合作,以提高客户满意度和客户忠实度,增加市场机会和销售利润,为企业发展服务。 通过不断采用新的技术手段,推出新的业务模式,企业的发展规模在不断的扩大,企业所积累的信息(包括企业内部业务数据和客户相关数据)越来越多,如何充分利用这些信息,为企业的进一步发展服务,已经成为企业急需解决的一个关键问题。 1、企业如何迎接市场变化带来的挑战 “Internet的发展正在改变我们人类生活的方方面面”,对于企业经营的挑战主要来自三个方面: 如何把握急速扩张的市场机会(Expand Markets):市场竞争的全球化日趋激烈,传统的商业界限正在逐步消失,新的业务模式层出不穷,如何抓住机会,占领更多的市场份额。

数据仓库项目解决方案v1.0

数据仓库项目解决方案 v1.0 -CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

数据仓库解决方案 深圳太极云软技术股份有限公司 2016年1月

目录 (一) 概述....................................................................................................错误!未定义书签。 一. 国内信息化的现状........................................................................错误!未定义书签。 二. 以应用驱动,数据仓库建设应由后向前规划............................错误!未定义书签。 三. “想大做小”(整体设计、分布实施)....................................错误!未定义书签。 (二) 系统架构............................................................................................错误!未定义书签。 数据仓库架构 ..........................................................................................错误!未定义书签。 系统功能架构 ..........................................................................................错误!未定义书签。 (三) 数据仓库建设方法............................................................................错误!未定义书签。 数据仓库建设8大步骤 ..........................................................................错误!未定义书签。 1.系统分析,确定主题 ..................................................................错误!未定义书签。 2.选择满足数据仓库系统要求的软件平台...................................错误!未定义书签。 3.建立数据仓库的逻辑模型 ..........................................................错误!未定义书签。 4.逻辑数据模型转化为数据仓库数据模型...................................错误!未定义书签。 5.数据仓库数据模型优化 ..............................................................错误!未定义书签。 6.数据清洗转换和传输 ..................................................................错误!未定义书签。 7.开发数据仓库的分析应用 ..........................................................错误!未定义书签。 8.数据仓库的管理 ..........................................................................错误!未定义书签。 (四) 系统功能详细介绍............................................................................错误!未定义书签。 企业数据门户 .................................................................................错误!未定义书签。 主题分析 .........................................................................................错误!未定义书签。

数据仓库建设方案.doc

1. 数据仓库概述 经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

2. 全域数据库总体架构 核心业务边防一体化其他XML Excel Web 服务消息队列文本数据智能传感器 虚拟传感器摄像头全域数据库总体架构 全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。 数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个XXX 层面保证

数据仓库建设的几点建议培训资料

数据仓库建设的几点 建议

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库: 前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以

数据仓库在我国企业的应用现状及实施策略分析

广西科学院学报 2006,22(4):375~377 Journal of GuangxiA cade m y of Sciences V ol .22,N o .4 N ove m ber 2006收稿日期:2006209212 作者简介:何朝红(19652),女,广西南宁人,硕士,主要从事供应链管理和物流信息化研究。 数据仓库在我国企业的应用现状及实施策略分析 On the Appl i ca ti on of Da t a W arehouses i n Ch i n ese En -terpr ises 何朝红 H E Chao 2hong (广西物资集团总公司,广西南宁 530022) (Guangx iM aterials Group Corp .,N ann ing ,Guangxi ,530022,Ch ina ) 摘要:分析数据仓库在我国企业中的应用现状。认为目前我国企业数据仓库的应用主要存在对数据仓库的概念理解不深,对项目的长期性、艰巨性认识不足,数据库系统中数据的积累不够,用户没有参与数据仓库建设的需求分析,项目实施过程中的管理混乱,具体实现中的技术问题尚未完善等问题。企业应从确定建立数据仓库的合适时机,选择切合实际的实施方法,取得最高管理层的支持和认可,确定基本目标、量化预期收益,选择正确的设计思路,选择合适的合作伙伴等6个方面应用数据仓库技术。关键词:数据仓库 应用 问题 策略 中图法分类号:T P 311113 文献标识码:A 文章编号:100227378(2006)0420375203 Abstract :T he app licati on of data w arehouses in Ch inese enterp rises is discussed .T he p roble m s in the app licati on are revealed as fo ll ow s .T he data w arehouse can not be fully understood .T he l ong ter m and hardness of the p roject runn ing are neglected .T here are less data accum ulated in the data w arehouse .T here is lack of users partici pating in the de m and analysis of the data w are 2house establishm ent ,and poor m anage m ent in the i m p le m entati on of the p ro ject .T he technical p roble m s have not been i m p roved in the operati on of the data w arehouse .T he relevant sugges 2ti ons are p resented .For the p roject to be supported ,it needs to choose a correct ti m e and a p rag 2m atic executi on w ay to construct a p ro ject ,set up an essential goal ,m easure the expecting bene 2fits ,and select a suitable partner . Key words :data w arehouse ,app licati on ,p roble m s ,strategy 近年来,计算机网络和数据库技术的迅速发展和广泛应用,使得企业管理进入了一个崭新的时代,企业的许多业务得到了联机事务处理(OL T P )信息系统的支持。然而,随着市场竞争的加剧,正确及时的决策成为企业生存和发展的重要环节。特别是随着数据库系统的逐日运行,产生了大量的业务数据,如何安全有效地存储和管理这些数据,并从大量繁杂的数据中获取其中有用的决策信息,为高层管理人员提供快速、准确和方便的决策支持,成为目前企业提高管理水平和竞争优势必须解决的问题。数据仓库(D ata W arehouse )技术的产生和发展,为这个问题的解决提供了有效的理论和方法指导。 数据仓库是20世纪90年代初出现的数据管理的 新技术,到20世纪90年代中期已在发达国家的许多行业中得到应用[1]。建立数据仓库的目的,就是把来自企业内部和外部的大量异构数据按辅助决策主题的要求进行加工、集成,为高层管理人员提供各种类型的、有效的数据分析,起到决策支持的作用。因此,数据仓库已经成为继Internet 之后的又一技术热点。 1 数据仓库在我国企业的应用现状 随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断发展,数据仓库技术也在不断完善,并在实际应用中发挥了越来越大的作用。据美国国际数据公司(I D C )调查,使用数据仓库技术的投资回报率(RO I )平均超过400%,平均回报时间 为2~3年;若从部门级数据仓库(也称“数据集市”)开始实施,则投资回报率平均超过500%[2]。 目前,在美国,30%到40%的公司已经或正在建

数据仓库在现代企业中的应用

数据仓库在现代企业中的应用 【摘要】当今世界,随着科学技术的发展,数据的迅速增长,信息量的急剧增加,给人类提出了一个亟待解决的课题,即如何有效地使用这些数据。目前还处于数据丰富而知识贫乏阶段,利用当前的数据库技术并不能充分发挥这些数据的作用。本文介绍了数据仓库技术,分析了数据仓库技术对于现代企业的作用,给出了在企业中建立数据仓库的方法和实施步骤,同时介绍了市场上一些成熟的数据仓库解决方案。 【关键词】数据库数据仓库联机分析 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个巨大的工程。 一、对数据仓库的简介 1、什么是数据仓库。数据仓库的概念由美国著名工程学家W·H·lnmon博士于90年代在《建立数据仓库》一书中提出:“数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持经营管理中的决策制定过程。”主题是指用户使用数据仓库进行决策时所关心的重点方面;面向主题是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息;集成是指数据仓库中的信息不是从各个业务处理系统中简单抽取出来的,而是经过系统加工、汇总和整理,保证数据仓库内的信息是关于整个企业的全局信息;稳定是指一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少;包含历史数据是指数据仓库内的信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息可以对企业的发展历程和未来趋势做定量分析和预测。作为一个系统,数据仓库至少包含三个基本功能部分。 第一,数据获取。它负责从外部数据源获取数据,包括从各现行系统获取当前细节数据和从其他存储介质获取早期细节数据,数据被区分出来后,进行拷贝或格式转换等处理,准备载入仓库;第二,数据存储与管理。这部分负责仓库内部的维护和管理,提供的服务包括数据存储的组织、数据的维护、数据的分发、仓库的例行维护等;第三,信息访问。信息访问部分属于数据仓库的前端,面向不同种类的最终用户,主要由桌面系统的各种工具组成。数据仓库的最终用户在这里提取信息、分析数据集、实施决策等。进行信息访问的软件工具主要是查询生成工具、多维分析工具和数据采掘工具等。

数据仓库解决方案v1.0

数据仓库解决方案 深圳太极云软技术股份有限公司 2016年1月

目录 (一)概述 (3) 一. 国内信息化的现状 (3) 二. 以应用驱动,数据仓库建设应由后向前规划 (3) 三.“想大做小”(整体设计、分布实施) (4) (二)系统架构 (5) 数据仓库架构 (6) 系统功能架构 (7) (三)数据仓库建设方法 (8) 数据仓库建设8大步骤 (9) 1.系统分析,确定主题 (9) 2.选择满足数据仓库系统要求的软件平台 (10) 3.建立数据仓库的逻辑模型 (10) 4.逻辑数据模型转化为数据仓库数据模型 (11) 5.数据仓库数据模型优化 (12) 6.数据清洗转换和传输 (13) 7.开发数据仓库的分析应用 (14) 8.数据仓库的管理 (15) (四)系统功能详细介绍 (16) 企业数据门户 (16) 主题分析 (17) 即席查询 (18) 多维分析工具 (19) ETL工具 (19) 报表工具 (21)

(一)概述 一.国内信息化的现状 1.信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2.为何要建立数据仓库: 根据现状业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 二.以应用驱动,数据仓库建设应由后向前规划 数据仓库到底应该怎么建设?我一贯的主张是应用驱动。什么样的应用呢?应用是应考虑政府管理的现状和决策层最关心的问题入手。分利用现有信息系统资源,进一步细化、量化权力清单,固化权

相关主题
文本预览
相关文档 最新文档