当前位置:文档之家› 数据仓库dw建设

数据仓库dw建设

数据仓库dw建设
数据仓库dw建设

1. 数据仓库概述

经过多年IT的建设,信息对于企业的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好企业内部纷繁的数据也越来越成为信息管理的一项重要工作。

在过去相当一段时间内,企业业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏企业全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖企业各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取企业业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。

数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

2. 全域数据库总体架构

核心业务边防一体化其他XML Excel Web 服务消息队列文本数据智能传感器

虚拟传感器摄像头全域数据库总体架构

全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。

数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个企业层面保证

了数据的完整性和及时性。信息服务主要使用两种技术来完成这一功能:联邦和复制。通过联邦功能可以把关系数据、半结构化数据(如 Excel文件、XML 文件、Web 搜索引擎、MQ 查询和内容源)组成一个逻辑数据库,对这些数据源中的表可以像操作本地数据库表一样进行操作,而不必关心我们操作的这些数据底层是什么数据源,物理在什么位置。而针对大数据量的数据访问或高并发的访问,通常将源数据增量实时复制到本地,复制的实现是基于对源数据库的日志进行捕获,获取增量数据,并基于消息的机制将其复制到目的数据库,复制的过程中可以实现数据的合并、拆分、转换等操作。

信息服务总线主要完成数据的分析、清洗(标准化)、转换、加载等工作。数据清洗,主要是去除冗余数据,将零散字段合并成全局记录,并解决重叠和矛盾的数据,然后通过添加关系和层次结构完善丰富信息。首先面临的挑战就是如何更有效的识别现有的业务系统,包括业务系统使用的分类方法、层次结构、数据分布、数据字典等。如果数据字典不完整或缺失,就要通过方法找出其数据的存储结构以及各个表之间的主外键关联、各表之间的转换关系等,同样,数据的分布情况同样可以使用分析功能来完成。在对现有数据足够了解的基础上(完成了数据的分析),接下来就要制定数据的清洗规则以及转换规则,其中,清洗规则又分为两种情况,一种清洗规则是明确的,另一种清洗规则是模糊的,比如不同系统中存储的地址信息,“南京市定淮门大街9号”和“江苏省南京市下关区定淮门大街9号”实际上是一个地址,但计算机会当成两个地址来处理。概率匹配功能和动态权重策略可以匹配创建高质量、准确的数据,并在整个数据域中一致地识别核心业务信息,如人名、位置、和时间。

数据清洗、转换、加载服务对保障数据的准确性和一致性非常重要。在不同的系统中,对同一业务会使用不同的分类方法,同样,数据的类别和层次结构也会不同。需要通过数据清洗、转换、加载层实现对这些信息格式的转换,匹配成通用的信息格式和分类方法,以便提供整个企业业务层面聚合的业务视图。实际证明一体化平台(一期)的全域数据梳理中,手工统计可以完成这项工作但不够好,不够直观和没有扩展延续能力。数据清洗、转换、加载工作对未来数据的使用非常重要,即使有工具帮助,工作量依然很大。虽然,开始的时候,这项工作看起来费时费力,但从长远来看,它使得基于这些数据的业务流程和统一数据视图实现自动化,并减少了人为干预不准确或不一致数据的努力,从而节省了大量成本。企业层面的单一视图一经建立,其维护必将是一个持续进行的过程。

数据的管理通常需要一个管理组织来对冲突或缺失的数据进行决策,组织会通常需要各个业务部门的人参与,而不仅仅局限于通技处或信息中心的人。企业单一数据视图的维护,很多业务部门都做的不够好,时间一久,很多业务部门就变得厌倦,数据清洗转换的工作没有坚持下去。一旦数据的准确性出现问题,业务系统的全局共享就无法再从中获益。

交换服务体系中的服务总线主要基于流程服务、传输服务、交换服务等实现。通过使用总线,可以支持各种协议以及数据格式的数据交互。通过搭建一个基于标准的、开发的、易于集成的、总线方式的服务总线,通过今后对现有系统的逐步升级改造,系统之间以一种成为“服务”的接口方式统一通过总线方式进行交互,通过对服务的管理,系统之间交互的信息格式的差异、传输协议的差异、采用技术的差异、物理位置的不同等等这些问题都由这个总线来进行屏蔽。进一步通过流程管理,将模块和系统之间的服务按照业务流程的需要进行编排,做到了“随需而变”。

数据存储区包括ODS、数据仓库/数据集市、共享数据库、特征库、模型库等,主要提供各种数据的存储服务。其中,逻辑视图中ODS部分存放了整个企业单位全局级的明细数据,而数据仓库数据集市中存储了不同级别的汇总数据。特征库主要存放各种数据分群特征、业务分类特征等业务信息,模型库存放构建的各种业务模型信息等。

基础服务层主要包括“应用服务器”,“服务总线”,“工作流引擎”,“消息中间件”,“OLAP引擎”,“数据挖掘引擎”,“事件驱动”,“规则引擎”,“协同工作”和“空间地理数据引擎”。

应用层包括各种应用,其中多维分析、即席查询、报表统计、图形展现等。

右边的信息治理层主要是为了保证数据的完整性、一致性、准确性、及时性,保证历史数据正确归档并在需要的时候可以和现有数据一起被联合访问,提供数据库安全、审计、监控和合规服务,从而防止内部人员偷窃,防范欺诈作假,保护数据隐私,强制执行安全规范,强制满足合规的要求,防止外部攻击对数据的破坏。

而元数据管理会贯穿数据业务层面、业务系统、信息整合服务总线、ETL层、数据存储区、信息服务层、展现层等各个层面,当数据口径出现问题时,能够提供数据在各个层面的正向/逆向追踪功能。元数据的管理涉及业务元数据和技术元数据两种。

3. 数据仓库架构

数据仓库总体架构

1) 多维分析

从数据的全方位了解现状,管理人员往往希望从不同的角度来审视业务数值,比如从时间、地域、类别、功能来看同一类数据的总和。每一个分析的角度可以叫做一个维,因此,把多角度分析方式称为多维分析。以前,每一个分析的角度需要制作一张报表。由此产生了在线多维分析功能,根据用户常用的多种分析角度,事先计算好一些辅助结构,以便在查询时能尽快抽取到所要的记录,并快速地从一维转变到另一维,将不同角度的信息以数字、直方图、饼图、曲线等等方式展现在您面前。

2) 即席查询

可以将数据进行查询分组,进行资源的管理,可以设置查询优先级,可以自动控制,调度复杂查询和进行跟踪分析查询。可以按照以下重要方法进行使用,主动和动态地控制数据库的查询流程,为不同大小的查询定义不同的查询类别,从而改善查询之间的系统资源共享,避免较小的查询被较大的查询阻塞等。

3) 数据挖掘

数据挖掘正如在矿井中可以开采出珍贵的矿石,在数据仓库的数据里也常常可以开采出业务人员意想不到的信息。它比多维分析更进一步。例如,如果管理人员要求比较各个区域某类出入境特征数量在过去一年的情况,可以从多维分析中找答案。但是,如果管理人员要问为何一个地区的出入境特征情况突然变得特别好或是不好,或者问该出入境特征在另一地区将会怎么样,这时数据挖掘知识可以作出解答。

4) 数据仓库层

数据仓库用于抽取、整合、分布、存储有用的信息,数据信息往往分布在不同的部门和下级单位,管理者要综观全局、运筹帷幄,必须能迅速地找到能反映真实情况的数据,这些数据也许是当前的现实数据,也可能是过去的历史数据。因此,有必要把各个区域的数据集合起来,去其糟粕、取其精华,将真实的、对决策有用的数据保留下来,随时准备管理人员使用。因此,数据仓库不仅仅是个数据的储存仓库,更重要的是它提供了丰富的工具来清洗、转换和从各地提取数据,使得放在仓库里的数据有条有理,易于使用。

数据仓库建设的几点建议.doc

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史:在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库:前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW。什么是数据模型,就是满足整 个企业分析要求的所有数据源。结果会如何,我个人认为:这样做企业级数据仓

建设数据仓库7个步骤

成功实施数据仓库项目的七个步骤 建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。 我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。 如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。 使用一种生命周期管理方法 我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生

现代电信企业数据仓库系统建设

现代电信企业数据仓库系统建设 电信企业数据仓库建设的需求 电信行业目前主要的数据来自于计费系统和网管数据。电信系统经过多年的运行,已经存储了大量的历史数据。这些数据中蕴涵着丰富的信息,从中可以了解企业在电信市场经营过程中所处的态势、竞争对手的经营形势、客户群的分布状况、消费特征、企业经营发展的趋势等,对其进行分析处理可以得到很多令人欣喜的结论。强大的数据处理能力,加上丰富的企业数据,可以有力地促进企业经营和竞争。 目前,企业信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势。面对激烈的市场竞争,许多大型企业纷纷实施“以客户为中心,以服务求发展”的经营策略。如何优化客户关系,增强企业的竞争优势已经成为现代企业关注的焦点。现有的应用系统往往以“产品”为中心,以“单据(票证)”处理为基础,是面向联机事务处理(Online Transaction Processing,简称OLTP)的系统,而以客户为中心的经营管理模式要求对现有业务系统的数据进行有效的集成并加以重组,建立面向联机分析处理(Online Analysis Processing,简称OLAP)的系统。通过分析客户的行为,掌握不同类型客户的特征,进而为客户提供更加优质的服务,尤其是个性化的服务,同时全面掌握并理解、分析企业业务的发生情况,充分发挥企业现已积累的数据,为各级管理人员提供科学化管理和决策的有力依据,以提高企业的经营业绩,保证利润的持续增长。 面对纷繁复杂的市场竞争,众多企业立足于多年积累的数据和自身的核心业务,提出了建立企业级数据仓库的规划和实施方案,为企业的进一步发展奠定基础。 企业数据仓库系统的总体结构 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分 从系统结构看,电信行业数据仓库解决方案系统一般包括应用系统部分、中央数据仓库系统部分,数据源系统部分三大部分。如图所示:

数据仓库建设方案详细

第1章数据仓库建设 1.1数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2数据采集 专家系统数据仓库数据采集包括两个部分容:外部数据汇集、部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume和ETL 工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:

数据仓库技术简介13页

数据仓库技术简介 数据仓库是近年来兴起的一种新的数据库应用。在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品是,业界掀起了数据库热。比如INFORMIXGONGSIDE公司的数据仓库解决方案;ORACLE公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(VLDB),数据工程国际会议(Data Engineering)等,都出现了专门研究数据仓库(Data Warehousing,简记为DW)、联机分析处理(On-Line Analytical Processing,简记为OLAP)、数据挖掘(Data Mining, 简记为DM)的论文。对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。本章将简要介绍一下用到的数据仓库技术背景,并在下一章结合数据清理系统设计实例,更深一步阐述数据仓库技术在现实中的重大意义 一.从数据库到数据仓库 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。而传

统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。 近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(Data Warehousing,简称DW)。作为决策支持系统(Decision-making Support System,简称DSS),数据仓库系统包括: ①数据仓库技术; ②联机分析处理技术(On-Line Analytical Processing,简称OLAP); ③数据挖掘技术(Data Mining,简称DM); 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。 1.什么是数据仓库 业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程 数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓

企业大数据平台下数仓建设思路

企业大数据平台下数仓建设思路 本文章来自于阿里云云栖社区 摘要:介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。与阿里云大数据数仓结缘介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的 免费开通大数据服务:https://https://www.doczj.com/doc/5c7401662.html,/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构。2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop。 初始时在Hadoop平台上构建数仓主要解决企业内部数据分析的需求,在2010年公司决定对外开放数据后,开始于2011年利用自建的数仓体系支持对外数据产品数据魔方、淘宝指数。后续在平台和产品上不停的丰富数据内容,同时离线和流式两套数据体系支持数据产品。 从2012年开始,之前在Hadoop上的数据体系搬迁到阿里云数加MaxCompute (原ODPS)(原文链接: https://https://www.doczj.com/doc/5c7401662.html,/product/odps?spm=5176.100239.blogcont67020.17.8 okFBH),并完成了数据体系的重构,此时介然负责平台基础数据的建设支持全

数据仓库建设方案84099

1.数据仓库概述 经过多年IT的建设,信息对于XXX 的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX 内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,XXX 业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX 全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML 、EXCEL 等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX 各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX 业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

EDW数据仓库项目方案

XX银行 EDW/数据仓库项目方案

目录 第一章系统总体架构................................................................. 51.1总体架构设计概述............................................................... 5 1.1.1总体架构的设计框架 ..................................................... 5 1.1.2总体架构的设计原则 ..................................................... 6 1.1.3总体架构的设计特点 ..................................................... 71.2EDW执行架构.................................................................... 7 1.2.1执行架构概述............................................................... 8 1.2.2执行架构设计原则 ........................................................ 8 1.2.3执行架构框架............................................................... 91.3EDW逻辑架构................................................................. 18 1.3.1逻辑架构框架............................................................ 18 1.3.2数据处理流程............................................................ 271.4EDW运维架构................................................................. 28 1.4.1运维架构概述............................................................ 28 1.4.2运维架构的逻辑框架 .................................................. 301.5EDW数据架构................................................................. 36 1.5.1数据架构设计原则 ..................................................... 36

数据仓库建设步骤

数据仓库建设步骤 1.系统分析,确定主题 确定一下几个因素: 操作出现的频率,即业务部门每隔多长时间做一次查询分析。 在系统中需要保存多久的数据,是一年、两年还是五年、十年 用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 用户所能接受的响应时间是多长、是几秒钟,还是几小时。 2.选择满足数据仓库系统要求的软件平台 选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: 厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 数据库对大数据量(TB级)的支持能力。 数据库是否支持并行操作。 能否提供数据仓库的建模工具,是否支持对元数据的管理。 能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: 1)确定建立数据仓库逻辑模型的基本方法。 2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 3)识别主题之间的关系。 4)分解多对多的关系。 5)用范式理论检验逻辑数据模型。 6)由用户审核逻辑数据模型。 4.逻辑数据模型转化为数据仓库数据模型 具体步骤如下: 1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作 处理的数据项要删除。 2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。 3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。

4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。 粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的 查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。 5.数据仓库数据模型优化 数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。 优化数据仓库设计的主要方法是: 合并不同的数据表。 通过增加汇总表避免数据的动态汇总。 通过冗余字段减少表连接的数量,不要超过3~5个。 用ID代码而不是描述信息作为键值。 对数据表做分区。 6.数据清洗转换和传输 由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。 在设计数据仓库的数据加载方案时,必须考虑以下几项要求: 加载方案必须能够支持访问不同的数据库和文件系统。 数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。 支持各种转换方法,各种转换方法可以构成一个工作流。 支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。 7.开发数据仓库的分析应用 建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。 信息部门所选择的开发工具必须能够: 满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预 测和趋势分析。 提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。 使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。 事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。 8.数据仓库的管理

数据仓库建设对数据量、硬件、软件的要求

1、不同数据量级别对服务器硬件、软件的要求 (要考虑到数据的双向传输、压力等状况) (我们目前的数量级别是多少?如果考虑到服务明细数据、三年的增量等) 不同数据量级别对服务器硬件、软件的要求:没什么特别要求,只要保证单台数据查询比较快就OK,数据量级别主要是靠横向扩展机器的台数来满足,只要数据是按照最初设计的存储方式来存储,满足我们查询的速度即可; 目前我们数据量单表每天5000左右的量,整个数据库10g左右,未来三年可能是一年2000万的处理量,三年后数据量可能到达上亿条记录,整个数据库35g左右。 2、Oracle数据库对数据量有没有什么限制? 在Oracle中,数据库是由实例和物理存储结构组成的。而物理存储结构是指存储在磁盘上的物理文件,包括数据文件(data file)、控制文件(control file)、联机重做日志(online redo log)、参数文件(spfile/pfile)、警告日志(alert log)、跟踪文件(trace file)等众多作用不同的文件所组成的。我们最关注的数据,则是保存在数据文件(data file)中。那我们在创建以及维护数据库时,该如何规划数据文件的大小和数量呢?这里面涉及较多的考量因素。主要有如下几点: 2.1操作系统的限制 数据库是运行在操作系统之上的,操作系统是基础,因此,操作系统所能支持的最大文件容量和数量就成为数据库所能支持的限制。但不同操作系统之间,这个限制也是不同的。 以下是较为常见的几种操作系统对此的限制: 2.1.1 WINDOWS 最大数据块:16K 最大文件数量:20000个(数据块2K时)/40000个(数据块4K时)/65536个(数据块为8K或16K时)最大文件容量:4GB(文件系统为FAT时)/ 64GB(文件系统为NTFS时) 2.1.2 UNIX和LINUX 最大数据块:32K (LINUX_X86为16K) 最大文件数量:65534个 2.2O RACLE数据库的限制 每个数据库可管理的最大文件数量:65533个

数据仓库建设的几点建议培训资料

数据仓库建设的几点 建议

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库: 前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以

数据仓库在我国企业的应用现状及实施策略分析

广西科学院学报 2006,22(4):375~377 Journal of GuangxiA cade m y of Sciences V ol .22,N o .4 N ove m ber 2006收稿日期:2006209212 作者简介:何朝红(19652),女,广西南宁人,硕士,主要从事供应链管理和物流信息化研究。 数据仓库在我国企业的应用现状及实施策略分析 On the Appl i ca ti on of Da t a W arehouses i n Ch i n ese En -terpr ises 何朝红 H E Chao 2hong (广西物资集团总公司,广西南宁 530022) (Guangx iM aterials Group Corp .,N ann ing ,Guangxi ,530022,Ch ina ) 摘要:分析数据仓库在我国企业中的应用现状。认为目前我国企业数据仓库的应用主要存在对数据仓库的概念理解不深,对项目的长期性、艰巨性认识不足,数据库系统中数据的积累不够,用户没有参与数据仓库建设的需求分析,项目实施过程中的管理混乱,具体实现中的技术问题尚未完善等问题。企业应从确定建立数据仓库的合适时机,选择切合实际的实施方法,取得最高管理层的支持和认可,确定基本目标、量化预期收益,选择正确的设计思路,选择合适的合作伙伴等6个方面应用数据仓库技术。关键词:数据仓库 应用 问题 策略 中图法分类号:T P 311113 文献标识码:A 文章编号:100227378(2006)0420375203 Abstract :T he app licati on of data w arehouses in Ch inese enterp rises is discussed .T he p roble m s in the app licati on are revealed as fo ll ow s .T he data w arehouse can not be fully understood .T he l ong ter m and hardness of the p roject runn ing are neglected .T here are less data accum ulated in the data w arehouse .T here is lack of users partici pating in the de m and analysis of the data w are 2house establishm ent ,and poor m anage m ent in the i m p le m entati on of the p ro ject .T he technical p roble m s have not been i m p roved in the operati on of the data w arehouse .T he relevant sugges 2ti ons are p resented .For the p roject to be supported ,it needs to choose a correct ti m e and a p rag 2m atic executi on w ay to construct a p ro ject ,set up an essential goal ,m easure the expecting bene 2fits ,and select a suitable partner . Key words :data w arehouse ,app licati on ,p roble m s ,strategy 近年来,计算机网络和数据库技术的迅速发展和广泛应用,使得企业管理进入了一个崭新的时代,企业的许多业务得到了联机事务处理(OL T P )信息系统的支持。然而,随着市场竞争的加剧,正确及时的决策成为企业生存和发展的重要环节。特别是随着数据库系统的逐日运行,产生了大量的业务数据,如何安全有效地存储和管理这些数据,并从大量繁杂的数据中获取其中有用的决策信息,为高层管理人员提供快速、准确和方便的决策支持,成为目前企业提高管理水平和竞争优势必须解决的问题。数据仓库(D ata W arehouse )技术的产生和发展,为这个问题的解决提供了有效的理论和方法指导。 数据仓库是20世纪90年代初出现的数据管理的 新技术,到20世纪90年代中期已在发达国家的许多行业中得到应用[1]。建立数据仓库的目的,就是把来自企业内部和外部的大量异构数据按辅助决策主题的要求进行加工、集成,为高层管理人员提供各种类型的、有效的数据分析,起到决策支持的作用。因此,数据仓库已经成为继Internet 之后的又一技术热点。 1 数据仓库在我国企业的应用现状 随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断发展,数据仓库技术也在不断完善,并在实际应用中发挥了越来越大的作用。据美国国际数据公司(I D C )调查,使用数据仓库技术的投资回报率(RO I )平均超过400%,平均回报时间 为2~3年;若从部门级数据仓库(也称“数据集市”)开始实施,则投资回报率平均超过500%[2]。 目前,在美国,30%到40%的公司已经或正在建

建设数据仓库的八个步骤

大数据技术部 建设数据仓库的八个步骤2017年04月25日编制

建设数据仓库的八个步骤 摘要:建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词:数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门

的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。 2.选择满足数据仓库系统要求的软件平台 在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 ·数据库对大数据量(TB级)的支持能力。 ·数据库是否支持并行操作。 ·能否提供数据仓库的建模工具,是否支持对元数据的管理。 ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: (1)确定建立数据仓库逻辑模型的基本方法。 (2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 (3)识别主题之间的关系。 (4)分解多对多的关系。

数据仓库dw建设

1. 数据仓库概述 经过多年IT的建设,信息对于企业的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好企业内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,企业业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏企业全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖企业各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取企业业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

2. 全域数据库总体架构 核心业务边防一体化其他XML Excel Web 服务消息队列文本数据智能传感器 虚拟传感器摄像头全域数据库总体架构 全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。 数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个企业层面保证

数据仓库建设方案-2018-3-28

数据仓库建设 商务智能(Business Intelligence)用于支持制定业务决策的技能、流程、技术、应用和实践。核心是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,帮助企业了解新的趋势、抓住新的市场机会、发现潜在的威胁,达到资源的合理配置,节约成本提高效益。数据仓库是商业智能的基础,它为OLAP、数据挖掘提供分析和决策支持。 一、数据仓库概念 1.数据仓库定义 是一个面向主题的、集成的、相对稳定的、反映有有历史变化的数据集合,用于支持管理决策。具有以下特点: ●详细交易及相关业务数据的集合 ●包含必要的内部与外部信息 ●来自于多个数据源、业务操作系统 ●保存一定的时间周期 ●按照企业内业务规则决定存储模型 2.建设的必要性 目前大多数信息系统由于建设时间、建设方、各阶段需求不同,会出现一系列问题:缺乏整体规则、信息缺乏完整性、缺乏统一的信息管理标准和规范、信息孤岛、不具备大容量的数据管理和分析能力。

3.价值 ●提高管理决策的科学性和管理效率 ●信息的整合,可推动现在有信息管理体系的重构 ●打通信息孤岛全局共享,降低数据获取的难度 ●逐渐取代各类业务管理报表系统 ●运用历史数据发现规律 二、数据仓库建设 1.业务需求定义 梳理出所有业务过程,分析业务内容提取需求,对其相关的数据进行探查,并对各系统核心业务人员访谈,准确的了解业务需求情况,近期调研 2.技术体系结构 生命周期图 技术架构图:

3.数据仓库数据建模 数据模型是抽象描述现实世界的一种方法,是通过抽象的实体及实体之间的联系来表示现实世界中事务的相互关系的一种映射,数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定模型。数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模,每种方法本质上都是从不同的角度解决业务中的问题。 关于数据仓库建模单独用一篇来详细介绍,这儿仅对维度建模做基本的介绍,维度建模由数据仓库领域另一位大师Ralph Kimall所倡导,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,

数据仓库设计文档模板

数据仓库设计与实现 学号 128302106 姓名江晨婷 成绩 教师张丹平 二O一五年四月

数据仓库建设方案设计与实现 摘要:本文以博士学位调查为基础,创建方案,设计与实现数据仓库,通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL Server 2005数据仓库软件来构建综合信息分析系统的数据仓库。 关键词:数据仓库;联机分析;数据挖掘;博士学位 一、概述 数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。 1.数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。 2.数据抽取 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。 3.数据管理 数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。 二、博士学位授予信息年度数据统计分析 1.按主管部门统计 从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示

数据仓库技术制定方案

数据仓库制定方案 在当下的数据仓库系统安全控制模块中,我国数据仓库安全分为不同的等级。总体来说,我国的数据仓库安全性是比较低。为更好的健全计算机数据仓库体系,进行数据仓库安全体系的研究是必要的。很多软件都是因为其比较缺乏安全性而得不到较大范围的应用,归根结底是数据仓库安全性级别比较低。为满足现阶段数据仓库安全工作的需要,有利于数据仓库保密性的控制,保证这些数据存储与调用的一致性。 当前数据仓库安全控制过程中,首先需要对这些数据进行可用性的分析,从而有利于避免数据仓库遭到破坏,更有利于进行数据仓库的损坏控制及其修复。其次为了保证数据仓库的安全性、效益性,也离不开对数据仓库整体安全性方案的应用。最后必须对数据仓库进行的一切操作进行跟踪记录,以实现对修改和访问数据仓库的用户进行追踪,从而方便追查并防止非法用户对数据仓库进行操作。 2.1数据仓库安全整体规划 本方案通过对电力行业敏感信息泄露安全威胁的分析,对数据仓库安全进行整体设计与规划,通过全系列数据仓库安全产品相互之间分工协作,共同形成整体的防护体系,覆盖了数据仓库安全防护的事前诊断、事中控制和事后分析。 制定严密可行的实施计划,整个工程严格按照计划进行;公司质量控制部利用ISO9000质量管理规范对工程的软件开发及实施全过程进行监督和控制;建立完善的软件开发和工程实施的文档体系。对程序进行测试,对各个模块之间的关联情况下可能出现的问题进行严密的测试,并不断完善在测试过程中暴露出来的问题。在这过程中质量控制小组将全程参与,确保软件质量。 需求调研是数据仓库开发的最重要的环节之一,在调研的过程中能否真实、准确地描述客户的需求,对于数据仓库的开发有着举足轻重的影响。与客户沟通不够导致对同一个事物的描述或者理解有分歧和差异,或者调研过程中流于表面文字,而没有进入实际的操作,都可能造成在需求调研的过程中造成对需求不精确的理解。失之毫厘,谬之千里,需求调研的微小差异可能会在软件的开发过程中造成较大的偏差,直接影响了工程的建设质量。为此我们为需求调研工作分配了充裕的人力的时间,制定了完善的调研方案,对需求调研的深度和广度做了规

数据仓库的规划构建策略

数据仓库作为决策支持系统(DSS)的基础,具有面向主题的、集成的、不可更新的、随时间不断变化的特性。这些特点说明了数据仓库从数据组织到数据处理,都与原来的数据库有很大的区别,这也就需要在数据仓库系统设计时寻求一个适合于数据仓库设计的方法。在一般的系统开发规划中,首先需要确定系统的功能,这些系统的功能一般是通过对用户的需求分析得到的。从数据仓库的应用角度来看,DSS分析员一般是企业中的中高层管理人员,他们对决策支持的需求不能预先做出规范的说明,只能给设计人员一个抽象地描述。这就需要设计人员在与用户不断的交流沟通中,将系统的需求逐步明确,并加以完善。因此数据仓库的开发规划过程实际上是一个用户和设计人员对其不断了解、熟悉和完善的过程。 数据仓库作为决策支持系统(DSS)的基础,具有面向主题的、集成的、不可更新的、随时间不断变化的特性。这些特点说明了数据仓库从数据组织到数据处理,都与原来的数据库有很大的区别,这也就需要在数据仓库系统设计时寻求一个适合于数据仓库设计的方法。在一般的系统开发规划中,首先需要确定系统的功能,这些系统的功能一般是通过对用户的需求分析得到的。从数据仓库的应用角度来看,DSS分析员一般是企业中的中高层管理人员,他们对决策支持的需求不能预先做出规范的说明,只能给设计人员一个抽象地描述。这就需要设计人员在与用户不断的交流沟通中,将系统的需求逐步明确,并加以完善。因此数据仓库的开发规划过程实际上是一个用户和设计人员对其不断了解、熟悉和完善的过程。 数据仓库的开发应用规划是开发数据仓库的首要任务。只有制定了正确的数据仓库规划,才能使组织主要力量有序地实现数据仓库的开发应用。在数据仓库规划中一般需要经历这样几个过程:选择实现策略、确定数据仓库的开发目标和实现范围、选择数据仓库体系结构、建立商业和项目规划预算。

相关主题
文本预览
相关文档 最新文档