当前位置:文档之家› NCV55-元数据开发红皮书

NCV55-元数据开发红皮书

NCV55-元数据开发红皮书
NCV55-元数据开发红皮书

元数据开发手册

具体元数据分析文档请参考-史周军

使用元数据编程重要注意事项:

不要将元数据的对象在前后台之间传递,这将导致严重的效率问题. 明确的说就是不要将元数据对象,比如模块,组件,实体,属性,各种类型等作为远程调用服务的方法参数或者返回值,也不要在自己的数据对象里组合元数据对象,如果的确需要引用元数据对象,请务必设置为transient 类型。

比如以下为错误做法: 对于IService:

有方法:IComponent operation(IBean bean,Type …);

1. 元数据总体代码框架

图1 元数据代码结构图

1.1. 元数据模型接口定义

1.1.1 业务模型主要接口及相关概念

**

图2 接口关系图

对于元数据的业务模型,开发人员首先需要了解的关键概念包括:模块,组件,实体,值对象,业务接口,属性,业务操作,方法,参数,元素,容器,IBean 等。

模块(IModule)对应目前我们部署环境里modules下的各个目录,比如uap,uapbd,uapeai等,只是部署环境里的module是平级的,而元数据里模块是一个属性结构,也就是说模块可以有子模块,比如uap的子模块有uapbd,uapeai,uapportal,uapqe等。对应数据库表md_module

模块是安装的基本单元,元数据所有产生的脚本是以模块为单位导出初始化脚本的。

组件(IComponent)描述的是一个相对独立和完整的业务块,主要是从业务层次上进行划分,比如“销售订单”可以作为一个组件,“客商档案”也可以作为一个组件,划分组件时,注意组件间的重用,且注意不要形成相互依赖。组件属于模块,一个模块可以包含多个组件。对应数据库表md_component

组件是部署的基本单元,一个典型的组件会包含若干个有相互关系的实体(但只能有一个主实体),组件内还包括服务和操作,服务可以直接生成usm配置文件,操作可以直接生成upm配置文件,另外组件里还可以有业务接口,枚举类型等。

实体(IBusinessEntity)是指可以通过一系列连续性(continuity)和标识(identity ID)来定义的业务对象,NC原有的大部分VO基本上都算得上是实体。实体属于特定的组件,一个组件可以包含多个实体,组件可以没有任何实体,(比如只有业务接口),但如果有实体,则必须设置一个主实体。对应数据库表md_class

值对象(IPropertyType):如果一个对象代表了领域的某种描述性特征,且没有概念性的标识,比如颜色,地址,但也不能一概而论,有些需要取决于具体的业务场景。值对象同样定义在组件里,一个组件可以包含多个值对象。对应数据库表md_class

值对象与实体的另一个差别:值对象可以通过判断其所有的属性是否相等来判断值对象是否相等,而两个实体即使所有属性都相等,但主键不相等,也不能说两个实体相等。从这个意义上可以说,值对象是无生命的,而实体是有生命的。

自定义实体(ICustomEntity):表达拥有特定属性的一类实体,对应NC里的自定义档案,自定义实体是一种特殊的实体。对应数据库表md_class

属性(IAttribute):对应实体里的每个字段,对应数据库表md_property

业务操作(IBusinessOperation):表达一个完整的外部服务或者内部服务(service)。业务操作也定义在组件里。对应数据库表md_busiOperation。

业务接口(IBizInterface):供实体或者值对象实现的接口,接口本身定义了特定的访问方法。对应数据库表md_class

备注:在设计器上,业务接口只能增加属性,相应会生成get方法,比如增加一个name属性,会生成一个getName()方法,方法的返回值可以自由选择。实际上,如果希望灵活运用业务接口,你可以摆脱设计器的限制,你在设计器上设计出一个业务接口,生成代码后,可以给业务接口增加任何方法,当然实现类也由你自己实现,此时只是通过元数据来管理你的业务接口而已。

我们可以通过下面的方法

Map nc.md.model.IBusinessEntity.getBizInterfaceMapInfo(String fullIntefaceClassName)

查询实现了特定业务接口的实体中的属性和接口方法的对应关系,如下图所示,如果客户实现了ICodeName<<编码名称接口>>,则

customerBean.getBizInterfaceMapInfo(“nc.vo.bd.ICodeName”)将返回

<”code”,CodeAttr>, <”name”,NameAttr>,<”displayName”,displayNameAttr>

而以下代码则演示了如何在对象级使用业务接口:

方法(IOperation):具体的操作方法,和JA V A类的方法同义,可以定义在实体里,也可以定义在业务操作里。对应数据库表md_operation

参数(IParameter):方法里的参数,和JA V A类方法里的参数同义。对应数据库表md_parameter

元素(IModelElement):模型元素的基本接口,描述了元素的基本信息。

容器(IContainer):描述那些可以包含其他元素的元素

IBean:实体,值对象,业务接口的共同基本接口。大部分情况下一般对元数据的访问是通过IBean来进行的。

1.1.2 元数据里的数据类型表达

1.1.

2.1 数据类型体系介绍

图3 元数据里的类型表达

元数据的所有数据类型都实现接口IType,IType分为两大类,基本类型(IPrimitiveType)和复杂类型(IComplexType)。

基本类型包括String,Double,UFDouble,UFID,UFMoney,BLOB,CLOB,IMAGE 等,完整的列表可以查看IType里的static定义,相应的md_class表里会初始化所有的基本类型,md_class表里所有classType<200的均为基本类型。

复杂类型主要有四类,从图3可以看到:

枚举类型(IEnumType):目前支持String,int类型值的枚举,支持多语言描述。

引用类型(IRefType):表示引用另一个Bean,但是本身字段为String类型,记录的是所引用Bean的主键。NC里默认实体间的1-1关联及聚合均采用此种方式。

集合类型(ICollectionType):表示1-n 的关联或者聚合关系,集合实现方法(样式)目前支持数组及List,集合里装的是什么由ElementType表示,ElementType 是一个IType,可以为基本类型或者复杂类型。

Bean类型(IBean):表示1-1的关联关系或者聚合关系,字段的类型为Bean,即实体或者值对象(业务接口一般不会在类型定义里使用)。

复杂类型是模型里的表达方式,在设计器里,复杂类型里的引用类型和集合类型是通过类型样式+数据类型组合而来的。

一个属性,除了有类型,还需要类型样式来进一步描述类型的最终形态,比如同样是String类型,有些属性是String数组,而有些是String, 另外一些是List, 描述数组,列表,还是单一信息的就是类型样式。

目前的元数据里有如下集中样式:

1)STYLE_SINGLE 单一样式,最终的类型就是原始数据类型。

2)STYLE_REF 引用样式,只用于实体,值对象,设置为引用样式,便可以得到引用类型。

3)STYLE_ARRAY 数组样式,最终的类型为数组集合类型。

4)STYLE_LIST 列表样式,最终的类型为List<数据类型> 集合类型。

5)STYLE_VECTOR 不推荐使用,除非兼容老代码

6)STYLE_SET 暂时不支持。

关于简单类型(SimpleType):

为了编程方便,比如在数据绑定或者取值赋值时,类型的区分无需太细,我们把基本类型,枚举类型,应用类型统称为简单类型,通过

boolean nc.md.util.MDUtil.isSimpleType(IType type) 方法判断即可。

具体类型的判断,可以通过nc.md.util.MDUtil工具类提供的is**Type方法进行判定,典型代码如下:

1.1.

2.2 设计器中的数据类型设置

请仔细观察上图中各字段的类型设置:

1)主键一定要选择为UFID类型,类型样式为single,类型样式是进一步描述类型信息的,single表示单一类型。

2)订货人是人员类型,但设置了REF样式,最终订货人为引用类型,邮寄地址、账单地址一样。3)明细为1对多关系,增加1对多聚合关系后或者1对多关联关系后,类型样式会自动设置为ARRAY。注意当去掉关系时,请手工修改此样式,以免造成错误。

1.1.3 元数据里的数据模型的表达

1

需要说明的是ITable即表的定义与表达。

表ITable由于和视图IView均包含字段定义,所以共同继承ITableView,但表内还有主键和外键,本版本一个表可以有多个外键,但只有一个主键,不支持组合主键,V55版暂时不支持中间表和扩展表。如果想了解扩展表或者中间表的

机制,可以参考以前的文档。

另外图4中IForeignKey上的关系比较复杂,主要因为ITable里有外键,而外键里包含了起始表,结束表,起始字段,结束字段等信息。仔细看一下就不难明白了。

设计器里,可以给实体设置对应表的名称,也可以为每个属性定义生成列的名称。

设置表名

设置字段名称

如果是1对多关系或者1对1的聚合关系,对应的字段名称为字表里外键的名称。

具体数据模型生成请参考《1.7 模型发布及脚本生成》。

1.1.4 实体间的关系及业务模型到数据模型的ORMAP

图5 实体间关系表达

实体之间目前有4种关系,即Dependency(依赖),Composite(组合),

Realized(继承---

模型发布、代码生成及持久化暂时没有处理),Relation(关联),关系的定义请查看nc.md.model.AssociationKind 枚举类。

关系的具体表达由接口nc.md.model.IAssociation 进行描述,具体请查看javadoc 说明。

图5 ORMAP 信息

1.2 元数据模型定义实现

实现具体请参考代码,根据相应接口,按Ctrl+T可以看继承关系图。

1.3 元数据查询服务接口

nc.md.MDBaseQueryFacade

提供元数据基本的一些查询,如查询模块、组件、实体、值对象、属性等,前后台均可调用。支持前台缓存功能,有效减少远程调用。

前台缓存能很好的解决元数据加载的效率问题,但是如果开发人员在开发环境经常频繁的修改元数据,则会要求必须重启JStarter才能使得修改生效,为避免此问题,可以在JStarter的启动参数里增加参数,在开发时临时关闭前台缓存功能。-Dnc.md.detectEachTime=true

nc.md.MDQueryService

后台查询,前台请不要调用,前台全部使用MDBaseQueryFacade,否则会导致严重后果,后果自负 ,如果MDBaseQueryFacade的查询方法不全,可以通知cch添加,MDQueryService服务为元数据自身查询服务的统一入口,通过此入口类可以请求不同的查询服务,在后台,如果是一些简单查询,比如通过名称,则优先使用nc.md.MDBaseQueryFacade提供的查询方法

通过此查询服务可以分别得到四种查询服务接口:

1)针对外部应用的查询服务,主要根据名称查询-IMetaDataQueryService 2)针对内部应用的查询服务,主要根据ID查询-

IMetaDataInnerQueryService

3)针对数据模型的查询服务-IDataModelQueryService

4)针对元数据管理工具的查询服务(没有缓存,实时更新)-

IManagerQueryService

1.4 基于元数据的数据访问接口

图6 数据访问接口

回忆没有元数据的年代,我们如何访问数据呢?列举一二:

当需要从模板(单据模板,打印模板,报表模板,会计平台)上获取相关数据时,一般通过getColValue(a,b,c,d)公式,其中的a,b,c,d不是业务字段,而是数据库表名,列名,这就要求开发人员、实施人员对基本档案,业务表有非常清楚的了解,这个要求对实施人员就比较苛刻了,所以负责具体业务的开发人员经常能接到远在客户现场的实施打来电话“你好,能告诉我某表某字段什么含义吗?能告诉我如何取数吗?”,晕。。。

关键是,一个getColValue解决不了问题,所以在我们的公式定义中,经常会看到很多getColValue,8行10行20行,最终就是为了得到几个需要的业务值!!而这还不能满足需要,所以公式中出现了getColValue2,getColValueMore, getColValueWithCond…等更多更复杂的函数。

程序员编写程序时也同样面临此类困惑,经常为了查询某个数,不惜在代码里调用公式进行查询,或者通过一些通用的查询服务,比如IUAPQueryBS,或者自己编写Service,DAO来实现查询字段,非常的影响开发效率。相信大多开发人员都有过此种经历。

说了这么多,就是要体现元数据的好处,基于元数据,终于可以摆脱配置复杂公式,编写DAO,或调用一些本不适合的方法了!

元数据取数的优势:

1)模板上不再需要定义公式,直接从模型树上拖拉需要显示的业务字段即可。

2)取数完全基于模型角度,完全不用了解数据库结构。

3)支持复杂条件查询,支持批量取数,有效提高数据访问效率。

基于元数据的数据访问主要用到DASFacade及NCObject类。

类DASFacade 是一个helper性质的工具类,封装了常见的数据访问,元数据对象创建等方法,部分方法和NCObject效果类似,但是DASFacade的好处是在没有NCObject对象实例的情况下也可以使用,另外DASFacade基于路径取数的方法支持绝对路径和相对路径,而NCObject只支持相对路径。

当使用以下功能,建议使用DASFacade

1)如下场景的取数和设数:

路径和所给出的NCObject实例并不是一个分支,或者说路径对应的属性不是NCObject实例的直接属性,如下图所示,给出的ncobject为a对应的实例,但访问路径为b.e.f

2)需要从map数据构造NCObject实例,或者从NCObject实例得到map 数据。

3)需要根据关键属性或者关键属性数组查询相应的值,比如根据客商ID 得到客商的名称、编码等。

4)自定义复杂查询条件,查询模型各个层次的值,类似OQL,比如:

对于上述模型,我们可以尝试取得如下的值:

订货人.编码=0002,邮寄地址.邮政编码=100090的所有订单的账单地址.详细地址。

程序里可以这样实现:

当使用以下功能,建议使用NCObject:

1)平台性质的模块,不关心具体的VO类型,如果是业务实现代码,不建议使用NCObejct,除非特别的取数需要。

2)希望将实例绑定元数据,以弱类型进行访问。

更多基于数据访问的细节,请参考以上两个类的javadoc。

1.5 元数据中的访问器

图7 元数据中的访问器

访问器主要用于解决JA V A类与模型不一致的情况,通过访问器使得用户可以按照标准模型来访问实际上不符合模型结构的java类和对象实例。

访问器的常见设置:

1)如果是主子表,多字表结果,并且希望生成和NC产品兼容的代码,一律设置访问器为聚合AGGVO,同时选代码样式为传统样式,如

图所示:

点击设计器空白区域,在组件的属性里设置代码风格

在主实体的属性框里设置访问器类型,同时可以修改聚合VO的名称

此时不要忘记设置字表对应属性的访问策略为BodyOfAggVOAccessor

2)如果希望生成标准的OO代码,可以设置代码风格为标准样式,访问器选择NCVO即可,不过后续的模板及各种框架的支持需要考虑。

1.6 基于元数据的持久化

1.6.1 元数据自身的缓存和持久化

图8 元数据自身持久化类图

1.6.2 基于元数据的持久化框架实现

图9 基于元数据的持久化类图

nc.md.persist.framework.IMDPersistenceService 持久化服务接口,主要为更新、保存及删除,CMT,容器管理事务

nc.md.persist.framework.IMDPersistenceQueryService 查询服务接口,不带事务。

1.7 模型发布及脚本生成

1.7.1 简单VO

简单VO内部全部为简单字段,与其它实体无任何关系,该实体除了客户类型为枚举类型,其它字段均为基本类型,和其它实体没有任何关系。

这是最简单的一种类型,依照实体默认产生数据库表,表名可以在设计器上指定,字段和实体属性保持一致即可,字段名也可以在设计器上设置。同时在md_ormap表里保存ORMAP信息。

[ORMAP信息]

1.7.2 一对一引用关联

一个实体一对一关联了另一个实体,且在产生的JA V A类里关联源字段为字符串类型,而不是被关联实体的类型,我们把这种关联称之为引用关联,称关联源字段的数据类型为引用类型。

比如客户关联了地区,客户里有一个字段叫[客户所在地区],称为关联源字段,如果是引用关联,则产生的客户JA V A类里,关联源字段为String类型,记录的是地区的主键ID,反之如果是非引用关联,则生成的字段为地区类型,称为嵌套关联。

生成的ORMAP信息和简单实体是一样的。

[ORMAP信息]

同时产生一条foreignKey信息:

1.7.3 一对一关联

对于正常的1对1关联,生成的ORMAP信息及外键信息同上面的引用关联,只是生成代码时,在主实体中相应的字段类型为关联实体类型,而不是PK值。

[ORMAP信息]

1.7.4 一对一组合

1对1组合关系,可以看作时1-n组合关系的特例,为了避免持久化时的特殊处理,无论是生成的数据库表,字段,还是ORMAP信息,Foreignkey信息都和1-n组合完全相同。【注意与通用框架有一些差异】

生成表时,在子实体对应的表上增加一外键列,引用的是主实体对应表的主键。

注意:如果此时子实体刚好又关联了主实体,那么就不需要增加此外键列了。代码里可以看到此逻辑。

[ORMAP信息]

保存时,只保存主实体,此时areavo的主键应该为已知,直接拿到areavo的主键,和客商信息一起保存到bd_customer表中。

1.7.5 一对多组合

对于一对多组合,保存时除了保存主实体,还要保存被组合的子实体,删除时也一起删除,查询时提供全部查询和只查主实体对象而后懒加载子对象两种方式(考虑直接在主实体里直接生成懒加载的代码-----getChilds()的方法)。

[ORMAP信息]

其中items关联的是组件内实体,订单项条款,相应的生成数据库表po_orderItemDetail,该表中增加一外键列,存贮po_orderItem的主键。保存时和hibernate的一对多有所不同,不是先插入子表,后更新子表,而是先保存主表,取得主表主键,然后直接保存子表。

Customers 关联的是组件外实体,对于组件外实体,由于不能直接修改其对应的表,所以需要在本组件内重新生成一张子表,存储一对多关系。注意如果关联多个组件,也只创建一张表,具体形式如下:

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

空间数据质量特性与质量控制.

空间数据质量特性与质量控制 范志坚1,2,方源敏1,汪虹2 (1.昆明理工大学国土资源工程学院昆明 650093;2.云南省基础地理信息中心昆明 650034) 摘要:本文主要讨论空间数据质量特性、质量控制所涉及的内容。结合笔者最近从事空间数 据库建库的具体实践和工作体会,探讨从位置精度、属性精度、时间精度、数据完整性和逻辑一致性等方面对数据质量进行全面控制,最终建成一个质量可靠的空间数据库。 关键词:地理信息系统;空间数据库;空间数据;质量特性;质量控制 Quality characteristic and Quality control of Spatial data Fan Zhi-jian1,2,Fang Yuan-min1,Wang-Hong2 (1.Faculty of Land Resources Engineering,Kunming University of Science and Technology,Kunming 650093,China;2.Yunnan Provincial Geomatics center,Kunming 650034,China) Abstract:This paper mainly talks over contents which are involved with quality characteristic and quality control of spatial data.Integrating with concrete practice and work experience which the writer has recently been engaged in establishing spatial database,a very comprehensive control of data quality should be discussed from aspects of positional accuracy、attribute accuracy、temporal accuracy、data compression、as well as logic conformance and so on.Finally,a dependable spatial database should be set up. Key words:GIS;spatial database;spatial data;quality characteristic;quality control 0 引言 空间数据库是随着地理信息系统(GIS)的开发和应用而发展起来的数据库新技术,它是地理信息系统的重要组成部份,是地理信息系统应用部份的前题和基础。空间数据库为此建立了如实体、关系、数据独立性、完整性、数据操作、资源共享等一系列基本概念。以空间数据存储和操作为对象的空间数据库,把被管理的数据从一维推向了二维、三维甚至更高维。空间数据库是一种应用于空间数据处理与信息分析领域的具有工程性质的数据库,它所管理的对象主要是空间实体。在空间数据库中,空间数据质量的好坏,直接影响到空间数据库的经济效益和社会效益。 要得到高质量的空间数据,最重要的是在空间数据生产和使用过程中进行质量管理和质量控制。通过质量管理和质量控制,可以分析影响产品质量的原因,进而提高空间数据的质量。空间数据的质量是空间数据库生存和发展的保障,缺少质量指标的空间数据将无法得到用户的信任,且直接影响到地理信息系统应用、分析、决策的正确性和可靠性。由此可知,空间数据质量是空间数据库的生

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支

持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

元数据管理解决方案-2018.3.27

元数据解决方案 随着报价系统每年收集和使用的数据飞速增长,数据体量日趋增长,数据形态多样化且不统一,多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心,是有效管理这些数据的基础和前提,在信息化建设中发挥着重要的作用。如何理解、管理并发挥出元数据的价值,成为迫切的任务。 一、什么是元数据 元数据(Metadata)是关于数据的数据。元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 1. 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 1) 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据 的定义,以及数据集市的位置和内容。 2) 业务系统、数据仓库和数据集市的体系结构和模式。 3) 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、 汇总、预定义的查询与报告。 4) 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分 割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存 取控制)。 2. 业务元数据 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:

1) 使用者的业务术语所表达的数据模型、对象名和属性名。 2) 访问数据的原则和数据的来源。 3) 系统所提供的分析方法以及公式和报表的信息。 4) 企业概念模型、多维数据模型,业务概念模型与物理数据的依赖, 二、元数据的作用 元数据可以实现业务模型与数据模型的映射,帮助用户理解数据仓库中的数据;元数据清晰的描述了数据的来龙去脉,描述了数据抽取转换规则,是保证数据质量的关键;元数据管理系统可以把整个业务的工作流、数据流和信息流有效的管理,可以支持需求变化,从而提高系统的可扩展性;打通数据孤岛,统一数据定义,形成企业级知识传承平台,元数据管理使得数据变的更有价值。三、元数据管理 在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。 1. 元数据采集 技术元数据的采集,根据现有元数据设计出元模型,然后将数据仓库系统之中的元数据按元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的,ETL等产生的元数据,对于元数据管理工具支持的格式可直接进行导入,对于一些自定义的规则,需要进行格式转换并导入。

《元数据的作用 [元数据的构成方式]》

《元数据的作用[元数据的构成方式]》 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。 元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根

据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可以进行有选择的增加。例如,描述空间信息资源时,可以增加空间参照系、图示表达等元数据实体,描述科学数据资源时需要增加数据质量等元数据实体。 二是对信息资源的获取方式进行描述。包括信息资源的分发者信息、信息资源的在线获取地址信息等。通过提供分发者联系信息,使用者可以直接联系信息资源的分发部门,这对于不能直接在网络上进行数据交换的信息资源获取非常有效。其次,使用者还可以通过信息资源的在线地址来下载、查询、浏览信息资源。使用者甚至可以提供专门的电子订单处理系统,并将入口信息加入到元数据内容中,方便

空间数据质量在GIS中的影响

地理信息系统(GIS)的基础是空间数据,空间数据的核心是质量,空间数据的生产与质量控制是一个相互作用的过程,生产数据是为了应用,而数据质量是一个关系到数据可靠性和系统可靠性的重要问题。随着数据质量在建设数字地球、进行矿产预测的计算机模拟中发挥着越来越重要的作用,但如果空间数据的质量及其精度未能引起足够的重视,由这些空间数据进行重新运算和组合产生的空间数据就不是最终需要的结果,可能导致最终决策错误。要提高空间数据的质量,减小空间数据误差,就要对空间数据误差产生和扩散的所有过程和环节进行控制。在数据采集时对元数据进行跟踪,采取相应的措施提高数据质量。以地图数字化为例,对纸质地图进行数字化前应对其进行校正或配准,选用精度比较高的数字化仪和扫描仪提高栅格数据的精度等;根据空间数据质量评价的标准还应制定相应的细则来提高数据质量;对采集和处理空间数据人员进行岗前培训等也都能减小误差的传播。 1 GIS 空间数据质量控制研究现状 GIS 空间数据的质量优劣直接影响着GIS应用中分析结果的可靠程度及应用的真正实现,也影响着GIS产业的健康发展。因此,近年来国内外越来越关注GIS数据的精度和质量控制的研究。GIS数据的质量控制问题涉及面很广,包括数据质量的衡量标准、表示方法,数据误差的来源和性质,评价方法和控制方法及相关政策等。如政府部门积极制定法规保障数据质量;将数据作为产品,采用管理产品质量的方法管理数据质量;数据质量的教育、培训与咨询;初步形成了地理数据质量的系列国际标准,如ISO 19100系列标准中地理信息质量标准;方法上,主要成果和结论,包括直线不确定性模型的改进、曲线不确定性模型的建立;将平差理论引入GIS数据误差处理和质量控制,并提出了实用方法;对GIS 数字化误差的性质、分布进行了深入研究;从抽样检验的理论出发,探讨了GIS 产品的质量控制技术和方法。 2 空间数据质量的概念 2.1空间数据的质量 空间数据是有关空间位臵、专题特征以及时间信息的符号记录,而数据质量是空间数据在表达这3个基本要素时所能达到的准确性、一致性、完整性以及它们三者之间统一性的程度。由于现实世界的复杂性、模糊性以及人类认识和表达能力的局限性,空间数据在表达上不可能完全达到真值,只能在一定程度上接近真值。用户根据需要对空间数据的处理也会导致出现一定的质量问题。所以空间数据的误差产生于各种数据源及空间数据的输入和处理过程中。 2.2与空间数据质量相关的几个概念 2.2.1误差(Error)反映了数据与真实值或公认的真值之间的差异,它是一种常用的数据准确性的表达方式。

浅谈数据仓库中的元数据管理技术

浅谈数据仓库中的元数据管理技术 孙力君仇道霞方峻峰宋楠 山东省烟草公司信息中心 摘要:数据仓库是数据库的发展方向之一,对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念,重点阐述了元数据的概念、作用、CWM标准、来源,并就元数据具体应用进行了初步的研究和探讨。 关键词:数据仓库;元数据; 1. 引言 随着市场竞争的越来越激烈,烟草行业的信息化建设不断的深入发展,全行业形成了“以信息化带动烟草行业现代化建设”的基本共识,明确了“统一标准、统一平台、统一数据库、统一网络”,逐步实现系统集成、资源整合、信息共享的信息化建设总体要求,走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程,初步形成了“数字烟草”的行业信息化建设格局,既对行业数据中心的建设提出了迫切的要求,也为行业数据中心建设奠定了坚实的基础。 随着数据库技术尤其是数据仓库技术的发展,人类能更容易获得自己需要的数据和信息,由于元数据是数据仓库中非常重要的组成部分,因此讨论和研究元数据在数据仓库中的作用和应用,具有非常重要的意义。 元数据管理是山东烟草数据中心建设的重要组成部分,元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整

个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。 通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施,通过精确把握经营数据来精确把握瞬息万变的市场竞争形式,使山东烟草在市场竞争中保持优势。 总的来说,元数据管理平台集成相关的元数据,形成企业的全局数据视图,提供企业级共享元数据的平台,是烟草业务系统的基础设施,对业务系统的发展、应用和数据质量的提升有着深远影响。 2.数据仓库概述 目前有关数据仓库的概念有多种,其中最经典的,引用最为广泛的定义是W.H.Inmon在《Building the Data Warehouse》一书中给出的,他指出:“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程”。[1] 之所以要引入数据仓库,是因为随着信息时代的到来,如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策,许多企业都选择了数据仓库,利用数据仓库可以对各种源数据进行抽取、清理、加工

第12章元数据管理-DAMA-DMBOK:数据管理知识体系(第二版)

第十二章 元数据管理 1.简介 元数据的最常见定义,“关于数据的数据”,很容易引起误解。可以归类为元数据的信息种类繁多。元数据包括有关技术和业务流程,数据规则和约束以及逻辑和物理数据结构的信息。它描述了数据本身(例如,数据库,数据元素,数据模型),数据表示的概念(例如,业务流程,应用程序系统,软件代码,技术基础结构)以及数据和概念之间的连接(关系)。元数据可帮助组织了解其数据,系统和工作流程。它可以进行数据质量评估,并且是数据库和其他应用程序管理的组成部分。它有助于处理,维护,集成,保护,审核和管理其他数据。 要了解元数据在数据管理中的重要作用,请想象一个大型图书馆,其中有成千上万的书籍和杂志,但没有卡片目录。没有卡片目录,读者甚至可能不知道如何开始寻找特定的书甚至特定的主题。卡片目录不仅提供必要的信息(图书馆拥有的书籍和材料以及在何处被搁置),还使读者可以使用不同的起点(主题区域,作者或标题)来查找材料。没有目录,很难甚至不可能找到一本书。没有元数据的组织就像没有卡片目录的图书馆。 元数据对于数据管理和数据使用都是必不可少的(请参阅DAMA-DMBOK中对元数据的多个引用)。所有大型组织都会产生和使用大量数据。在整个组织中,不同的个人将具有不同级别的数据知识,但是没有一个人会了解有关数据的所有知识。此信息必须记录在案,否则组织可能会失去有关自身的宝贵知识。元数据提供了捕获和管理有关数据的组织知识的主要方法。 但是,元数据管理不仅是知识管理方面的挑战,而且还存在许多挑战。这也是风险管理的必要。元数据对于确保组织可以识别私有数据或敏感数据以及为自己的利益管理数据生命周期以及满足合规性要求并使风险最小化是必不可少的。 没有可靠的元数据,组织将不知道它拥有什么数据,数据代表什么,它起源于何处,它如何在系统中移动,谁可以访问它,或者对高质量数据意味着什么。没有元数据,组织就无法将其数据作为资产进行管理。确实,没有元数据,组织可能根本无法管理其数据。 随着技术的发展,生成数据的速度也提高了。技术元数据已经成为数据移动和集成方式不可或缺的一部分。ISO的元数据注册标准(ISO / IEC 11179)旨在基于数据的精确定义,在异构环境中启用元数据驱动的数据交换。以XML和其他格式显示的元数据可以使用数据。其他类型的元数据标记允许在交换数据的同时保留所有权,安全要求等指示符(请参见第8章)。 像其他数据一样,元数据也需要管理。随着组织收集和存储数据的能力的增强,元数据在数据管理中的作用越来越重要。要以数据驱动,组织必须以元数据驱动。

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期 末综合复习

数据仓库与数据挖掘期末综合复习 第一章 1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类:联机事务处理和联机分析处理。 4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。 5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。 OLAP技术的有关概念: OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP 6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。 7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。 9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。 10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。 11、什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。 数据仓库的特点包含以下几个方面: (1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。 (2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。 (3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。 (4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。 12、数据挖掘的概念 数据挖掘,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现。数据挖掘的方法:直接数据挖掘、间接数据挖掘。

.数据分析篇——空间元数据

空间元数据库知识点一、知识点结构

二、知识点内容 知识点(优先级)描述定位 1元数据编辑相关插件(A) 与元数据编辑相关的视图为元数据视图。 与元数据编辑相关的插件有元数据编辑插件,加载之后的工具条为: ?元数据库列表框用于选择元数据库,如图所示:元数据库列表框; ?元数据集列表框用于选择元数据集,如图所示:元数据集列表框; ?样式表列表框用于选择样式表,如图所示:元数据显示样式表列表框; ?单击编辑按钮,可以实现对元数据的编辑,如图所示:编辑元数据按钮; ?单击创建按钮,可以实现对元数据的创建,如图所示:创建元数据按钮; ?单击导入按钮,可以导入元数据,如图所示:导入元数据按钮; ?单击导出按钮,可以导出元数据,如图所示:导出元数据按钮; ?单击元数据和空间数据的一致性检查按钮,可以浏览检查元数据和空间数据的一致性,如图所示:元数据和空间数据的一致性检查按钮; ?单击浏览附件按钮,可以浏览元数据附件,如图所示:浏览元数据附件按钮。 MapGIS7.x 数据管理 篇.chm 25.2.2

2元数据创建(A)1、创建元数据库和元数据集 在“元数据库”文件夹右键选择“创建”功能,输入元数据库的名称,如test。 展开元数据库,找到test点击右键选择创建元数据集,输入元数据集名称。 图1创建元数据库和元数据集 2、元数据的创建方法有多种,以下逐一介绍。 (1)在元数据集上右键点击元数据导入,其具体的操作参见元数据的批量导入。 (2)工具条上点击创建元数据按钮,如果当前选中的是“元数据库”,就会在元数据库文件夹下的第一个元数 据库中的第一个元数据集中建立元数据;如果选中的是某个元数据库(如test),就会在该元数据库中的最先建的 元数据集中建立元数据;如果选中的是某个元数据集(如meta),就会在该元数据集中建立元数据。 (3)为地理实体建立元关系,在建立了元关系的元数据集上右键点击,选择同步元数据,则会在元数据列表中新 建元数据,其具体的操作请参考创建同步和更新同步。 MapGIS7.x 数据管理 篇.chm 25.2.1 3元数据浏览(A)在MapGisCatalog目录树中选中某个元数据集,将视图切换到元数据视图,在元数据视图中的元数据列表中会列出 该元数据集下的所有元数据,选择某条元数据,在元数据视图中即会显示该条元数据的信息。 可以从下拉列表中,选择已有的显示方式对该条元数据的显示方式进行更改。 MapGIS7.x 数据管理 篇.chm 25.2.1

数据仓库中元数据的管理

数据仓库中元数据的管理M etadata M anagem en t i n a Data W arehouse 同济大学计算机科学与工程系(上海200092) 史金红 吴永明 【摘要】 介绍了数据仓库中四种基本类型的元数据,说明了不同类型元数据的收集和维护方法,并着重对分布式元数据的集成和管理进行了详细的阐述。 关键词:数据仓库,数据商场,决策支持,元数据 【Abstract】 T h is p ap er in troduces fou r typ es of m etadata and the m ethods of co llecting and m ain tain ing them.It focu ses on the m etadata m anagem en t and in tegrity. Key words: da ta warehouse,da ta mart, dec ision support,m etada ta 1 引言 随着社会的发展和计算机技术的进步,人们已不满足于用计算机只作简单的数据处理和事务处理。进一步用现有的数据进行分析和推理,从而为决策提供依据的需求导致了决策支持系统(D SS)的出现。90年代以来计算机技术、网络技术和数据库技术的迅速发展为D SS提供了必要的技术环境, OL T P和办公自动化普遍应用积累的大量数据为D SS提供了必要的数据基础,日趋激烈的市场竞争促进了各级管理和决策人员对D SS的实际需求,因此自从1991年W.H.Inm on提出数据仓库的概念和1993年E.F.Codd提出OLA P概念以来,已有许多商品化的数据仓库管理系统和联机分析处理工具软件面市。以上诸因素的共同作用促成许多公司、机构纷纷为提高自己的竞争能力建立数据仓库系统以进行决策支持。 元数据是成功的数据仓库的重要组成部分,它可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息,帮助数据库管理员了解某些表的变化将对数据仓库产生怎样的影响以及不同商业过程对应的应用等等。项目小组在开发过程中应当识别元数据并将它收入到元数据商店中,实施适当的过程捕作企业数据结构和应用的变化,从而修改相应的元数据,并向用户提供适当的工具访问元数据。 2 元数据的基本类型 元数据按照其用户可以分为技术元数据和商业元数据。技术元数据提供给数据仓库的技术人员,数据仓库技术人员在仓库的开发和维护中使用这类元数据。商业元数据是商业用户在仓库中寻找他们所需商业信息的一个辅助。但是,技术人员可能也需要访问几种类型的商业元数据,如和商业用户讨论信息需求和建立企业的数据模型。同样,商业用户也需要尝试高水平的技术元数据。 元数据按其内容可以分为四个基本类型: 1)关于数据仓库潜在数据来源的信息,包括现有的业务系统、可得到的外部数据和目前手工维护的信息。例如,一个组织可以从中识别数据来源的潜在仓库数据源有:几个现有的应用程序,由财务部门保存的基于PC机的电子报表,从某一卖主处购买的销售数据,目前由顾客服务部门在纸上保存的顾客联系记录。 2)关于数据模型的信息,包括业务实体、关系、企业规则和企业数据模型。 3)关于业务数据与仓库数据结构间的映射信息。只要那些来源中的一个数据元与仓库建立了映射关系,就应该记录下这些数据元间的逻辑联系以及发生的任何变换或变动。 4)关于数据仓库中信息的使用情况。了解这类信息对更好地调整仓库性能、更多地利用现有查询以及理解仓库中的信息怎样用于解决企业问题是很重要的。 3 元数据的收集和维护 在适当的时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。为保证较高的准确

元数据管理方案

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。经过元数据自动抽取,用户能够方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针正确对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。

1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: ●整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中能够是物理上集中的,也能够是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,因此对于需要共享的数据要进行安全方面的限制,限制的手段能够有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理

元数据管理

1.前言 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。2.元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模

数据仓库元数据管理

1.1.1 第一章元数据概论 企业的计算机系统每年会产生很多数据,很多企业面临着这样的困境,难以有效的管理大量的、繁杂的、不一致的数据,并方便地访问、利用这些数据进行辅助决策。 建立数据仓库提供一个方法,把数据转化为有用的、可信赖的信息,支持商业决策。建立数据仓库一个重要的工作是元数据管理。元数据(Metadata)就是数据的数据,用于建立、管理、维护和使用数据仓库。。元数据管理是企业级数据仓库中的关键组件,贯穿于建立数据仓库的整个过程。 元数据使得用户可以掌握数据的历史情况,如数据从哪里来?流通时间有多长?更新频率是多大?数据元素的含义是什么?对它已经进行了哪些计算、转换和筛选等等。在需求不确定情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求的变化,降低项目风险。 通常把元数据分为技术元数据(Technical Metadata)和业务元数据(Business Metadata)。技术元数据是描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护数据仓库;业务元数据从商业和业务的角度描述数据仓库的数据,提供了良好的语义层定义,业务元数据使业务人员能够更好的理解数据仓库分析出来的数据。 元数据贯彻于建立数据仓库的整个过程,不只是ETL过程需要元数据的支持。 图1 元数据的应用 在使用元数据的同时,随着数据仓库市场的发展,业界出现许多数据仓库管理和分析的工具,各种工具使用不同的元数据标准来表示和处理,不同系统之间的迁移、数据交换变得困难。于是,我们希望用一种单一的元数据标准,使得各种组织的元数据具有单一的元模型(MetaModel),因此,需要建立一种标准使得不同的数据仓库和商业智能系统之间可以相互交换元数据。 1.1.2 第二章元数据标准 1.1. 2.1 一、元数据标准CWM OMG于2001年颁布元数据标准CWM 1.0(Common Warehouse Metamodel Version 1.0)。CWM定义一个描述数据源、数据目的、转换、分析的元数据框架,以及定义建立和管理数据仓库的过程和操作,提供使用信息的继承。 目前宣布支持CWM的厂商包括:IBM、Oracle、Hyperion、Dimension EDI、Genesis IONA、HP、NCR和Unisys等。 CWM基于3个工业标准: UML - Unified Modeling Language,OMG建模标准; MOF - Meta Object Facility,OMG建立元模型和模型库的标准,提供在异构环境下的数据交换的接口; XMI - XML Metadata Interchange,OMG元数据交换标准。 UML在CWM中得到充分的应用,担任3个不同的角色: 1),UML用来做为与MOF对应的meta-metamodel。UML相当于MOF Model,,UML Notation和OCL(Object Constraint Language),被用来做为建模语言、图形符号、约束语言,

第三章 空间数据采集与处理练习资料

一、单选题 1、对于离散空间最佳的内插方法 是: A.整体内插法 B.局部内插法 C.移动拟合法 D.邻近元法 2、下列能进行地图数字化的设备 是: A.打印机 B.手扶跟踪数字化仪 C.主 机 D.硬盘 3、有关数据处理的叙述错误的 是: A.数据处理是实现空间数据有序化的必要过程 B.数据处理是检验数据质量的关键环节 C.数据处理是实现数据共享的关键步骤 D.数据处理是对地图数字化前的预处理 4、邻近元法 是: A.离散空间数据内插的方法 B.连续空间内插的方法 C.生成DEM的一种方法 D.生成DTM的一种方法 5、一般用于模拟大范围内变化的内插技术是: A.邻近元法 B.整体拟合技术 C.局部拟合技术 D.移动拟合法 6、在地理数据采集中,手工方式主要是用于录入: A.属性数据 B.地图数据 C.影象数 据 D.DTM数据

7、要保证GIS中数据的现势性必须实时进行: A.数据编辑 B.数据变换 C.数据更 新 D.数据匹配 8、下列属于地图投影变换方法的 是: A.正解变换 B.平移变换 C.空间变 换 D.旋转变换 9、以信息损失为代价换取空间数据容量的压缩方法是: A.压缩软件 B.消冗处理 C.特征点筛选 法 D.压缩编码技术 10、表达现实世界空间变化的三个基本要素是。 A. 空间位置、专题特征、时间 B. 空间位置、专题特征、属性 C. 空间特点、变化趋势、属性 D. 空间特点、变化趋势、时间 11、以下哪种不属于数据采集的方式: A. 手工方式 B.扫描方式 C.投影方 式 D.数据通讯方式 12、以下不属于地图投影变换方法的是: A. 正解变换 B.平移变换 C.数值变 换 D.反解变换 13、以下不属于按照空间数据元数据描述对象分类的是: A. 实体元数据 B.属性元数据 C.数据层元数据 D. 应用层元数据 14、以下按照空间数据元数据的作用分类的是: A. 实体元数据 B.属性元数据 C. 说明元数据 D. 分类元数据 15、以下不属于遥感数据误差的是: A. 数字化误差 B.数据预处理误差 C. 数据转换误差 D. 人工判读误差

简述空间元数据及其作用

1、简述空间元数据及其作用。138 空间元数据是指在空间数据库中用于描述空间数据的内容、质量、表示方法、空间参考和管理方式等特征的数据,是实现地理空间信息共享的核心标准之一。 元数据的类型:标志信息:是惟一标志数据集的元数据信息,比如数据集名称、发布时间、空间分辨率、法律限制等 数据质量信息:是数据集质量的总体评价,包括数据集的完整性、逻辑性、位置精度、时间精度、属性精度等方面的综述以及说明数据质量的保证措施,以及数据源、数据处理过程。空间参照系统的信息:对于空间数据信息参照的说明。 空间数据的组织信息、内容信息、分发信息和核心参考信息等 作用:帮助用户了解、分析数据;空间数据的质量控制;在数据的集成中的运用;数据存储和功能的实现;空间数据质量控制;能够保证数据逻辑与科学的集成;有足够的说明数据来源加工处理的过程、数据翻译。 2、3s集成的意义和作用 “3S”集成技术是指RS、GPS和GIS借助于通讯技术、计算机技术有机结合起来的技术。RS:Remote Sensing-遥感 GPS:Global Positioning System-全球定位系统 GIS:Geographic Information System-地理信息系统 3s集成科用于科学研究、政府管理、政府生产以新一代的观测手段和描述语言作为工具。3s的联合运用取长补短,是一个自然发展的趋势,3s相互作用形成以个大的镜框。 Rs和gps向gis提供区域及空间位置,gis用于相应的空间分析;rs提供的浩如烟海的数据中提取出有用的信息并进行综合的集成,使之成为决策的科学依据。 在实际运用中,表现为3s两两之间的集成,gis、rs的集成,gis、gps的集成。Rs、gps的集成。 3、简述数字城市的框架以及数据共享需要解决的关键数据问题。 功能体系分为3个层次:基础层、专题层、综合层。 基础层包括:城市的地理环境、城市的资源环境、城市的社会经济人文环境。 专题层包括:(1)社会:人口、教育、科技、文化、体育、卫生、公安、司法、劳动、民政(2)经济:规划、房产、国土、供水、供电、供热、供气、供水、工业农业、商业财税收、金融 (基础层再专题化) 综合层:政府的综合决策系统。 技术框架有:全球定位系统、遥感系统、矢量技术、数据的标准化、数据的传输、数据的存储、数据的处理、3s的集成。 关键技术有:计算技术、海量存储于处理技术、数据获取技术、宽带网络技术、库操作技术、空间数据仓库、空间数据融合、元数据、虚拟现实技术。 三、综述 1、为了完成城市道路拓宽改建的分析,需要哪些数据,分析的流程。 答:利用建立缓冲区、拓扑叠加的特征提取,计算一条道路拓宽改建过程中的拆迁指标。(1)明确分析的目的和标准:目的是计算由于道路拓宽而拆迁的建筑物的建筑面积和房产价值,道路拓宽改建的标准是: a)道路从原有的20m拓宽至60m; b)拓宽道路应尽量保持直线; c)部分位于拆迁区内的10层以上的建筑不拆除。 (2)准备进行分析的数据:需要设计两类信息,一类是现状道路图;另一类为分析区域

相关主题
文本预览
相关文档 最新文档