当前位置:文档之家› 元数据应用规范研究

元数据应用规范研究

元数据应用规范研究
元数据应用规范研究

元数据应用规范研究

沈芸芸/肖珑/冯英

2012-9-29 20:15:56 来源:《现代图书情报技术》(京)2010年12期【英文标题】On Metadata Application Rules

【作者简介】沈芸芸肖珑冯英北京大学图书馆北京100871 E-mail:yyshen@ lib. pku. edu. cn

【内容提要】从研究元数据应用与信息资源生命周期的关系入手,引出元数据应用与设计的一般原则,探讨并构建数字图书馆元数据应用体系模型——元数据核心集、元数据基本结构(包括扩展规则)及应用纲要,同时对元数据开放机制的建立以及元数据应用的一般流程给出建议,为中国数字图书馆的建立具有可操作性的元数据应用规范。

This paper discusses how to build the general metadata application rules for Chinese digital library. It aims at solving the applications of metadata in Chinese digital library, developing a series of related metadata standards, criteria and platforms, to meet the requirements of describing, organizing, managing, serving and preserving the Chinese digital objects. It also gives the metadata application principles and framework, the metadata open and interoperability mechanism, and the metadata application workflows, based on the work of DCMI as well as the other international leading metadata projects. The authors are trying to find the best practice of metadata application for developing digital library in China.

【关键词】元数据应用/应用规范/应用纲要/数字图书馆Metadata application/Application rules/Application profile/Digital library

1 引言

随着数字图书馆的不断发展,元数据作为数字图书馆建设的关键问题,在数字图书馆领域的研究与应用得到了国内外图书馆界的普遍关注。元数据标准作为数字图书馆所采用的信息描述方法,在数字图书馆的资源描述、组织、管理、保存与服务等各个环节中得到广泛应用。元数据标准在不同领域、不同机构的具体应用及其在实际应用中产生变化的过程,称之为元数据应用。元数据应用与信息资源生命周期息息相关,而元数据也是一个包含了描述元数据、管理元数据、服务元数据、保存元数据以及元元数据等在内的体系,因此,在数字图书馆建设与服务中,确切地说在信息资源生命周期中,元数据应用需要遵循一定的规范,以保证根据该规范研制和应用的各类元数据标准在数据结构、格式、语义语法等方面的一致性和整体性,支持今后在更大范围内实现与其他系统数字图书馆的互操作和数据共享。

目前,国内外的元数据应用规范方案主要有两种形式:

(1)建立元数据标准在不同领域的应用纲要,以DC的“图书馆应用纲要”(DC-Lib)[1]、DC的“教育应用纲要”(DC-Education)[2]为代表。

(2)在数字图书馆项目中建立元数据应用框架或规范。在国外,如美国国家科学数字图书馆(National Science Digital Library, NSDL)[3]建立了元数据

格式的基本框架;加州大学数字图书馆项目(California Digital Library)[4]对元数据的定义、结构、编码、检索、保存等都进行了说明。国内如北京大学图书馆提出《中文元数据标准框架》[5]并在此框架下制定《古籍元数据标准》、《拓片元数据标准》等;清华大学“建筑数字图书馆”项目的元数据方案以及“数学数字图书馆”项目的保存元数据方案;科技部科技基础性工作专项资金重点项目“我国数字图书馆标准与规范建设”中的《专门元数据规范设计指南》[6]以及根据该指南建立的核心元数据与一系列专门元数据规范等。但是,由于数字图书馆中信息资源的多样性与复杂性,目前的成果还不能满足数字图书馆建设的实际需要,制定数字资源建设采用的元数据应用规范体系,已成为数字图书馆建设要解决的关键问题之一。

本文在对都柏林核心元数据计划(Dublin Core Metadata Initiative, DCMI)的一系列标准规范和应用纲要等进行调研并开展中文本地化应用的基础上,结合国内外元数据标准和应用方案的实践经验,研究元数据应用与信息资源生命周期的关系,引出元数据应用与设计的一般原则,探讨并构建数字图书馆元数据应用体系模型——包括元数据核心集、元数据基本结构(包括扩展规则)及应用纲要,同时对元数据开放机制的建立以及元数据应用的一般流程给出了建议。

2 信息资源生命周期与元数据应用

在数字资源从产生到服务的整个生命周期中,根据元数据描述和管理内容、元数据作用的不同,可以将元数据分为多种类型,并从最基本的资源内容描述元数据开始,直到描述元数据的元元数据,形成了一个层次分明、结构开放的元数据体系[7]。张晓林在“中国数字图书馆标准规范建设”项目中引用图1中的信息资源生命周期来说明数字图书馆标准规范的框架,此处稍做修改并强调在信息

资源生命周期的不同阶段有不同的元数据需要,借此来说明信息资源生命周期与元数据的关系。

图1信息资源生命周期与元数据①

根据生命周期理论,所有信息资源都经历了从创造、采集、加工整理、利用、保存、处置(主要指资源的剔除/销毁)等过程。根据这一周期,可以建立信息进入信息服务中介后的生命周期以及周期中所涉及的事件与数字图书馆建设标准规范之间的关系(见图1)。数字图书馆标准规范存在于信息资源建设与服务的各个阶段,而元数据规范作为数字图书馆标准规范的重要组成部分,在整个生

命周期的不同的环节中起着不同的作用。元数据规范主要涉及信息资源的采集加工、服务、保存、处置等环节。

图2不同类型元数据的关系

如图2所示,在信息资源生命周期中不同类型的元数据均不是孤立存在的,它们产生的阶段和实现的主要功能虽然不同,但目的却都是为了信息资源的建设提供标准规范,实现信息资源的共享。例如,描述元数据实现资源的描述、检索功能,主要在采集和加工阶段形成,但在其他元数据中资源描述的功能也不可或缺;管理元数据存在于信息资源的整个生命周期内,它与资源的生命周期息息相关;保存元数据需要在信息资源的长期保存阶段建立,用于保存资源对象的特定信息,它需遵循一套标准的体系框架才能保证后人对信息资源的存取和阅读;服务元数据用于数字资源服务的揭示与表现,并对服务过程、服务系统等方面的相关信息进行描述,主要功能是实现信息资源服务的跨系统共享;描述、管理、服务和保存元数据均有不同的对象层次,在建立时要考虑不同对象层次的需要;元元数据为管理其他元数据而存在,是对元数据的标记语言、格式语言、标识符、扩展机制、转换机制等信息的描述。

3 元数据应用与设计的基本原则

根据元数据的作用和特点及其在信息资源生命周期中的产生与作用,为保证元数据规范在功能、结构、格式、设计方法、扩展规则、语义语法规则、元数据规范的结构格式等多方面的一致性和整体性,在更大范围内实现数字图书馆之间的互操作和数据共享,在设计各种不同的元数据规范时应该遵守一定的原则。

3.1开放性原则

(1)应尽可能复用或嵌套标准的或业界通用的元数据格式,没有充分的理由不要创建自己的元数据格式;

(2)应选择适用于具体的资源类型和应用需求的元数据格式;

(3)元数据体系实施开放扩展机制,允许在核心集基础上以规范方式进行扩展。

3.2模块化原则

(1)元数据应包括描述信息,即对对象资源的外部及内容特征进行揭示的数据,支持资源的查找;

(2)元数据应包括技术信息,即关于数字对象创建、使用等的技术条件的数据,从而支持所描述的数字对象的长期保存及可能的仿真或迁移处理;

(3)元数据应包括管理信息,即关于数字对象使用过程中的存取权限、知识产权、保存控制等的数据,从而支持对数字对象的有效管理;

(4)不同类型的元数据可以分别在自己的模块中形成,然后通过一定的开放结构组织在一起,以满足元数据交换、复用和动态定制等方面的要求。

3.3互操作原则

元数据格式应支持互操作,主要体现在:

(1)建立一个适用的开放的元数据体系框架模型,在结构、格式、内容编码体系等方面进行规范定义,以尽可能达到系统结构的一致性,例如元数据内容描述应使用标准的内容编码体系,包括主题或分类词表、资源类型、语种、国别或地区、日期或时期等,从而保障内容描述方式的标准化和描述内容的可交换;

(2)采用XML标记语言和资源描述框架(Resource Description Framework, RDF)进行开放性描述和标准化封装,并在其中通过“命名域”的方式注明元数据来源,使元数据格式在经过这样的描述和封装之后,可以方便地被其他系统兼容;

(3)在具体的数据级别应用上,易于建立与其他通用元数据格式的转换机制。

4 元数据应用体系模型

元数据应用体系是对元数据结构、定义规范、扩展规则、著录规则、互操作

规则甚至应用流程等进行规定,以保持元数据结构的一致性,为信息的有效组织、元数据之间的互操作、元数据的广泛应用和共享奠定基础,使数字图书馆的可持续发展成为可能。因此,在DCMI于2008年1月发布的新加坡框架的基础上,笔者修改并建立了以下元数据应用体系模型,如图3所示:

图3元数据应用体系基本模型[8]

元数据应用体系的基本模型主要由元数据基本结构与基础规范、元数据应用纲要两大部分组成。建立元数据应用体系模型的目的是保证根据此体系建立的元数据规范在数据结构、格式、语义等方面的一致性和整体性,从而在不同层面上为各种信息资源的检索、整合、交换以及其他应用提供支持。元数据应用体系的核心内容是:建立元数据核心集、确定元数据的基本结构、制定元数据应用纲要。

4.1元数据核心集

元数据核心集是根据信息资源的共同特点确定的元数据集合,它是数字图书

馆信息资源组织的基本数据要求,是确定数字图书馆各类信息资源描述、管理和保存所必备的要素集合。同时,制定元数据核心集也是各种专门元数据规范在功能、数据结构、格式、语义、语法等方面保持一致性和整体性的保证,通过这些核心元素,可以更好地检索、保存、管理和利用信息资源。

元数据核心集建议复用DC的15个核心元素,并进行标签及定义的本地标准化,应用时则需要进行相应的扩展和解释,制定针对不同资源对象的专门元数据规范。

4.2元数据基本结构

元数据的基本结构[6]是由内容结构(Content Structure)、句法结构(Syntax Structure)和语义结构(Semantic Structure)组成的。

(1)元数据内容结构

内容结构指的是元数据规范术语间的相互关系,如元素、修饰词及其属性等的相互关系,元素本身的层级描述等。元数据的基本结构一般由三个层次组成:核心、类核心、个别。例如:对于描述元数据来说,其基本结构由核心元素(在各类资源对象中都通用的元素)、资源类型核心元素(在同一类型数字资源中通用,支持同一类型资源的元数据互操作和交换)和个别元素(仅适用于某一类对象资源,由使用者自行定义,不用于交换)组成;对于管理元数据来说,其基本结构由通用元素(适用于采集、加工、服务等各个模块的元素)、专用元素(只适用于特定模块的元素)和本地元素(特定的应用系统为适应特定的应用环境而扩充的元素,由使用者自行定义)组成。

当元素无法满足对资源对象的进一步精确描述的需要时,就要对元数据进行必要的扩展,元数据扩展采用修饰词的方式:元素修饰词(Element Refinement)和编码体系修饰词(Encoding Scheme)。扩展修饰词必须遵守元数据扩展规则。扩展规则可以帮助扩展核心元素集,并在此基础上指导针对专门资源对象的描述元数据的设计。

(2)元数据句法结构

句法结构是指元数据内容的格式结构及其描述方式,它对元数据的编码语言和数据格式有直接影响。元数据句法应采用开放的结构,推荐采用较为通用开放的描述句法,如利用XML、RDF、HTML等标记语言进行置标。

(3)元数据语义结构

语义结构主要是指元数据术语的具体描述方法,包括定义各个元素、修饰词时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。这对于建立元数据登记等开放机制非常有用,有利于加强元数据的互操作。

4.3元数据应用纲要

元数据应用纲要[9,10]主要由资源分析与功能需求、元素集描述、扩展规则与著录规则(包括系统需求)以及编码指南与数据格式4个部分组成。

(1)资源分析与功能需求可以简称为应用需求。此部分描述内容包括:定义应用纲要所描述的基本实体概念以及它们之间主要的相互关系,应用需求文档的主要目的是要定义应用纲要的基本范围;定义应用纲要所需要支持完成的设计功能,以及其他一些功能需求。

(2)元素集描述指的是通过规范的元数据术语定义与描述的方法,根据应用需求产生元数据应用纲要的术语集合。不仅如此,元素集描述还需要定义哪些资源是可以被描述的、可以使用哪些属性来描述、以及用何种方式来关联属性值。此文档应由以下几部分组成:所描述资源定义;术语描述的规范或约定;术语(元数据元素及其他)集合,其中包括引用及扩展的术语,术语与术语之间的结构描述以及术语的取值约定(相应的编码体系说明)等;其他说明,包括可能的规范描述或规范模型的说明,以及应用中元数据记录的结构描述等。元素集主要使用元数据词表生成,元数据词表是一组在元数据方案中定义过的术语。一般来说,有两种类型的元数据术语:定义资源属性的术语和定义属性值的编码体系。

(3)扩展规则与著录规则是元数据在应用时需要遵守的主要应用规则,它描述了应用纲要是如何被应用的,以及使用的属性如何在环境中应用等。在实践中,此部分文档通常包括:扩展规则、著录规则以及元数据应用系统设计所需的需求文档。

(4)可选的编码句法指南文档用来描述这些元数据应用纲要应用时的编码要求与相关的特定句法。这个编码句法约束往往与具体的应用需求、系统设计以及互操作需求相关。一般情况下,应用纲要的应用者可以根据自己的需求选择并设计相应的编码规范。

5 元数据开放机制

在数字图书馆建设环境中,元数据应用不再是一个封闭的小环境应用,而是一个开放的大环境应用。一个开放的体系与相关机制对于元数据的设计与应用都是必不可少的,而且应贯穿整个元数据生命周期。因此,在设计元数据应用体系时应重视元数据开放机制。

元数据开放机制指的是在元数据的整个生命周期中,以一些开放的原则、方法、技术等机制来保障元数据的有效性、扩展性及互操作能力。通俗地说,元数据开放机制是元数据应用后需要建立的一套规范体系,通过这个体系,元数据可以开放,被别人引用。张晓林首先提出了元数据的开放设计[11],笔者在此引用经过赵亮改编后的图说明整个元数据开放机制的环境及具体内容,如图4所示:

图4元数据开放机制环境[7]

从图4中可以看出:

(1)模块化和可扩展性是开放机制环境的元数据规范的基本原则。模块化使元数据规范不仅可以复用通用或核心元数据规范的内容,也可以复用其他各种专门领域或特色的元数据规范内容,再辅之以扩展的自定义元素,可以形成一个针对新的应用需求或专门领域的元数据规范。可扩展性原则是指元数据规范的每一个部分或模块本身是可扩展的架构,可以通过复用、嵌套、扩展、修改等方式,根据应用需求灵活地构造与扩展已有的元数据规范。可扩展性的基础是模块化原则,正是模块化的结构与复用能力,才使得基于不同元数据规范相互组合、补充的扩展机制成为可能。可扩展性也要求元数据结构具有开放性,可以通过不同的层次纵向或横向地进行扩展。

(2)复用其他元数据模块或元素是可扩展性和模块化原则中最重要的基础内容。复用是指在应用元数据时,对于其他元数据标准中已经有明确定义并适用于本应用领域的元素的直接使用,在使用时应明确标明其地址。

(3)命名域机制用于有效管理和复用其他元数据模块或元素。命名域使得每一个元数据规范有自己的正式引用地址名称,使得元数据规范中的元素、修饰词等有一个唯一的正式标识符,以便人们准确引用。命名域及唯一标识符规则不仅使元数据规范在应用中保证严谨与准确,也避免了不同元数据规范中术语重名可能造成的混乱。可以说,命名域与唯一标识符是整个元数据开放机制的基础,只有基于这一基本规则,才可以保障元数据互操作能力的提高。命名域也是元数据注册登记系统的基石。

(4)元数据登记系统是实现元数据定义信息的管理、并对元数据的编码方案、

转换规则、著录规则、应用指南等规范进行发布登记管理和检索的系统。对元数据定义信息的管理是指对术语URI进行解析并定位到相关的规范定义,从而可以查看术语的定义描述,为其他元数据的复用提供规范的信息。

(5)元数据开放机制环境的另一要求是要采用开放的描述方法。开放的描述方法可以保证元数据规范描述的可解析能力、不同元数据规范的可转换能力以及采用不同元数据规范组合的元数据内容的可嵌套能力。可以采用通用的置标语言如XML、RDF、XML Schema、RDFS等来进行元数据内容及元数据规范定义的开放描述。这些通用的置标语言保证了描述的开放性需求。例如这些通用置标语言可以通过内嵌的命名域及唯一标识符机制,结合元数据登记注册系统的自动解析机制,解析出元数据术语的详细定义、各种应用规则及与其他元数据规范术语的映射关系,从而保证了元数据描述的可解析与可转换能力。而这些置标语言本身灵活开放的模块化描述架构又可以很方便地扩展或嵌套所采用的各种元数据规范的内容。整体而言,开放描述的主要内容是基于命名域及唯一标识符的规则机制,以开放的元数据登记注册系统为保障,采用开放的置标语言进行描述。

图5元数据应用一般流程[12]

6 元数据应用流程

元数据应用体系中对于元数据应用的流程并没有做约定,但在元数据应用过程中,应用流程的规范化则能使元数据应用工作事半功倍。元数据应用流程是指从元数据需求和应用环境分析、元数据标准的选择与制定、应用纲要的设计、编制元数据记录一直到在数字环境中应用元数据的各个环节,包含从开发到应用的整个流程。曾蕾等提出了元数据应用的流程图(Metadata Workflows)②,以此为基础,笔者根据国内元数据应用的实际情况改编而成图5,以适用于国内元数据

应用的流程。

6.1元数据应用环境与应用范围分析

在元数据开发应用中,首先要做的工作是应用环境的分析,主要内容包括以下几个方面[10]。

(1)明确元数据的应用领域与应用目标

元数据的应用领域广泛,既可以是某一个数据库和数字图书馆,也可以是多个数据库和数字图书馆、不同学科机构等,应用目的也是多样化的,这使得元数据的元素设置有很大的不同。如:以发现和检索为目的,元数据元素往往简单,Dublin Core是其典型代表;以著录描述为目的,则元数据元素往往较多,描述比较详细,MARC和FGDC/CSDGM[13]是其典型代表;以资源长期保存为目的,元数据元素除对资源进行描述和确认外,往往还包括详细的格式信息、制作信息、保护条件、转换方式、保存责任等内容[14]。

(2)确定元数据应用范围

确定应用领域与目标后,还需要对本领域内的数字对象及已有元数据记录格式进行分析,其中包括对元数据的使用者以及著录人员进行分析。

从微观上说,没有一种元数据可以描述所有的信息资源,因此,具体的元数据标准都有特定的、适用的资源范围。从宏观上说,对于一个包括各类信息资源与服务的数字图书馆来说,元数据应用范围从广义上说应适用于各类信息资源的

描述、管理、保存和利用,即元数据在原则上应适用于某一数字图书馆收藏和采集的所有类型的资源。

在应用时,由于元数据尤其是描述性元数据都用以描述特定的资源对象,而每种资源对象均会有其规定的或者约定俗成的内涵和外延,因此需要对所有的信息资源进行分类,以便制定或使用不同的元数据策略。目前比较规范的分类可见“信息资源名称规范列表”[7]。只有定义了科学的信息资源名称规范,才有可能去调研、应用和建立专门的元数据规范。

(3)明确服务功能需求和服务模型

主要包括用户界面及检索浏览功能——用户需求及检索浏览元素、记录间的关联模式等,并同时考虑确定服务模型:

①单一机构服务:要考虑已有记录如何再利用,如何收割外部元数据。

②合作共享模式:要考虑本地、区域、国家、国际等不同项目之间的合作与共享。

6.2元数据标准调研,选择或设计元数据标准

各领域已有的各类数据标准可以按图5归类。在对适用于本领域的元数据标准进行详细调研之后,选择采用适用的元数据标准,如果没有适用的,可以根据应用体系模型设计新的元数据标准。

选择和设计元数据标准在数字图书馆建设的不同阶段需要考虑的问题也不同[15],对这些问题应采用的不同的策略以保持元数据的互操作性。如在造表/选表阶段、建库阶段、联合使用阶段都有不同的选择方法,用以决定什么样的元数据标准对本领域最适用,可以最大限度地实现应用目标。

6.3元数据应用纲要

所谓元数据应用纲要,是在元数据核心集的基础上,根据具体应用的需要,规定元数据应用的框架和结构(包括内容结构、句法结构、语义结构)、核心元数据元素及命名域、扩展规则、著录规则(必备性、可重复性、元素的取值规则、最佳实践、与其他元数据的映射等)、本地应用规则以及所有元素的编码规则。

应用纲要中也应对管理元数据与结构元数据的应用做出解释和说明,建立应用指南。

6.4创建元数据记录与质量控制

根据应用纲要创建元数据记录有以下几种形式:

(1)数据创建:对于还没有元数据的信息资源,根据元数据标准和著录规则创建元数据记录,并尽可能实现元数据记录的自动/半自动生成,以便快速生成数据;

(2)数据收割:对于不同数据库或数字图书馆中符合元数据基本框架的元数据进行收割,需要使用OAI协议;

(3)数据转换:对不同格式的元数据,根据对本机构内已有的元数据分析以及应用纲要中的映射表,将不同格式的元数据转换成元数据应用中可以直接利用的元数据格式;

(4)数据整合:对于所有元数据格式通过不同的方式进行整合并进行质量控制,以便实现不同数据库的统一检索。

通过以上方式生成的元数据记录将形成元数据仓储,为用户提供统一的检索界面,同时在维护和迁移过程中将有效地保证数据仓储中元数据的质量与互操作。

6.5元数据在数字图书馆中的应用

最后一个流程是在数字图书馆中应用元数据,元数据应能支持检索、浏览、结果显示和传递等功能,支持信息资源的分布与展示,支持元数据共享与交换。根据其应用结果,可以考虑元数据的再利用问题以及元数据应用目标的重新修订等问题,以实现元数据应用的最大化。

7 结语

作为“国家图书馆元数据总则”项目的重要成果之一,本文借鉴了大量国内外元数据应用的研究成果,在国内首次建立了完整、先进、实用的元数据应用规范体系,在国际上也得到了相关人员的关注。希望该成果既能满足国家图书馆对信息资源描述、组织、管理、服务与保存的需要,以支持国家数字图书馆系统信

息资源的产生、加工、组织、发布、存储与管理;也能为国内数字图书馆的实际建设工作提供参考和借鉴。当然,由于本规范体系尚未在实践中广泛应用,因此还需要根据不同的实际需求,继续研究不断完善,使其最终能够广泛应用于各类数字图书馆的规模化建设工作中。

注释:

①张晓林.数字图书馆标准与规范建设(PPT),2004.

②《IFLA数字图书馆指南(草案)》第4章“元数据”(IFLA Guidelines for Digital Libraries, Draft.Chapter 4: Metadata).

【参考文献】

[1]DCMI-Libraries Working Group.Library Application Profile[EB/OL]. (2004-09-10). [2010-11-15]. http ://dublincore.

org/documents/library-application-profile/index.shtml.

[2]DCMI. DC-Education Application Profile Wiki Version [EB/OL]. [2010-11-15]. http ://dublincore. org/educationwiki/WikiVersion.

[3]National Science Digital Library [EB/OL].

[2010-11-15].http://nsdl. org/.

[4]California Digital Library [EB/OL]. [2010-11-15]. http://www.

元数据_基础知识

元数据 一、定义 元数据(Metadata)是关于数据的数据。它是用于描述信息资源的高度结构化数据。 元数据在数据生产过程中或完成后建立的。 二、功能 元数据是数据与数据用户之间的桥梁 1.支持资源发现 2.组织数字信息资源 3.支持资源的互操作 4.支持数字识别 5.支持存档和保存 三、分类 1. 按功能分 描述性元数据:与事物本质有关的元数据。 管理性元数据:与事物处理方式有关的元数据。包括权限管理、防伪管理、存储和使用管理。 技术性元数据

保存性元数据 使用性元数据 2.按复杂程度分 采用简单的记录格式 结构化的格式 复杂格式 3.按描述的资源类型分 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 四、结构 1.内容结构(数据元/字段/数据项) 定义元数据的构成元素,可包括描述性元素、技术性元素、管理性元素和结构性元素。 这些构成元素要满足元数据的功能要求,因此,往往与元数据的功能相对应。 当某个元素来自某个外部标准时,要在内容结构中对此说明。 2.句法结构(元数据实体/数据表/数据结构) 定义元数据内元素之间的相互关系(例如,树状结构)。 定义元数据的格式及其描述方式。包括: (1)元素的分区分段组织 (2)元素选取使用规则 (3)元素描述方法(如Dublin Core采用ISO/IEC 11179标准)

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

CELTS-42基础教育教学资源元数据规范1

基础教育教学资源元数据应用规范 (CELTS-41) 教 育信息化技术标准 CELTS-42 基础教育教学资源元数据规范 CELTS-42 CD1.6 教育部教育信息化技术标准委员会 发布

目录 1 概述 (2) 1.1 目的 (2) 1.2 范围 (2) 2 规范性引用文件 (2) 3 术语定义与缩略语 (3) 3.1 本应用规范使用的基础术语 (3) 3.2 缩略语 (5) 4 元数据元素属性定义 (6) 4.1 元数据元素的属性描述 (6) 4.2 数据元素定义的规定 (7) 5 元数据结构 (7) 5.1 元数据的基本结构 (7) 5.2 元数据元素及定义 (7) 6 限定词汇与编目词汇表 (11) 6.1 限定词汇 (11) 6.2 本规范的限定词与编目方式定义 (14) 6.3 受控词汇和编目方案 (22) 6.4 一致性 (29) 7 参考文献 (31) 附录 A 供参考的部分教育学科课程分类第三级词汇表(课程内容) (33) A.1 语文课程内容分类 (33) A.2 数学课程内容分类 (34) A.3 英语课程内容分类 (37) A.4 地理课程内容分类 (38) A.5 历史课程内容分类 (39) A.6 化学课程内容分类 (40) A.7 物理课程内容分类 (43) A.8 生物课程内容分类 (48) A.9 信息技术课程内容分类 (49) A.10 音乐课程内容分类 (50) A.11 美术课程内容分类 (50)

CELTS-42基础教育教学资源元数据规范 1 概述 1.1 目的 本规范提供一个面向基础教育的教学资源数据模型。制定本规范旨在对希望在学校、企业、其他机构和个人的教学资源中使用元数据的用户提供一套资源编目准则,以使读者能快速、有效地在国家基础教育资源库及门户网站中检索到所需的教学资源,广泛地实现资源共享。 1.2 范围 本规范在《CELTS-3学习对象元数据:信息模型规范》(以下简称《学习对象元数据规范》)的基础上,结合我国基础教育的实际,定义了一组面向基础教育的教学资源元数据元素。 本规范依照教育部颁布的《义务教育课程设置实验方案》、《义务教育各学科课程标准(实验稿)》以及《学习对象元数据规范》,同时参考《都柏林核心集元数据(DCMES)》、《中国图书馆图书分类法》、美国GEM项目及澳大利亚EdNA项目的词汇分类方法,定义了一组用于元数据元素编目的受控词汇及相应的词汇表。 本规范通过与《学习对象元数据规范》的元素间映射来实现与CELTS的一致性。 本规范包括﹕ ?概述 ?规范性引用文件 ?术语定义与缩略语 ?元数据元素属性定义 ?元数据结构 ?限定词汇及编目词汇表 ?一致性 ?参考文献 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本应用规范的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本应用规范。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本应用规范。 ?ISO 639:规定人类语言表示方法的国际标准。 ?ISO 646:规定ASCII字符集的国际标准。 ?ISO 8601:规定日期和时间表示方法的国际标准。 ?ISO 3166:规定国家名称表示方法的国际标准。

元数据与元数据标准现状

元数据与元数据标准现状 福建省空间工程研究中心黄瑞垠 目前国内外研究领域对元数据含义的理解虽然存在认识深浅的区别,但总体上达成了共识[[i]]。学者们大都认可“元数据是关于数据的数据”或“描述数据的数据”的观点,但对于其具体含义,又有不同阐述。张晓林等[[ii]]认为“元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源、评价资源、追踪资源在使用过程中的变化,实现简单高效地管理大量网络化数据,实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理”。肖珑[[iii]]认为元数据“是用于提供某种资料的有关信息的结构化数据(Structured data)”。张智雄[[iv]]将元数据定义为“描述任何Internet数据和资源,促进Internet信息资源的组织和发现的数据”。李郎达[[v]]引用国际图联对元数据的定义:“Metadata即描述资料的资料,可用来协助对网络电子资源的辨识、描述、指示其位置的任何资料”。 根据以上定义,参考其他学者的观点,关于元数据,可小结如下: (1)元数据的目标:元数据的根本目标是使数据库更易于使用,或为计算机辅助软件工程(CASE)服务。 (2)元数据的内容:元数据包括对数据集的描述;对数据集中各数据项(来源、数据所有者、数据生产历史)等的说明;数据质量的描述,如:数据精度、分辨率、源数据的比例尺等;数据处理信息,如量纲的转换等;数据转换方法;数据库更新、集成的方法等等。 (3)元数据的性质:元数据是数据的描述性数据;对不同领域的数据库,元数据的内容有很大差异;元数据应尽可能反映数据的特征及规律。 (4)元数据的作用:通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理和二次开发等。 在此基础上,我们将元数据概括为以数据高效利用和交换为目的的数据集说明性数据,它主要包括对数据集、与数据集相关信息、数据集各数据项说明以及数据用户访问、检索、更新数据库的方法,同时元数据也包括基于不同数据领域,如何尽可能全面反映基本数据的信息。

数据元与元数据、数据项区别

1、数据元与元数据的关系 首先肯定一点是:数据元本身也是数据单元,即也是数据。它就是一个用来对各行业的数据进行自身规范化的一个方法或一套指导的理论。用这一套方法对行业数据进行统一的名、型、值规范及分类。可以说数据元是组成数据的最小单元,是基本的。就像化学元素一样,化学元素本身并不多,即几十种,但由这几十种元素构成的物质可是形形色色。所以对于一个行业来讲数据元应该是有限的,而不是无限的。理解数据元应该从它的几个性质来认识: (1)原子性:即说明数据元具有原子特征,即是组成数据最小单元。例如“金额”本身就是一个基本数据元,“产量”,“重量”、“密度”等等 (2)集成性:按照数据本身自然联系建立数据间的关联关系,体现出了数据的集成性。同时,通过对数据元的分析,对数据的分类具有重要的指导作用。 (3)演绎性:说明可由基本数据元演绎或派生出许许多多的应用数据元,继上面的实例: 煤产量、原油产量、钢产量等,或更细致地可以演绎出:煤年产量/煤月产量/煤季产量/煤累计产量等。 从上面的讨论,我们可以看出,实际上数据元由基本数据元与应用数据元之分,所以一般来讲,我们就是指基本数据元。 可以看出,行业数据元应该是有限的,规划好行业数据元之后,可以为行业构建出统一、集成的、稳定的数据模型奠定基础,同时它也为数据交换奠定基础。更重要的是在逻辑层上为我们提供了一个统的“参考模型”。以前存在的一些模型中的数据与其它模型进行共享时,可以在这个逻辑的“参考模型”一层上得到统一。 而元数据,我个人认为理解这个元数据也应有几个层面的问题,首先,从它的定义上讲,所谓的元数据是“描述数据的数据”。单从这个定义上来看,元数据的定义是相当宽泛的。例如,描述数据元有二十几个属性,即这二十几个属性(例如数据元名称、定义、类型等),我们就称为是描述数据元的元数据。这只是单纯地从它的定义上来理解,其实,一般我们所指的元数据,通常都与具体的应用挂钩的。例如,我们保存到DBMS中的表结构、索引、字典、报表格式等等均为元数据,所以可以看出,元数据(Metadata)与数据元(Data Element)不是一个层面上的概念。 二者的关系:数据元规划好了,可以为企业提供高效的,而非冗余的元数据。元数据与软件及数据仓库紧密相关。另外,数据元之后才能谈元数据,元数据更接近于应用,而数据元仅仅是从数据名、型、值以及分类的角度对数据进行规划。数据元设计是为数据集成,即数据模型构建奠定基础,它更面向数据模型,而数据元更接近实际应用。 2.信息系统基本(通用)数据元怎样划分与提取? (1)按照行业中的关键业务活动,即工作流程,从源头出发来初步地提取出数据项,即业备流中蕴涵着数据流,这样可以保障所提取的数据元能够满足多学科的应用需求;这个过程也是分专业进行分析的过程。 (2)将多专业的数据进行统一考虑,一般来讲,我国行业信息建设发展到今天数据已经有了很大程度上的积累,这样为我们提取数据项提供了更方便的条件。这样可以按照数据元的方法对数据元本身进行分类,这种分类一般有按照“对象”、“特性”以及“表示”等进行分类,这是最基本的分类。也有的可以按照自行业和特点按照应用主题或其它进行分类。 相似类别的数据分类到一起,这样可以统一考虑该类数据的名、型及值等问题。数据元的提取是一个逐步求精的过程,不可能一次就完成,它要有一个反复的过程。 上面所说的按照对象来分类,是指该数据元是描述什么对象的,例如,在石油行业,井号,这个数据元本身就是描述“井”这个对象的,所以如果按照对象来分类,那么它将被分到“井”这个对象。可以看出,按照对象来分类时,可以为下一步建模奠定一个好的基础。 按照特性与表示也可以从不同的角度来对这些数据元进行分类。对基本数据元的分析,最后可能会得到一个层次关系,有的人问,这个基本数据元到底要分解到何时为止呢?回答是:具体抽象为哪一层与行业应用有关系,这不是死规定。一般来讲,数据元如果越基本,那么它的抽象度应越高,而距离实际应用主题就越远。这就要根据实际而定了。

元数据的标准

元数据的标准 1、数字图书馆资源组织框架 2. 元数据开发应用框架 元数据的基本意义Metadata(元数据)是“关于数据的数据”; 元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。 离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。 3. 元数据应用环境 3.1 Metadata的应用目的 (1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。 (3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。 (4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。 3.2 Metadata在不同领域的应用根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现 例如: 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 3.3 Metadata格式的应用程度 不同领域的Metadata处于不同的标准化阶段: 在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经

数据元的规范与标准化框架

数据元的规范与标准化框架 数据表示和管理的基本概念 .数据元 数据元是称之为数据的一个广义概念的特殊成员。总而言之,数据是事实、想法或命令的一种表示数据被收集、组织、记录、处理和存放在一个可检索的表中。数据还必须适用于以人工或自动方式进行交换、解释及加工处理。 有许多结构用于数据组织与管理,如数据合成、实体、文件、对象类、对象、记录、关联、关系、行、段、主体域、表以及元组。它们与数据元并不具有相似性,但可以包括或通过一些数据库实现或逻辑建模来等同于数据元的支持。 字节和位也是数据的构件,尽管它们被用于电子媒体中数据元的注册,但并不等同于数据元。在数据库中,数据元可以作为信息组(符号组、域)或字符列来处理。在的数据模型中,它是一个属性(见图)。在某特定的相关环境中被视为不可分割时,一个数据元则被作为一个单独的数据单位在自然界中,它是数据的单位,表示关于对象类的单独事实。(如:一个被赋值“”和“”的字符码表示了“雇员”这一对象类的婚姻状态的属性)。在其使用范围内,它不可能被分解为更多且具有有用含义的基本信息组。因而,数据元可被定义为在用户论述领域内是与用户相关的。数据元是自然界中对象类特性以电子或书面形式的表示。 表示 一个特性可由能够被人们解释的某一符号集来体现。一个单独的特性可由几个交替的数据元甚至数据元组(通常称之为数据合成,有时也称之为数据元集或数据元链)来表示。这样,一个特性可以由数据元组构成的数据合成或一个单独的数据元表征。 常用法 所有数据从业者和理论家都会涉及数据元的概念。无论用什么方法或技术,数据元都是整个软件开发生命周期()的公用纽带。在的早期阶段,它们曾被视为实体(或对象类)的属性在的后期,具体的数据值被赋予它们的实例作为符号组或字符列。在的任一阶段,对于软件的生产者和用户来说,数据元是可识别的数据元是数据共享和共同持有的最小单元。一些数据元得以共享的信息系统成分有)企业信息模型)数据模型)数据流程图)数据库设计(模式、文件、表格))接口规范)计算机程序 1.2.1数据模型中的数据元 在数据建模出现之前,“数据元”这个术语已被普遍使用。用于表示指导企业商务信息的数据单元传统上被称之为数据元。数据建模的演进就是为捕捉这些数据表示的语义提供一种有效的方法。图描述了用于中的数据元结构和术语与一些更为传统数据建模术语的关联在一个

元数据管理

1.前言 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。2.元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模

国内外元数据

元数据格式汇总iii 1. DC(都柏林核心元数据) 2. CDWA(艺术作品描述目录) 3. V AR Core(可视资源委员会核心元数据) 4. CDF(频道定义格式) 5. ROADS元数据(主题信息服务的资源组织和发现) 6. IEEE LOM(IEEE学习对象元数据) 7. BibTex(科技文献书目资源格式) 8. GEM(教育资源网关) 9. CIMI(博物馆信息计算机交换标准框架) 10. REACH元数据格式 11. EAD(编码文档描述) 12. ONIX(在线信息交换) 13. EELS(工程电子化图书馆) 14. EEVL(爱丁堡工程虚拟图书馆) 15. FGDC(联邦地理数据委员会) 16. GILS(政府信息定位服务) 17. MARC(机读目录格式) 18. MOA2(美国的创建II) 19. MCF(元内容框架) 20. PICA+(荷兰图书馆自动化中心) 21. PICS(网络内容选择平台) 22. TEI Header(文本编码先导计划) 23. SOIF(概略对象交换格式) 24. IAFA/WHIOS++Templates(因特网匿名FTP文件库版式) 25. ICPSR SGML Codebook(政治和社会研究方面的校际联盟) 26. LDAP DIF(轻便型目录获取协议) 27. RFC 1807(书目记录格式) 28. URCs(统一资源特征) 29. SGML(通用标准标记语言) 30. Warwick Framework(Warwick框架) 31. Web Collections(网站集合) 32. XML(可扩展标记语言) 33. RDF(资源描述框架) 1.DC(都柏林核心元数据) 名称:Dublin Core Metadata,DC

电子文件元数据规范

电子文件元数据规范 1 范围 本规范适用于九省区各级国家档案馆、各级党政机关、社会团体、企事业单位对电子文件进行以保证凭证性为目的的管理活动。其他社会组织可参照执行 在电子文件管理过程中使用元数据可实现以下目的: ——确保并证明归档电子文件的真实性、完整性与有效性,从而保证其凭证价值; ——有利于归档电子文件的保护,实现长期保存; ——在异构的信息系统中对归档电子文件进行规范、有效的管理,保证归档电子文件的可捕获、可收集、查长期利用; ——对归档电子文件及馆(室)藏档案数字化资源进行集成管理,实现有效、方便地查询、检索与利用。 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本规范的条款。凡是注明日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本规范,然而,鼓励根据本规范达成协议的各方研究是否可使用这些文件的最新版本。 GB 2312-1980 信息交换用汉字编码字符集基本集 GB/T 3760-1995 文献叙词标引规则 GB/T 3792.1-1983 文献著录总则 GB/T 7156-2003 文献保密等级代码 GB/T 7408-2005 数据元和交换格式信息交换日期和时间表示法 GB/T 9704-1999 国家行政机关公文格式 GB/T 11714-1997 全国组织机构代码编制规则 GB/T 11821-2002 照片档案管理规范 GB/T 13959-1992 文件格式与代码编制方法 GB/T 13967-1992 全宗单 GB/T 15418-1994 档案分类标引规则 GB 18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充 GB/T 18894-2002 电子文件归档与管理规范 DA/T 1-2000 档案工作基本术语 DA/T 12-1994 全宗卷规范 DA/T 13-1994 档号编制规则 DA/T 18-1999 档案著录规则 DA/T 19-1999 档案主题标引规则 DA/T 22-2000 归档文件整理规则 DA/T 31-2005 纸质档案数字化技术规范 《中华人民共和国电子签名法》 中办发[1996]14号中国共产党机关公文处理条例 国发﹝2000﹞23号关于发布《国家行政机关公文处理办法》的通知 国档发[1987]4号关于颁发《编制全国档案馆名称代码实施细则》的通知 国家档案局第6号令《电子公文归档管理暂行办法》,2003年7月28日 国家档案局第8号令《机关文件材料归档范围和文书档案保管期限规定》,2006年12月19日ISO 15489 Information and documentation—Records management ISO 23081-1 Information and documentation – Records Management Processes – Metadata for Records—Part 1: Principles

元数据管理方案

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。经过元数据自动抽取,用户能够方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针正确对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。

1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: ●整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中能够是物理上集中的,也能够是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,因此对于需要共享的数据要进行安全方面的限制,限制的手段能够有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理

2018年系统元数据管理系统分析

2018年系统元数据管理系统分析 1. 现状分析 随着经营分析系统规模不断扩大,系统所积累数据量也越来越大,收集到的海量数据背后隐藏着大量珍贵重要的信息,但也同时提高了系统的数据管理难度:一方面难以对这些数据进行有效解释,缺乏对业务流程执行的实时监控和管理;另一方面各部门数据与数据整合的难度也不断加大,影响到了经营分析系统中的数据质量。 如何对现有数据进行深层发掘,并揭示出埋藏在元数据中的趋势、因果关系、关联模式等核心信息?这是下一步深化经营分析系统应用的电信运营商需要解决的头等大事。构建BI,首先要保证的是数据质量。元数据管理解决的问题就是如何把业务系统中的数据分门别类地进行管理,并建立数据与数据之间的关系,为数据仓库的数据质量监控提供基础素材。 1.1 目前的困境 使用者(决策层、业务分析人员): 1) 经营分析系统中存在有很多报表,不同报表中存在一些相同的指标,这些指标往往不一致,给业务分析和决策工作造成很多困惑,必须花费很大的精力去检查核实。 2) 对于很多指标,不清楚其具体含义,不清楚其反映的问题,不清楚其具体算法和来龙去脉。

数据仓库项目开发维护者: 1) 不同报表中的同一指标不一致,必须花费很大的精力去检查,目前基本上是通过手工检查表和存储过程的方式,效率较低。 2) 没有完善的开发、维护规范。比如,新增一张分析报表,开发人员根据业务人员的需求制作完成之后,往往没有整理完善相应的数据指标解释和元数据管理,造成日后检查困难。 3) 开发、维护规范的执行力较低,没有行之有效的管控手段。不严格按照规范执行,随着项目的发展和时间的推移,导致数据仓库项目的健壮性和可维护性呈几何级数下降,给数据仓库的建设带来大量的重复工作。 1.2 什么是元数据管理 元数据最本质,最抽象的定义为:data about data (关于数据的数据)。而对于经营分析数据仓库而言,形象的定义为:元数据就是数据仓库的规范。这些规范包括对各种指标的定义、解释;包括对各表中数据的来龙去脉、数据的大小和格式的定义。 元数据管理,就是要建立一套行之有效的规范以及该规范的管控体系,实现从管理到查询到综合分析的全面管控,管理层次从接口到ETL处理、业务逻辑处理、结果展现处理和指标分析的方方面面,构成数据仓库应用系统的核心和基础。做到开发者能严格遵守规范,维护者和使用者有规范可查,有力的保障数据仓库项目的健壮性和可维护性。

《元数据的作用 [元数据的构成方式]》

《元数据的作用[元数据的构成方式]》 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。 元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根

据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可以进行有选择的增加。例如,描述空间信息资源时,可以增加空间参照系、图示表达等元数据实体,描述科学数据资源时需要增加数据质量等元数据实体。 二是对信息资源的获取方式进行描述。包括信息资源的分发者信息、信息资源的在线获取地址信息等。通过提供分发者联系信息,使用者可以直接联系信息资源的分发部门,这对于不能直接在网络上进行数据交换的信息资源获取非常有效。其次,使用者还可以通过信息资源的在线地址来下载、查询、浏览信息资源。使用者甚至可以提供专门的电子订单处理系统,并将入口信息加入到元数据内容中,方便

从元数据到元数据管理,这篇文章终于讲清楚了

“元数据管理是企业数据治理的基础”,在数据治理战略实施的时候,这是我们经常会听到看到的一句话。但是,数据治理的概念在国内还并未普及,如何打好数据治理的基础更是一头雾水。作为一名企业管理人员、一名IT人员、或者是一名数据行业从业者,理解数据治理的首要任务,就是——理解元数据,理解元数据管理。 本篇文章将为大家梳理元数据的概念,帮助企业理解元数据管理的作用。 元数据之元 要理解元数据首先要知道“元”是什么。元数据意思是“与数据有关的数据”。元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。元数据起源于图书馆管理系统,我们便从图书中去解释元数据的概念吧。 来举个栗子:

一本书,书的封面和内页都向我们展示了这样的元数据信息:标题、作者姓名、出版商和版权细节、背面的描述、目录、页码。这个栗子可以看出,我们日常生活中,都会有相应的元数据信息保留下来。在数据治理中,元数据便是对于数据的描述,存储着关于数据的数据信息。我们可以通过这些元数据去管理和检索我们想要的“这本书”。 企业中的元数据及元数据管理 在生活中,人们通过元数据来进行认知和管理。那在企业当中,元数据又有什么作用和意义呢?随着互联网的发展,近几年企业每年收集和使用的数据成倍增长,很多企业大数据环境中的数据形态很多样,且标准不统一,在这些类型不同的数据之间要进行采集、传播和共享就成了难事。这就势必要求企业对这些数据进行

统一标准的管控,即元数据管理。企业元数据管理,首先需要对企业所有元数据进行整体规划、抽象描述,进而设计出所需元模型。 数据、元数据、元模型的关系图 有了元模型,就能根据元模型来采集元数据信息。这样一来,就能通过层层关键信息将重要目标展现出来。

国家基础地理信息系统元数据标准(草案)

国家基础地理信息系统(NFGIS)元数据标准草案(初 稿) 1. 主题内容与适用范围 本标准提供国家基础地理信息系统(NFGIS)元数据的内容,包括NFGIS数据的标识、内容、质量、状况及其他有关特征。本标准可用于对NFGIS数据集的全面描述、数据集编目及信息交换网络服务。 2. 参考标准 ISO 15046-15地理信息--元数据(CD 2.0) FGDC 地理空间数据元数据内容标准(CSDGM)v.2.0 3. 术语 3.1 元数据 是关于数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据。 3.2 元数据元素(元数据Element)元数据最基本的信息单元。 3.3 元数据实体(元数据Entity)同类元数据元素的集合。 3.4 元数据子集(元数据Section)相互关联的元数据实体和元素的集合。 3.5 信息交换网络(Clearinghouse)数据生产者、管理者和用户之间的分布式、电子连接的网络。 3.6 数据志(Lineage)数据继承信息,包括获取或生产数据使用的原始资料说明、数据处理中的参数、步骤等情况及负责单位的有关信息等。 3.7 引用文献(Citation)数据集引用或参考使用的资料、数据集、模型、文献等。 4. NFGIS 元数据层次结构和性质 4.1 元数据层次结构 本标准规定NFGIS元数据分为三层:元数据子集、元数据实体和元数据元素。 元数据元素是元数据的最基本的信息单元,元数据实体是同类元数据元素的集合,元数据子集是相互关联的元数据实体和元素的集合。在同一个子集中,实体可以有两类即简单实体和复合实体,简单实体只包含元素,复合实体既包含简单实体又包含元素,同时复合实体与简单实体及构成这两种实体的元素之间具有继承关系。 4.2 元数据性质 本标准定义三种性质的元数据子集、实体和元素:

4电子文件通用元数据规范

电子文件元数据标准 (征求意见稿) 1.范围 本标准适用于各级机关、团体、企事业单位、社会组织。本标准规定了电子文件元数据的结构、定义、编码体系。 本标准描述的数字对象为通用的电子文件核心元数据,主要为原生电子文件与数字化文件(文本、图像)元数据。根据发展需要,扩展编制图形、影像、声音等文件类型的元数据标准。 2.编制目的 2.1 对文件及相关实体进行标准化描述; 2.2 实现不同机构、不同系统之间文件及信息的互操作; 2.3 为电子文件在不同时间、不同空间、不同应用软件中的再利用提供统一的元数据; 2.4 为电子政务、办公自动化、电子文件中心、文档管理、档案管理等系统提供成熟的电子文件全过程管理的设计模式。 3.规范性引用文件 下列文件中的条款,通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。 GB/T 2659-2000 世界各国和地区名称代码 GB/T 2260-2002 中华人民共和国行政区划代码 GB/T 11714-1997 全国组织机构代码编制规则 GB/T 9704-1999 国家行政机关代码编制规则 GB 2312-1980 信息交换用汉字编码字符集基本集 GB/T 4880-1991 语种名称代码 GB/T 4880.2-2000 语种名称代码第2部分:3字母代码 GB/T 4881-1985 中国语种代码 GB/T 3792.1-1983 文献著录总则 GB/T 13959-1992 文件格式与代码编制方法 GB/T 15418-1994 档案分类标引规则 GB/T 3760-1995 文献叙词标引规则 GB/T 9704-1999 国家行政机关公文格式 GB 18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充 GB/T 18894-2002 电子文件归档与管理规范 GB/T 7156-2003 文献保密等级代码 GB/T 19667 基于XML电子公文格式规范 DA/T12-1994 全宗卷规范 DA/T13-1994 档号编制规则 DA/T18-1999 档案著录规则 DA/T 19-1999 档案主题标引规则 DA/T 22-2000 归档文件整理规则 DA/T 1-2000 档案工作基本术语

元数据管理

1.元数据管理技术及应用现状 朋友老朱在最近惊喜地发现,在营业部的每周例会上,原先各部门针对每日用户数的争吵声,现在逐渐销声匿迹了。原来,老朱所在的这家电信运营商,最近刚刚验收并启用了一个元数据管理平台工具。通过这一平台,IT部门可以在那些曾经引发激烈争吵的数字后面加上详细的注解。这样,即便各部门得出的当日用户数数值不一样,也能在注解中清楚地看到具体的差异在哪里。如此,自然再没有了吵来吵去的必要。 元数据,最常见的定义是:“关于数据的数据”。更准确一点说:元数据是描述流程、信息和对象的数据。这些描述涉及像技术属性(例如,结构和行为)这样的特征、业务定义(包括字典和分类法)以及操作特征(如活动指标和使用历史)。早在上世纪末,元数据的概念和相关工具就已经出现,但限于当时的数据量还不够大,而元数据本身又包含太多的内容,以至于它并未得到充分利用。而在今天看来,元数据正在成为解决诸多数据问题时必须要抓住的一个“精髓”要素。 消弭争吵 在此前一年中,老朱所在的那家电信运营商,各部门之间经常就每日用户数这类问题的指标数值不一致而吵得面红耳赤。其实,在其他电信公司或者其他行业中也都存在着类似问题。简单来讲,这些公司通过各个时期的IT建设,形成了很多个独立分开的系统。以电信运营商为例,就有计费系统、网络系统、OA系统、财会系统和客服系统等等。在这些系统中,存有不同的客户信息,具体体现就是不同格式的表。 两年前,公司的数据仓库项目建设完成,本以为这会大步提升IT系统的“智能性”,没想到,基层的反映却是根本没法用。而其中的原因就在于,数据质量没法保证,也即:在业务逻辑上并不准确,各部门对于指标的定义不能统一。 以当日用户数为例。对于这一指标,市场部、网络部、计费部等部门给出的定义并不一样。按照元数据技术的术语来讲,就是在业务元数据上,大家对于业务的认识并不统一。比如:计费部门认为,一个用户当天曾拨打电话,就可以计入到当日用户数;而财务部门则认定,只有在发生费用之后才能计入;至于网络部,则认为当天开机的用户就可以算作当日用户。如此一来,各部门的当日用户数数值自然就不一样:计费中心的系统显示,当日用户数有6000;市场部的系统显示却只有4000;到了财务部门的系统中,显示仅有3000个。在这种情况下,担负着业务压力的业务人员很可能谁也说服不了对方来接受自己的数字,导致大家对数据仓库系统本身的可信度也就打了折扣。 事实上,类似问题在目前已经建成的数据仓库项目中还有很多。其中的一大难题就是,原先未能统一的定义导致了某种指标的不一致,而要搞清楚为什么不一致,就得反查数据仓库中的这些表在一开始的时候是如何定义的,表与表之间的联络关系是怎样的。这种反查工作自然要求IT部门的人员就得详细查阅原先软件的设计。但问题是,现在的软件开发一般都是迭代式开发,每个阶段都有不同的人在做。回查一个表,很可能需要涉及到这个过程中的每一个开发人员。事实上,很少有人能做到这一点。即便费尽心机终于查到了,一个月的时间也过去了。

相关主题
文本预览
相关文档 最新文档