当前位置:文档之家› 信息整合_异构数据交换综述

信息整合_异构数据交换综述

信息整合_异构数据交换综述
信息整合_异构数据交换综述

异构数据交换综述

摘要

本文介绍了异构数据交换的基本概念和研究现状,阐述了异构数据的特点,阐明了异构数据交换的方式与相关技术,并对异构数据交换的前景做出了展望。

关键词:异构数据,数据交换,数据集成,XML

A Review of Heterogeneous Data Exchange

Abstract

This paper introduces the basic concepts of heterogeneous data exchange and research status, describes the characteristics of heterogeneous data, illustrates the way the exchange of heterogeneous data and related technologies, and prospects for the exchange of heterogeneous data .

Key Words:Heterogeneous data,Data exchange,Data Integration,XML

目录

1 引言 (1)

2 研究现状 (1)

3 异构数据分析 (2)

3.1 异构数据 (3)

3.2 冲突分类 (3)

4 异构数据交换方式 (6)

4.1 异构数据的发布 (7)

4.2 异构数据的集成 (7)

4.3 交易自动化 (8)

5 异构数据交换的方法与技术 (8)

5.1 基于XML的异构数据交换技术 (9)

5.2 本体技术 (11)

5.3 Web Service技术 (12)

6 展望 (12)

参考文献 (14)

1 引言

自计算机诞生以来,人类积累了丰富的数据资源。计算机网络的普及,使得数据资源的共享成为一个热门话题。然而,由于时间和空问上的差异,人们使用的数据源各不相同,各信息系统的数据类型、数据访问方式等也都千差万别。这就导致各数据源、系统之问不能高效地进行数据交换与共享,成为“信息孤岛”。用户在具体应用时,往往又需要将分散的数据按某种需要进行交换,以便了解整体情况。如,跨国公司的销售数据是分散存放在不同的子公司数据库中,为了解整个公司的销售情况,则需要将所有子系统的数据集中起来。为了满足一些特定需要,如数据仓库,数据挖掘等,也需要将分散的数据交换集中起来,以达到数据的统一和标准化。异构数据的交换问题由此产生,受到越来越多人的重视。

用户在进行数据交换时,面对的数据是千差万别的。产生数据差异的主要原因是数据的结构和语义上的冲突。异构数据不仅指不同的数据库系统之间的异构,如Oracle和SQL Server数据库,还包括不同结构数据之间的异构,如结构化的数据库数据和半结构化的数据。源数据可以是关系型的,也可以是对象型的,更可以是Web页面型和文本型的。因而,要解决数据交换问题,一个重要的问题就是如何消除这种差异。随着数据的大量产生,数据之间的结构和语义冲突问题更加严重,如何有效解决各种冲突问题是数据交换面临的一大挑战。

异构数据交换问题解决后,才会对其他诸如OLAP、OLTP、数据仓库、数据挖掘、移动计算等提供数据基础。对一些应用,如数据仓库的建立,异构数据交换可以说是生死牧关。数据交换质量的好坏直接影响在交换后数据上其他应用能否有效进行。数据交换后,可以减小由于数据在存储位置上分布造成的数据存取开销;避免不同数据在结构和语义上差异造成的数据转换引起的错误;数据存放更为精简有效,避免存取不需要的数据;向用户提供一个统一的数据界面等。因此,数据交换对信息化管理的发展意义重大。

2 研究现状

异构数据交换技术的研究始于七十年代中期,至今已有三十年多了。数据库的异构问题已经引起了各数据库厂家及许多数据库专家的注意。各数据库厂商积极参与国际标准的制定,他们新推出的产品都能支持统一的数据库语言、FAP,API标准。它们的产品有的还留有支持新标准的余地,有的则采用了便于向国际标准过渡的形式。经过十几年对异构数据问题的探索和研究,人们已取得了不少成果,提出了许多解决异构数据交换的策略及方法,但就其本质可分成四类:

1.使用软件工具进行转换

一般情况下,数据库管理系统都提供将外部文件中的数据转移到本身数据库表中的数据装入工具。比如Oracle提供的将外部文本文件中的数据转移到Oracle数据库表的数据装入工具SQL Loader,Powersoft公司的PowerBuilder中提供的数据管道(Data Pipeline)。

这些数据转移工具可以以多种灵活的方式进行数据转换,而且由于它们是数据库管理系统本身所附带的工具,执行速度快,不需要ODBC支持,在机器没有安装ODBC的情况下也可以方便地使用。

但是,使用这些数据转换工具的缺点是它们不是独立的软件产品,必须首先运行该数据库产品的前端程序才能运行相应的数据转换工具,通常需要几步才能完成,且多用手工方式进行转换。如果目的数据库不是数据转换工具所对应的数据库,数据转换工具就不能再使用。

2.利用中间数据库的转换

由于缺少工具软件的支持,在开发系统时可使用“中间数据库”的办法,即在实现两个具体数据库之间的转换时,依据关系定义、字段定义,从源数据库中读出数据通过中间数据库灌入到目的数据库中。

这种利用中间数据库的转换办法,所需转换模块少,且扩展性强,但缺点是在实现过程中比较复杂,转换质量不高,转换过程长。

3.设置传送变量的转换

借助数据库应用程序开发工具与数据库连接的强大功能,通过设置源数据库与目的数据库两个不同的传送变量,同时连接两个数据库,实现异构数据库之间的直接转换。这种办法在现有的数据库系统下扩展比较容易,其转换速度和质量大大提高。

4.通过开发数据库组件的转换

利用Java等数据库应用程序开发技术,通过源数据库与目的数据库组件来存取数据信息,实现异构数据库之间的直接转换。通过组件存取数据,关键是数据信息的类型问题,若源数据库与目的数据库对应的数据类型不相同,必须先进行类型的转化,然后双方才能实施赋值。

异构数据交换问题,实质上就是:一个应用的数据可能要重新构造,才能和另一个应用的数据结构匹配,然后被写进另一个数据库。它是数据集成的一个方面,也可以说是数据集成众多表现形式中的一种。

3 异构数据分析

异构数据交换的目标在于实现不同数据之间的数据信息资源,设备资源,人力资源的合并和共享。因此,分析异构数据,搞清楚异构数据的特点,把握住异构数据交换过程中的核心问题,是十

分必要的。这样研究工作就可以做到有的放矢。

3.1 异构数据

数据的异构性导致了应用对于数据交换的需求。那么何谓异构数据?异构数据是一个含义丰富的概念,它是指涉及同一类型但在处理方法上存在各种差异的数据,在内容上,不仅可以指不同的数据库系统之间的数据是异构的(如Oracle和SQL Server数据库中的数据);而且可以指不同结构的数据之间的异构,(如结构化的SQL Server数据库数据和半结构化的XML数据)。

总的来说,数据的异构性可以包括以下三个方面:系统异构、数据模型异构和逻辑异构。

系统异构是指硬件平台、操作系统、并发控制、访问方式和通信能力等的不同,具体细分如下:

1、计算机体系结构的不同,即数据可以分别存在于大型机、小型机、工作站、PC或嵌入式系统中。

2、操作系统的不同,即数据的操作系统可以是Microsoft Windows,WindowsNT、各种版本的UNIX,IBM OS/2,Mac intosh等。

3、开发语言的不同,比如C,C++,Java,Delphi等。

4、网络平台的不同,比如Ethernet,FDDI,A TM,TCP/IP,IPX\SPX等。

而数据模型异构则是指DMBS本身的不同。比如数据交换系统可以采用同为关系数据库系统的Oracle,SQLServer等作为数据模型,也可以采用不同类型的数据库系统----关系、层次、网络、面向对象或函数型数据库等。

逻辑异构则包括命名异构、值异构、语义异构和模式异构等。比如语义的异构具体表现在相同的数据形式表示不同的语义,或者同一语义由不同形式的数据表示。

以上这些构成了数据的异构性,数据的异构给行业单位和部门等的信息化管理以及决策分析带来了极大的不便。因此异构数据交换是否迅速、快捷、可靠就成了行业、单位和部门制约信息化建设的一个瓶颈。

3.2 冲突分类

异构数据之间进行数据交换的过程中,要想实现严格的等价交换是比较困难的。主要原因是由于异构数据模型间存在着结构和语义的各种冲突,这些冲突主要包括:

命名冲突:即源模型中的标识符可能是目的模型中的保留字,这时就需要重新命名。

格式冲突:同一种数据类型可能有不同的表示方法和语义差异,这时需要定义两种模型之间的变换函数。

结构冲突:如果两种数据库系统之间的数据定义模型不同,如分别为关系模型和层次模型,那么需要重新定义实体属性和联系,以防止属性或联系信息的丢失。

由于目前主要研究的是关系型数据模型间的数据交换问题,根据解决问题的需要,可将上述三大类冲突再次抽象划分为两大冲突:结构冲突和语义冲突。结构冲突是指需要交换的源数据和目标数据之间在数据项构成的结构上的差异。语义冲突是指属性在数据类型、单位、长度、精度等方面的冲突。本文对数据交换中需要解决的主要冲突,作了如下分类:

1、结构冲突

结构冲突可分为两种情况:相似结构冲突和异构结构冲突。相似结构是指源和目标模式在表内部构成上相似,异构则与之相反。

(1)相似结构冲突

表相似结构冲突:如果两个表,表中的属性数量不同,但一个表的某些属性能够同另一个表某些属性对应,这时在这两个表之间产生了表结构冲突。

此时,两表在属性集上发生不一致性,表现为属性数量上的差异,但两表之间其他属性能够相互对应。其解决的方法一般为减少多余的属性或增加缺失的属性。

属性相似结构冲突:源和目标表中的属性之间存在以下两种情况:①源表的某些属性可以通过合并构成目标表的一个属性;②源表的一个属性经过分裂成为目标表的几个属性。此时,源表和目标表产生了属性结构上的冲突。例如源表存在Fname和Iname两个属性,而目标表只有Name属性,但Name属性由Fname和Inalne属性构成。则在源表的Fname,Lnaoe属性和目标表的Name属性之间产生属性结构冲突。其解决的方法为在对应的冲突属性之间进行合并或分裂操作。

(2)异构结构冲突

异构结构冲突可分为:值--属性冲突、值--表冲突、属性--值冲突,表--值冲突等。以图1中几个表为例来说明表之间的异构结构冲突。

Dalian、Y antai、Qingda。三个表表示位于三地的子港务公司每月的集装箱出口数量表,表Table_value_port是港口集装箱出口统计表,而表Table_value_company是总公司的集装箱出口数量统计表,它是由Dalian、Y antai、Qingda。三个表中的数据经过数据交换后得到的。

属性--值冲突:如果相同的信息在一个表中被表示为属性的名称而在另一个表中被表示为属性的值时,则产生了属性--值冲突。

如总公司统计表(Table_V alue_company)中Company属性的某个值如Dalian在利润表(Table_value_port)表中成为一个属性的名称。

表--值冲突:当数据库中表的某个属性值被表示为一个表的名字时,则产生了表--值冲突。如总

公司统计表(Table_value_Companys)中Company属性的某个值如Y antai成为的表Y antai的名称。

对异构的情况,比较常见的转换为“表”到“值”的转换和“属性”到“值”的转换。

对“值”到“表”,“值”到“属性”,“属性”到“表”,“表”到“属性”的转换,由于实际数据交换中,目标系统表结构很少采用这种设计方式,因而研究重点是“表”到“值”,“属性”到“值”两种异构情况的转换。

图1 异构结构冲突示例

Fig.1 Examples of heterogeneous structure of the conflict

2、语义冲突

语义冲突主要分为二种情况:表的语义冲突、属性语义冲突。表的语义冲突是指具有相同标识符的表语义不同。属性语义冲突是指属性的数据类型、单位、格式等的冲突。

(1)表的语义冲突

表的语义冲突是指具有相同或相似结构的两个表在语义上的差异。如一个表为所有员工的工资,而另一个结构相同的表则为某个部门员工的工资。对相同的结构,只需要将所有源表数据合并到目标表或将源表水平分割为各个目标表即可。

(2)属性语义冲突

数据类型冲突:同一属性的数据在不同表中的数据类型不一致。如年龄在一个表中为字符型而

在另一个表中为数值型。其解决办法为将一种数据类型转化为另一种数据类型。

命名冲突:表示同一概念的属性在不同表中命名不一样。如,一个表中用Company属性表示公司,在另一个表中用Corporation属性表示公司,对应的属性在命名上有差异。解决的办法是统一属性的命名。

单位冲突:同一属性在不同表中,其值的单位不一样。如,一个表中身高以米为单位,另一个表中用厘米为单位。此时,对应属性在度量单位上有差异。解决办法是统一单位。

数据长度冲突:属性值的长度不一样。

数据精度冲突:同一属性的值在不同表中的数据精度不一样。如,一个表中工资值为100.89,在另一个表中为100.9。解决办法是进行精度转换。

数据格式冲突:同一属性的值在不同表中的表现格式不一样。最典型的例子如日期,一个表中为“MM/DD/YY”格式,在另一个表中为“YY/MM/DD”。此时,对应属性在数据格式上出现差异。解决的办法是统一数据的表现格式。

其他情况:这类情况比较特殊,如物理运动的测量是由于参照物选择不同引起的测量值的差异。可根据实际交换时的情况进行分析。

总之,在进行数据转换时,一方面源数据模式中所有需要共享的信息都转换到目标数据中,另一方面这种转换又不能包含冗余的关联信息。

4 异构数据交换方式

异构数据交换就是实现分布式网络环境下,不同位置、平台和格式的数据以一种统一的交换标准集中展现给用户,并可以进行数据资源的抽取和利用。异构数据存放于异构数据库中,异构数据库的各个组成部分具有自治性和数据库管理系统,实现数据共享的同时又保持自己的应用特性、完整性控制和安全性控制,确保基于异种系统平台实现对异构数据库的查询和联合使用。提供一个独立于特定的数据库管理系统的统一编程界面。异构数据库系统是相关的多个数据库系统的集合,目标在于实现不同数据库之间的资源的合并和共享,为应用系统提供安全的、统一的、快捷的信息查询、数据挖掘和决策支持服务。异构数据库系统的数据交换主要是为了消除异构数据之间的冲突,通过一些设备在不同的应用平台和操作系统之间使交换数据的双方可以实现彼此之间的透明访问和各系统问的数据共享、业务协同,从而解决了信息孤岛问题。

异构数据交换方式主要分为:数据发布、数据集成和交易自动化。

4.1 异构数据的发布

异构数据的发布指的是将异构数据库中的数据根据用户设定的条件及提取出来的目标信息,按照数据请求者要求的、可以接受的格式发送出去。

4.2 异构数据的集成

异构数据的集成指的是根据用户设定的条件及提取出来的目标信息将异构数据源集成起来并且提供给用户一个统一的视图(物理的、逻辑的)。异构数据的集成屏蔽了数据源的异构性.可以使应用程序以统一的方式对不同分布的、结构异构的数据源进行访问,可以为这些数据源提供实时的读写操作,也可以完成各个业务模块之间的数据共享,从而畅通无阻地实现彼此之间的通信。进而理顺业务操作过程。

异构数据集成体系结构主要有三种:联邦数据库、Mediator/Wrapper模式以及数据仓库。

1、联邦数据库

联邦数据库系统是实现数据库集成问题的一种传统方法,是在任何两种异构数据源之间建立起彼此互相转化的方式。这种模式的数据集成是个N维问题,假设存在N个彼此异构的数据库系统,并且任意两个之间要实现彼此转换.则需要实现的转换模式总和为T=N(N-1)。因此,使用这种方式时,开发人员要编写N(N-1)段代码来实现两两之间的彼此共享。

2、Mediator/Wrapper模式

Mediator/Wrapper模式是一种软件构件.通过为所有异构数据源提供一个统一的虚拟视图的方式来实现集成目。这种集成方式并不需要存储任何实际数据,只需要系统为用户提供一个全局模式(即Mediator模式),用户只需要针对全局模式提交查询条件,而不需要知道数据源的模式、位置以及访问方法,系统会自动地将用户的查询条件分别转换成一个或多个对数据源的查询,再将查询得到的结果集进行处理和整合,最终返回给用户。

Mediator/Wrapper模式中的异构数据源具有完全的自治性,从而可以方便地对数据源进行添加和删除。中介系统一般由一个Mediator和多个Wrapper构成,Mediator的作用是将针对全局模式的查询进行分析,然后分解成若干个子查询,并将它们分别转换成针对所对应数据源的查询,最后将所有数据源的结果进行合并和整合,再返回给用户。Wrapper的作用是将各个数据源中的数据转换为统一集成系统可以处理的结构化的数据。

Mediator/Wrapper这种方式的优点是可以实现大量的数据源的互访和通信,对数据源的数目并没有限制,但是系统的结构和内部处理算法实现起来十分复杂。

3、数据仓库

数据仓库集成异构数据源的策略是将来自几个异构数据源的数据副本,按照一个集中、统一的视图要求,进行预处理、转换,以符合数据仓库的模式,并存储到数据仓库中。这样,对于使用者来说感觉就像在使用一个普通的数据库一样。

一旦数据存储于数据仓库,用户使用查询就像是在原来单一的数据源中查询一样。另一方面,数据仓库可能会禁止用户去更新数据,因为,用户对数据仓库中数据的更新将不会反应到原来的数据源中,这就会造成数据源和数据仓库中数据不一致的问题。

目前,进行数据仓库中数据构建的方式有以下三种:

①数据仓库周期性的从原数据源中重新构建数据。最常使用的方式是在每天午夜(那时系统可能需要关机,并且不是用户使用数据仓库的高峰期)或者是更长周期的午夜时刻进行数据重建。这种方式的主要缺陷是需要将数据仓库关闭,而事实上数据的重建可能需要很长的时间。对于某些应用来说,过长的时间会使很多数据过时。

②数据仓库周期性的从原数据源中更新数据(采用增量更新的模式,即每次数据仓库更新上次更新以后修改的数据)。这种方式只会影响到数据仓库中少量的数据,这样即使是在数据仓库的容量很大的时候,数据更新的时间也不会很久。该方式主要的缺点是用于计算数据仓库中数据更新的算法(增量更新算法),相对于从原始数据开始构建数据仓库的算法要复杂的多。

③数据仓库即时更新异构数据源的数据变化。当一个或多个数据源中的数据发生变化的时候,立即更新数据仓库中相应的数据。由于这种方法需要数据仓库和数据源之间频繁的通信,所以这种方式只适用于小型的、数据更新量小的数据仓库中。这种方式有着一个典型而且广泛的应用----自动股票交易系统。

总之,数据仓库模式的异构数据库数据共享集成的优点是便于进行联机分析和数据挖掘,缺点是数据重复存储、难以及时更新。

综上所述,三种集成方式各有优缺点,我们应该根据实际应用的具体要求和特点来选择最适合的集成方式以满足具体应用的实际要求。

4.3 交易自动化

各种应用只要遵循共同的标准,就可以使得应用程序开发商开发出具有一定自动处理能力的代理程序,从而提高工作效率。

5 异构数据交换的方法与技术

实现异构数据交换的方法和技术较多,这里列出XML、本体技术、Web Service等几项技术。

5.1 基于XML的异构数据交换技术

XML(Extensible Markup Language,可扩展标记语言)是SGML(Standard Generalized Markup Language,标准通用标记语言)的一个简化子集,1998年2月成为W3C(The World Wide Web Consortium互联网联合组织)标准。

XML提供了一种灵活的数据描述方式。XML支持数据模式、数据内容、数据显示方式三者的分离的特点,这使得同一数据内容在不同终端设备上的个性化数据表现形式成为可能,在数据描述方式上可以更加灵活。XML具有很强的链接能力可以定义双向链接、多目标链接、扩展链接和两个文档间的链接。

XML具有自描述性。XML文档通常由模式描述文件和事例文件组成,前者用于描述XML事例文件所能使用的标记、标记的结构、标记的含义等,而XML事例文件则使用这些预定义的标记描述数据,所以XML具有自描述性。

XML简单,易于处理。从数据处理的角度看,XML足够简单易于阅读,又易于被应用程序处理。

上述的特点,使得XML可以为结构化数据、半结构化数据、关系数据库、对象数据库等多种数据源的数据内容加入标记,适于作为一种统一的数据描述工具,扮演异构应用间数据交换载体或多源异构数据集成全局模式的角色。事实上,XML已经成为Internet环境下数据表达的公开而被广泛支持的标准。

5.1.1 基于XML的异构数据交换的总体过程

由于系统的异构性,需要交换的数据具有多个数据源,不同数据源的数据模式可能不同,导致源数据和目标数据在结构上存在差异。在进行数据交换时,首先必须将数据模型以统一的XML格式来描述,这就需要使用XML的DTD或XML Schema来定义文档的结构,DTD定义XML文档的基本结构,但不涉及到任何有关的实际数据,通过定义适当的DTD将源数据库中的数据转换成XML 文档,然后使用DOM技术来解析XML文档,这样就可以将XML文档中的数据存入目标数据库,从而实现了异构数据的交换。由于DTD文档定义的数据结构与源数据库中得数据结构保持一致,这样保证了生成的XML文档与源数据库中数据的保持一致。

其总体交换过程如图2所示。

图 2 基于XML的异构数据交换的总体过程

Fig.2 XML-based exchange of heterogeneous data

5.1.2 数据库数据与XML 文档的映射原理

在XML数据和数据库之间转换时,需要考虑许多问题,XML不支持任何有实际意义的数据模型,所有XML文档中的数据都会被当成纯文本处理。通常数据转换中间件需要把XML文档中的纯文本转换成数据库的数据类型,或把数据库的数据类型转换为纯文本的XML格式。在XML文档结构和数据库模式结构之间进行相互映射,一般有两种映射方法:模板驱动映射与模型驱动映射。

①模板驱动映射

基于模板驱动的映射是一种浅层次的映射,是一种基于模板的DTD到关系模式的转换算法,其转换比较简单,只要给出模板,就可以快速生成相应XML文档。基于模板的映射方法不用预定义XML数据与数据库数据之间的映射关系,只是在XML文档中嵌入带参数的SQL命令,这些模板中的命令由数据转换中间件来处理,在转换过程中被识别和执行,将执行的结果替换到命令所在的位置上,从而生成XML文档。因为使用模板驱动映射在数据转换时需要生成大量合理的模板,所以系统要为用户提供生成模板的工具,以及相应的指令执行程序。其过程如图3。

图3 模板驱动映射过程

Fig.3 Template-driven mapping process

基于模板映射的优点是转换步骤简单,查询语言灵活性大,支持通过HTTP的传递参数,允许嵌套查询,支持SELECT语句的参数化,支持编程结构,如可以由程序构建loop循环或if判断等。目前大多数的数据库产品都属于模板映射,如SQL Server、DB2和Oracle等。缺点是模板驱动映射是以XML内嵌的SQL执行的数据结果集为依据,不涉及数据库赖以存在的数据模型,,只能将关系数据库的数据转换为XML文档,并舍弃了关系模式的约束条件,所以也不支持反向的转换。

②模型驱动映射

模型驱动映射是一种深层次的映射,其原理是利用XML文档中的数据模型的结构显性或隐性

地映射成其他数据模型的结构。要实现数据库和XML文档间的数据转换的关键是在数据库模式和XMLSchemas或DTD之间建立映射关系,用具体的模型来实现数据间的映射。通常关系数据库利用关系型,面向对象数据库利用对象模型,而XML文档依赖的是Schemas或DTD。当数据从数据库转换成XML文档时,因为依照得是单个模型,通常需要结合XSL来控制模板驱动,从而保证了系统的灵活性。

要实现关系数据库数据转换XML文档时,将层次结构的XML文档理解成一张二维表,直接与数据库中的关系表相对应,把表或查询结果的数据插入到XML文档的相应位置便可,相反把XML 文档数据转换成数据库数据时,只要把内容插入到相应的二维表中即可。如果是把对象数据库中的数据转换为XML文档时,首先要将XML文档映射成同样具有层次结构的对象树(DOM),然后将对象树映射到面向对象的数据库中,或通过“对象--关系技术”将对象树映射到关系数据库中。其过程如图4.。

图4 模型驱动映射过程

Fig.4 Model-driven mapping process

基于模型映射转换的优点是有数据模型的支持,相对比较简单,可以实现XML数据与数据库数据间的双向映射。缺点是XML文档结构受数据模型的限制,不够灵活,不适用与嵌套层次比较深的XML文档进行映射,也不能适用于多个对象集合的映射,映射的时候表的结构必须与对象结构一致,对结构不一致的数据表也很难映射,不能定制数据库数据与XML的映射。

5.2 本体技术

本体是对某一领域中的概念及其之间关系的显式描述。是语义网络的一项关键技术。本体技术能够明确表示数据的语义以及支持基于描述逻辑的自动推理。为语义异构性问题的解决提供了新的思路,对异构数据集成来说应该有很大的意义。

但本体技术也存在一定的问题:已有关于本体技术研究都没有充分关注如何利用本体提高数据集成过程和系统维护的自动化程度、降低集成成本、简化人工工作。基于语义进行自动的集成尚处

于探索阶段,本体技术还没有真正发挥应有的作用。

5.3 W eb Service技术

Web Service是近年来备受关注的一种分布式计算技术。它是在Internet或Intranet上使用标准的XML语言和信息格式的全新的技术架构。其内容主要包括:WSDL(Web Service描述语言,用于进行服务描述),UDDI(统一描述、发现和集成规范,用户服务的发布和集成),SOAP(简单对象访问协议,用于消息传输)。

从用户角度看,Web Service就是一个应用程序,它向外界暴露出一个能够通过Web进行调用的API。服务请求者能够用非常简便的类似于函数调用的方法通过Web来获得远程服务,服务请求者与服务提供者之间的通信遵循SOAP协议。

Web Service体系结构由角色和操作组成。角色主要有服务提供者(Service Provider)、服务请求者(Service Requestor)、服务注册中心(Service Registry)。操作主要有发布(Publish)、查找(Find)、绑定(Bind)、服务(Service)、服务描述(Service Description),其具体架构如图5所示。

图5 W eb Service架构

Fig.5 W eb service architecture

其中,“发布”是为了让用户或其它服务知道某个Web Service的存在和相关信息,“查找”是为了找到合适的Web Service,“绑定”则是在提供者与请求者之间建立某种联系。

在异构数据库集成系统中,可以利用Web Service具有的跨平台、完好封装及松散耦合等特性,对每个数据源都为其创建一个Web Service,使用WSDL向服务中心注册,然后集成系统就可以向注册中心发送查找请求并选择合适的数据源,并通过SOAP协议从这些数据源获取数据。这样不仅有利于数据集成中系统异构问题的解决,同时也使得数据源的添加和删除变得更加灵活,从而使系统具有松耦合、易于扩展的良好特性,能实现异构数据库的无缝集成。

6 展望

鉴于异构数据交换所固有的特点,可以相信,异构数据交换会随着各个难题的解决而得到越来

越广泛的应用。

今后,异构数据交换与集成的研究方向应该包括:

(1)基于网格、本体语义的数据集成方案的研究;

(2)集成数据的完整性、一致性约束;

(3)半结构化数据全局模式的构建方法和映射方法。同样要保证数据的完整性和一致性约束能够在半结构化的数据问传递;

(4)数据集成过程中安全、可靠的数据传输技术。

参考文献

[1]白朝阳.异构数据交换的研究和应用[D].2004.

[2]陈明清.基于XML的异构数据源集成的研究与应用[D].南京邮电大学.2009

[3]陈跃国.数据集成综述[J].计算机科学.2004,31(5):48-51

[4]陈哲,魏衍君.异构数据的视图集成研究[J].计算机应用与软件.2007,24(9):73-74

[5]姜帆.谈异构数据库集成技术[J].重庆电子工程职业学院学报.2009,18(4):106-108

[6]靳强勇,李冠字,张俊.异构数据集成技术的发展和现状[J].计算机工程与应用.2002,38(11):112-114

[7]李星毅,高文浩,施化吉.基于本体的异构数据集成方法[J].计算机工程与设计.2009,30(8):1931-1933

[8]毛小燕,孔玲爽.多源异构数据库的集成的研究[J].电脑知识与技术.2008,2(16):1197-1199

[9]齐艳珂,肖连,高洁.异构数据集成技术综述[J].福建电脑,2007,(6):35

[10]时贵英,吕洪涛.可扩展异构数据交换系统的研究及实现[J].长江大学学报.2009,2(6):217-218

[11]王兰成,敖毅,曾琼.异构多信息源组织与集成技术的研究现状及其进展[J].现代图书情报技术.2006,(3):68-71

[12]王韦伟,孙庆鸿.基于XML的分布异构数据集成平台[J].东南大学学报(自然科学版).2006,36(5):715-719

[13]杨先娣,彭智勇,刘君强.信息集成研究综述[J].计算机科学.2006,33(7):55-59

[14]赵琳.异构数据交换的理论研究[J].科技信息.2010,(21):71-73

[15]周学权.异构数据集成管理平台研究[D].上海交通大学.2006

电子证据的概述

电子证据的概述 /h1 今年4月1日,《中华人民共和国电子签名法》开始实施,开创了我国电子证据专门立法的先河,也标志着我国法制适应现代化建设的新的里程。电子证据在我国还属于较新的事物,为此,本人综合若干资料编撰此文,介绍电子证据的几个问题,供初学者入门。一、“电子证据”定义随着计算机和网络技术的普及,电子商贸活动和其他许多基于网络的人际交往大量出现,电子文件已经成为传递信息、记录事实的重要载体。在这些方面一旦发生纠纷或案件,相关的电子文件就成为重要的证据。电子证据(Electronic Evidence)就是被作为证据研究的、能够证明案件相关事实的电子文件。“电子文件”(Electronic Records)定义为:“基于电子技术生成、以数字化形式存在于磁盘、磁带等载体,其内容可与载体分离,并可多次复制到其他载体的文件。”这个定义表述了“电子文件”的三个基本特征:①数字化的存在形式;②不固定依附特定的载体;③可以多次原样复制。“电子文件”可以分为:1)字处理文件:通过文字处理系统形成的文件,由文字、标点、表格、各种符号或其他编码文本组成。不同类型的文字处理软件生成的文件不能兼容(如Word和WPS),使用不同代码规则形成的文件也不能直接读取。所有这些软件、系统、代码连同文本内容一起,构成了字处理文件的基本要素。2)图形处理文件:由计算机专门的软件系统辅助设计或辅助制造的图形数据,通过图形人们可以直观地了解非连续性数据间的关系,使得复杂的信息变得生动明

晰。3)数据库文件:由若干原始数据记录所组成的文件。数据库系统的功能是输入和存储数据、查询记录以及按照指令输出结果,它具有很高的信息价值,但只有经过整理汇总之后,才具有实际的用途和价值。 4)程序文件:计算机进行人机交流的工具,软件就是由若干个程序文件组成的。5)影、音、像文件:即通常所说的“多媒体”文件,通常经过扫描识别、视频捕捉、音频录入等综合编辑而成。信息技术的发展,使文件趋向形式的多元化,往往在一种文件形式中又包含其他文件形式的链接功能,这就是超文本或复合文本文件。复合文本文件通过作者定义的链接,使读者可以在各种软件形成的文件交叉路径之间浏览。当这些电子文件在诉讼中作为证据使用时就是电子证据,例如在电子商务中的电子合同、电子提单、电子保险单、电子发票等;电子证据的证据形式还包括电子文章、电子邮件、光盘、网页、域名等。二、“电子证据”的法律定位对于电子证据的法律定位,即它归属于哪一类证据,法学界尚在讨论,主要观点有如下四种: 第一、认为电子证据应当归属于 “视听资料”。理由是:电子证据的内容必须在计算机等终端上以图形、数字、符号等形式显示,其使用的存储介质(电磁介质)、再现载体(电子设备)以及表现形式(文字、声音和图象的结合)均与“视听资料”的特点相同。因此可以对“视听资料”进行“扩张式解释”来涵盖电子证据。第二、认为电子证据应归属于“书证”。理由是:根据《中华人民共和国合同法》第11条规定:“书面形式是指合同书、信件和数据电文(包括电报、电传、传真、电子数据交换和电子邮件)等可以有形地表现所载内容的形式”,已经将“数据电文”这一典型的电子证据形式纳入了“书面形式”范围,实际上已经在立法上明确了电子证据的法律地位。若将电子证据归入“视听资料”一类,将直接影响电子交易的效率或者信任程度。第三、有学者认为,电子证据

药物分析学现状及研究进展综述

药物分析学现状及研究进展 药物是预防、治疗、诊断疾病和帮助机体恢复正常机能的物质。药品质量的优劣直接影响到药品的安全性与有效性,关系到患者的生命安危。虽然药品也是一种商品,但是由于其特殊性,对它的质量控制远比其他商品严格。因此必须运用各种有效手段,包括物理、化学生物学以及微生物学等等的方法,通过各个环节来全面保证、控制以及提高药品的质量。传统的药物分析手段大多包括化学方法来分析药物分子,控制药品质量。但是,如今的药物分析无论是分析领域,还是分析技术都已经大大的拓展。从静态发展到动态,从体外分析发展到体内分析,从品质分析发展到生物活性分析,从单一技术分析发展到联用分析,从小样本分析发展到高通量分析,从人工分析发展到计算机辅助分析,从而使得药物分析从20世纪初的一门分析技术,逐步发展成为一门日渐成熟的科学——药物分析学。药物分析学采用化学、物理、数学、生物学和信息学等分析理论和方法,结合现代化学、光谱、色谱及连用技术,对化学药物、中药/天然药物和生物技术的研发、生产、和临床应用等各环节进行全面的质量控制。 药物分析学作为药物科学研究的眼睛,梳理并逐步明确了重点方向的重大科学问题,形成了关键的技术和方法,观念不断更新,研究范围也不断拓宽。分析科学、计算化学、生物学等相关学科的发展,促进了药物分析学的理论、技术和方法的发展;药学学科的发展对药物分析学提出了更高的需求,药物分析学不仅是静态的化学药物、中药和生物技术药物的分析,而且拓展到对生物体内、代谢过程、工艺流程、反应历程的动态分析、检测和综合质量评价分析。基因组学、蛋白质组学和代谢组学在新药开发中日益受到重视,对药物分析学提出了新的挑战和机遇,药物分析学已从以物质为中心转移到与生命科学的结合,即药物成分和药物活性的相关分析。现就药物分析学的一些较重要发展领域和分析技术的进展作一概述。手性药物分析 美国药典药名字典所收载的药物中有一半至少含有一个不对称中心。而其中绝大多数人工合成的手性药物,例如90%抗癫痫药,β-受体激动剂和阻断剂、口服抗凝剂,50%抗炎药和局麻药都以其外消旋体供药用。生物系统由生物大分子组成,如蛋白质、糖脂、多核苷酸、受体等,这些生物大分子都由L-氨基酸和D-糖类构成,因而生物体是一个手性环境。在手性药物的两个对映体分子被引入体内后,具有手性的受体、酶蛋白质将其作为两个不同的化合物处理,因而药物对映体具有不同的代谢途径和药理作用,进而产生不同的疗效或毒副作用。另外,一些药物在体内发生手性转化,如S-(+)-布洛芬是优映体,但低活性的R-(-)-劣映体可在生物体内转化为高活性的S-(+)-体。由于个体差异等原因使用外消旋体不易控制有效剂量,特别是当肾功能减弱时,S-(+)-优映体易在体内蓄积,通过抑制肾环氧化酶,加剧肾局部缺血,而发生毒副反应。美国等国药品管理部门已要求在申请新手性药物时,提供每一种对映体的药动学、药理学和毒理学研究资料,并对研制外消旋体而不是单个对映体做出合理的解释。常规的分析方法用于外消旋体药物的药动学、浓度-效应关系研究时,会导致错误的结果。因此目前需要建立对映体选择性分析方法,用于研究手性药物对映体的药物动力学、药效学和手性药物的质量控制。 对映体的分离和测定在分离科学上曾被认为是最困难的工作之一。经典的分级结晶、旋光等方法的重现性或灵敏度欠佳。随着手性色谱学,尤其是手性高效液相色谱法、性气相色谱法和手性毛细管电泳法等的发展,为解决上述问题提供了有效的手段。色谱法分离药物对映体的方法可分为两大类:间接法(手性衍生化试剂法,CRD)和直接法。间接法采用手性衍生化试剂与手性胺类、醇类、羧酸类等反应形成非对映体衍生物。非对映体对在常规色谱系统中,根据非对映体分子的手性结构、手性中心所连接的基团、色谱系统的分离效率(包括溶

高校异构数据库间的数据交换

现 代 计 算 机(总 第 二 六一期) 收稿日期:2007-03-28修稿日期:2007-06-05 作者简介:匡银虎(1974-),男,硕士,讲师,研究方向为数据库技术 0引言 校园网中现存的各个子系统之间存在着各种差 异,部署平台的不同,采用的数据库管理系统不同,数 据库在物理上和逻辑上都存在异构。在各个异构系统 之间进行信息通信、数据交换和数据共享比较困难, 造成了数据冗余度大,数据不一致等弊端。这样多种 架构系统并存但却又各自为政的现象,极大的降低了 教学、科研和管理工作的效率。 1异构数据库的概念 异构数据库系统是相关的多个数据库系统的集 合,可以实现数据的共享和透明访问,其体系结构如 图1所示。 图1异构数据库体系结构图 异构数据库体系结构可分为两个部分: 一部分是数据库系统的客户端/服务器结构,不 同的数据库可能对应着相同的客户端,同一个数据库 可能对应着不同的客户端。 另一部分是客户端/服务器转换结构,就是利用转 换程序将各种不同的客户端数据源中的数据进行相 互转换,转换程序是异构数据库实现互联的关键部分。 每个数据库系统在加入异构数据库系统之前本 身就已经存在,拥有自己的DBMS。异构数据库的各 个组成部分具有自身的自治性,实现数据共享的同 时,每个数据库系统仍保有自己的应用特性、完整性 控制和安全性控制。 DBMS的不同表现在表达结构和限制以及语义 两方面。不同的数据模型提供不同的结构原语,例如 相同的信息在关系模型中用关系表达,而在网络模型 中用记录类型表达;不同的数据模型可能支持不同的 限制;不同的数据模型通常对应不同的数据库语言, 即使数据模型相同也可以有不同的语言。数据语义的 不同,指不同的成员数据库的相同或相关数据在含 义、解释或用途方面的不同。异构数据库系统的目标是 对地理上分布的多个异构数据库,在尽可能少的影响 其本地自治性的基础上,构造具有用户所需要的某种 透明性的分布式数据库,以支持对各数据库的全局应 用和各数据库之间灵活的信息交换和共享,面向分布 式的异构数据库,一般是存在于跨平台的网络环境中。 2中间件技术的应用 采用中间件技术,在表示层与应用层之间增加一 个中间层,为原有应用层提供身份验证、流量控制、格 式规范化等功能最后提交回原有应用层处理,扩充原 有应用层,从而保留原有应用层,是一种很好的选择。 2.1数据交换中心的设计 (1)数据交换中心的系统结构 整个体系结构为一个星型结构,数据中心处于中高校异构数据库间的数据交换 匡银虎,张虹波 (宁夏大学物理电气信息学院,银川750021) 摘要:通过对现存于各高校之中的异构数据库的信息进行集成之重要性的分析,提出了通过 XML来解决高校内部各部门数据库间的信息交换,给出了具体的技术实现方法。 关键词:中间件;异构数据库;数据交换 !" MODERNCOMPUTER2007.6

异构计算综述

异构计算(Heterogeneous computing) 摘要 异构计算(Heterogeneous computing)技术从80年代中期产生,由于它能经济有效地获取高性能计算能力、可扩展性好、计算资源利用率高、发展潜力巨大,目前已成为并行/分布计算领域中的研究热点之一。本文主要介绍了CPU+GPU基础知识及其异构系统体系结构(CUDA)和基于OpenCL的异构系统,并且总结了两种结构的特点,从而对异构计算有了更深的理解。 关键词:异构计算CUDA OpenCL 1、引言 异构计算主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式。常见的计算单元类别包括CPU、GPU等协处理器、DSP、ASIC、FPGA 等。我们常说的并行计算正是异构计算中的重要组成部分异构计算近年来得到更多关注,主要是因为通过提升CPU时钟频率和内核数量而提高计算能力的传统方式遇到了散热和能耗瓶颈。而与此同时,GPU等专用计算单元虽然工作频率较低,具有更多的内核数和并行计算能力,总体性能/芯片面积的比和性能/功耗比都很高,却远远没有得到充分利用。CPU的设计让其比较擅长于处理不规则数据结构和不可预测的存取模式,以及递归算法、分支密集型代码和单线程程序。这类程序任务拥有复杂的指令调度、循环、分支、逻辑判断以及执行等步骤。而GPU擅于处理规则数据结构和可预测存取模式。而APU的设计理念则正是让CPU和GPU完美合作,集合两者的长处,用异构计算来达到整体性能的最佳化。目前,已经有50款领先的应用能够利用AMD APU进行加速,而后续的应用也将陆续到来——异构计算普及的一刻应该是近在咫尺了。 1.1 CPU和GPU的本质区别 (1) CPU特点 a) CPU的目标是快速执行单一指令流; b) CPU将其用于乱序执行、寄存器重命名、分支预测以及巨大的cache上,

异构数据集成思路总结

基于XML的异构数据集成方案 一、设计任务 设计出基于XML的异构数据集成方案,具体要求: i.数据源包括:结构化数据、非结构化数据和半结构化数据 ii.实现功能包括:能够用统一的方式实现查询等处理 iii.应用的技术为XML技术,实现异构数据集成 二、设计应用的具体集成方法 2.1异构数据集成方法简介: 异构数据集成方法包括:模式集成和数据复制方法。 1、模式集成方法中的数据仍保存在各数据源上,由集成系统提供一个虚拟的集成视图(即全局模式)以及全局模式查询的处理机制。用户直接在全局模式的基础上提交请求,由数据集成系统处理这些请求,转换成各个数据源在本地数据视图基础上能够执行的请求。 2、数据复制方法将各个数据源的数据复制到与其相关的其它数据源上,并维护数据源整体上的数据一致性、提高信息共享利用的效率。 3、模式集成包括:联邦数据库和中间件集成方法是现有的两种典型的模式集成方法。 4、数据复制方法:数据仓库方法。 2.2异构数据集成方案分析 1.联邦数据库数据集成 联邦数据库是数据库集成的最简单结构,将所有组件数据库进行一对一的连接为了实现各个数据库和其它数据库数据之间的互操作,需要解决各个数据库之间的格式冲突问题,就要为每一个数据库向其它数据库的数据类型转换提供转换规则。这就是说这样的异构数据库系统需要建立N X(N一1)/2个转换规则,或者说要编写N X (N一1)/2段代码来支持两两之间的查询访问。 在联邦数据库数据集成方式中,如果要向系统中加入新的节点,就需要再建立很多转换规则,并且为系统之间只有通过编写软件来实现互相的信息正确地传递,这样做既费时又费工。如果各个子系统需要修改,那么会带来更多的问题,大大影响了系统的可扩展性、移植性和稳定性。其模型示意图如下图所示:

智慧城市多源异构大数据处理框架

智慧城市多源异构大数据处理框架 摘要:智慧城市建设的重心已由传统IT系统和信息资源共享建设,转变为数据的深度挖掘利用和数据资产的运营流通。大数据中心是数据资产管理和利用的实体基础,其核心驱动引擎是大数据平台及各类数据挖掘与分析系统。讨论了智慧城市大数据中心建设的功能架构,围绕城市多源异构数据处理的实际需要,对数据中心大数据平台的架构进行了拆分讲解,并以视频大数据处理为例,阐述了数据中心中大数据平台的运转流程。 关键词:智慧城市;大数据;多源异构;视频分析 1 引言 随着智慧城市建设逐步由信息基础设施和应用系统建设迈入数据资产集约利用与运营管理阶段,城市大数据中心已成为智慧城市打造核心竞争力、提升政府管理效能的重要工具。一方面政府借助大数据中心建设可以将有限的信息基础设施资源集中高效管理和利用,大幅降低各自为政、运维机关庞杂、财政压力过大的问题;另一方面,可以在国务院、发展和改革委员会大力支持的政策东风下,打破部门间数据壁垒,推动政府各部门职能由管理转为服务,提高数据共享利用率和透明度。以大数据中心为核心构建城市驾驶舱,实现城市运转过程的实时全面监控,提高政府决策的科学性和及时性。智慧城市大数据中心建设功能框架如图1所示,其中针对不同部门的数据源,由数据收集系统完成数据的汇聚,并根据数据业务类型和内容的差异进行粗分类。为避免过多“脏数据”对大数据平台的污染,对于批量数据,不推荐直接将数据汇入大数据平台,而是单设一个前端原始数据资源池,在这里暂时存储前端流入的多源异构数据,供大数据平台处理调用。

图1 智慧城市大数据中心功能框架 大数据平台是城市大数据中心运转的核心驱动引擎,主要完成多源数据导入、冗余存储、冷热迁移、批量计算、实时计算、图计算、安全管理、资源管理、运维监控等功能[1],大数据平台的主体数据是通过专线连接或硬件复制各政府部门数据库的方式获得,例如地理信息系统(geographic information system,GIS)数据、登记信息等。部分数据通过直连业务部门传感监测设备的方式获得,例如监控视频、河道流量等。大数据平台的输出主要是结构化关联数据以及统计分析结果数据,以方便各类业务系统的直接使用。 不同部门间共享与交换的数据不推荐直接使用原始数据,一方面是因为原始数据内容密级存在差异,另一方面是因为原始数据内容可能存在错误或纰漏。推荐使用经过大数据平台分类、过滤和统计分析后的数据。不同使用部门经过政务信息门户统一需求申请和查看所需数据,所有数据的交换和审批以及数据的监控运维统一由数据信息中心负责,避免了跨部门协调以及数据管理不规范等人为时间的损耗,极大地提高了数据的流通和使用效率。另外,针对特定的业务需求,可以基于大数据平台拥有的数据进行定制开发,各业务系统属于应用层,建设时不宜与大数据平台部署在同一服务器集群内,并且要保证数据由大数据平台至业务系统的单向性,尽量设置业务数据过渡区,避免应用系统直接对大数据平台核心区数据的访问。 目前主流大数据平台都采用以Hadoop为核心的数据处理框架,例如Cloudera公司的CDH(Cloud er a Distribution for Hadoop)和星环信息科技(上海)有限公司(Transwarp)的TDH(Transwarp Data Hub)、Apache Hadoop等。以Hadoop为核心的大数据解决方案占大数据市场95%以上的份额,目前国内80%的市场被Cloudera占有,剩余20%的市场由星环信息科技(上海)有限公司、北京红象云腾系统技术有限公司、华为技术有限公司等大数据公司分享。随着数据安全意识的增强、价格竞争优势的扩大,国内企业在国内大数据市场的份额和影响力正在快速提升。大数据的应用历程可归纳为3个阶段:第一个阶段是面向互联网数据收集、处理的搜索推荐时代;第二个阶段是面向金融、安全、广播电视数据的用户画像和关系发现时代;第三个阶段是面向多数据源与多业务领域数据的融合分析与数据运营时代,并且对数据处理规模和实时性的要求大幅提高。 本文在智慧城市大数据中心建设方案的基础上,阐述了多源异构大数据处理的框架和流程,并以最典型的非结构化视频大数据处理为例,介绍了多源异构大数据处理框架运转的流程。 2 多源异构大数据处理框架 2.1 系统整体架构 多源异构是大数据的基本特征[2],为适应此类数据导入、存储、处理和交互分析的需求,本文设计了如图2所示的系统框架,主要包括3个层面的内容:基础平台层、数据处理层、应用展示层。其中,基础平台层由Hadoop生态系统组件以及其他数据处理工具构成,除了提供基本的存储、计算和网络资源外,还提供分布式流计算、离线批处理以及图计算等计算引擎;数据处理层由多个数据处理单元组成,除了提供基础的数据抽取与统计分析算法外,还提供半结构化和非结构化数据转结构化数据处理算法、数据内容深度理解算法等,涉及自然语言处理、视频图像内容理解、文本挖掘与分析等,是与人工智能联系最紧密的层,该层数据处理效果的好坏直接决定了业务应用层数据统计分析的准确性和客户体验;应用展

《移动电子商务》课程标准【精品文档】

《移动电子商务》课程标准 课程编号: 课程名称:移动电子商务 适用专业:电子商务专业 教学模式:“教、学、做”一体化教学 计划学时:36 第一部分前言 一、课程的性质 《移动电子商务》是电子商务专业必修课程之一。作为高职高专电子商务专业的学生,应该学习和了解移动电子商务的各种基本问题,如移动电子商务概念,移动电子商务技术基础,移动电子商务价值链及其应用模式,移动电子商务交易服务等。 本课程在电子商务专业的人才培养中突出3G时代的到来给电子商务带来的新的变化和契机,让学生能与时俱进的将电子商务的商业模式运用到移动商务活动中,重在探讨和研究移动电子商务的应用。 《移动电子商务》是电子商务专业的职业技术课程,学习该课程应以电子商务基础、计算机及应用、网络基础、电子支付等课程为基础进行学习,同时为今后走上实际工作岗位,为企业提供好的移动商务解决方案起到很好的实践应用作用。 二、课程设计 1.课程设计思路 由于移动电子商务是电子商务的新的发展领域,针对移动电子商务知识更新快、新业务不断涌现等特点和学生对相关专业领域的先进技术和知识的学习而设计。旨在通过提高学生移动通信基础知识,熟悉移动电子商务产品和服务,更好地培养学生对移动电子商务业务的管理和服务能力。 2.课程内容设计 根据移动电子商务本身的特点,将课程内容分为以下几个部分,首先描述移动电子商务的产生以及发展状况,在此基础上介绍移动电子商务的主要工作流程和模式,以及需要依托那些相关技术和网络平台,最后了解移动电子商务目前的法律环境和企业遇到的相关问题,用各种成功的案例来串联所学的主要内容,在考核时,以学生为主来为相关行业或企业提供自己的移动电子商务的解决方案。 第二部分课程目标 一、课程目标 1.能力目标 通过本课程的学习,学生应具备从事移动电子商务工作的基本操作技能。具体包括: (1)移动营销能力 (2)移动信息服务能力 (3)移动增值业务和信息资源的开发与利用 (4)移动电子商务安全关立 (5)移动电子支付、移动技术在物流中的应用 (6)客户服务和商务接待 (7)移动电子商务的管理

【大数据】多源异构通用大数据处理服务平台

一、项目背景及必要性 (一)国内外现状和技术发展趋势 大数据是指海量的数据加上复杂的数据类型。从产业的发展角度看,我们对数据的利用经历了传输、传播、处理三个阶段,而今眼目下,对数据的利用正处在处理这个阶段,即如何处理、如何管理、如何应用,如何优化是现阶段的主要工作。 大数据的具体特点主要表现为四个“V”:一是体量浩大(Volume),数据集合的规模已从GB到TB再到PB级,甚至已经开始以EB和ZB来计算。著名咨询公司IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍。二是类型复杂(Variety),大数据类型包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,到20152年末非结构化数据将达到整个数据量的75%以上。三是生成迅速(Velocity),大数据通常以数据流的形式动态、快速地产生,具有很强的时效性。数据自身的状态与价值也随时空变化而发生演变,数据的涌现特征明显。四是价值巨大但利用密度低(Value),基于传统思维与技术让人们在实际环境中面临信息泛滥而知识匮乏的窘态。 当今社会,新摩尔定律得到验证,大数据以成为各行各业的焦点。数据的来源多样化:以多源异构数据为代表的非结构化数据占世界上信息总量的95%以上,剩下的5%为结构化数据,包括网页、文本、交易数据、邮件、高清视频、3D视频、语音、图片、地质勘测

数据、多源异构数据探测数据等等,这些数亿TB的数据正以超乎人们想象的速度增长,这对数据的存储系统的容量和实时计算速度提出了空前的要求。同时,大到智慧地球,小到智慧城市的数字化建设,使其越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。这些行业包括:互联网、制造业、医疗行业、媒体行业、零售销售行业、金融业、能源业、航空航天等等。预计2015年,超过40亿人(世界人口的60%)在使用各种智能终端,以全方位的方式与各行各业发生交互融合。其中大约12%拥有智能终端——其渗透率以每年20%以上的速度增长。如今,3000多万联网传感器节点分布在互联网、交通、汽车、工业、公用事业和零售部门,其数量正以每年30%以上的速度增长。预计到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35.2ZB也就是说全球大概需要376亿个1TB硬盘来存储数据。 人们对数据日益广泛的需求导致存储系统的规模变得越来越庞大,管理越来越复杂,数据的爆炸性增长和管理能力的相对不足之间的矛盾日益尖锐。同时,数据的高速增长也对存储系统的可靠性和扩展性提出了挑战,海量数据的共享、分析、搜索也显得越来越重要,充分挖掘海量数据中的有效价值。这就要求我们得实现一种有别于传统系统而全新的存储管理平台,该平台必须具备高扩展性、高可靠性、高时效性,同时也需要具备高经济性,只有这样才能更好的为国民经济和生活服务。 国外的大数据发展现状,以GOOGLE/FACEBOOK为代表的

电子数据交换EDI

第13章电子数据交换EDI 本模块提供两个大模块,一个是EDI教学园地,一个是EDI应用模拟系统。EDI教学园地主要为学生提供EDI相关知识,EDI应用模拟系统主要提供EDI单证填写,生成、发送模拟流程,让学生了解和模拟电子数据交换过程。 EDI教学园地 EDI教学园地主要为学生提供EDI理论浏览和学习的地方,该园地内容框架如图: EDI概述:介绍EDI的定义等内容。 EDI标准:介绍EDI的标准。 相关技术:介绍EDI相关技术。 参考资料:介绍学习EDI的相关参考资料。 EDI应用模拟系统 EDI应用模拟系统是根据当今EDI标准建立的模拟系统,该系统主要为学生提供单证录入、EDI报文制作、报文生成、报文转译、报文发送、报文接收等一系列功能。使学生清楚的了解EDI应用系统的特点和工作原理。 EDI应用模拟系统工作流程图如图(9-1):

图(9-1) 贸易伙伴管理:提供贸易伙伴管理功能,为贸易企业双方提供身份确认的功能,贸易企业可以在系统进行注册,为EDI系统建立企业信息标准。 商品信息管理:提供商品信息添加功能,为贸易企业提供企业商品注册,并为EDI系统建立商品信息标准。 单证录入接口:提供单证填写,单证生成功能,主要为企业提供单证填写模板,企业可通过模板生成相应的EDI报文。 报文生成和处理模块:提供单证的映射,可将单证转成平文形式。为翻译系统做准备。 格式转换模块:提供平文向原始报文格式的转换功能。可将单证翻译成标准的计算机识别语言,并为发送做好准备。 通信模块:提供EDI报文的发送功能,可将报文发送到贸易对方客户端系统。管理平台:为企业提供回执查询功能、报文发送情况查询功能等。

异构数据库跨库检索技术综述

异构数据库的跨库检索技术综述 黄镝 上海交通大学图书馆上海200030 [摘要] 异构数据库的跨库检索是电子资源整合的核心技术,本文介绍了异构数据库的特征、异构数据库的连接和数据交换技术;探讨了跨库检索系统应具备的功能和应注意的问题,并对国外一些有影响的跨库检索系统进行了介绍。 [关鍵词] 异构数据库跨库检索数据库连接Webfeat MetaLib [分类号] G250.73 Review of Cross Searching Technique for Heterogeneous Database Huang Di Shanghai Jiaotong University Library, Shanghai 200030 [Abstract] Cross searching technique for heterogeneous database is core technology of integrating electronic resource. The paper has introduced the character of heterogeneous database, the technology of heterogeneous databases connection and information exchanging. It also discussed the function of cross retrieval system for heterogeneous databases. The paper has also included a survey of foreign products in cross database searching. [Keywords] Heterogeneous databases Cross database searching Database connection Webfeat MetaLib 1.引言 近几年,图书馆通过引进和自建数据库,已使电子资源的建设具有相当规模,电子文献在文献服务中所占的比重也不断增加。在继续加强电子资源建设的同时,图书馆开始更加关注电子资源的管理工作,整合已有的资源,将不同类型、不同结构、不同环境、不同用法的各种异构数据库纳入统一的检索平台,以便于用户更方便、更高效地获取信息。 2.数据库的异构特征 图书馆要整合的数据库主要包括:书目数据库(OPAC)、题录/文摘数据库、全文数据库、电子期刊和电子图书、相关的WEB网站等。这些数据库分布在不同的服务器,由不同的信息服务公司和出版社提供、或由图书馆自建,成为各具不同特性的异构数据库,其异构特征表现为以下几个方面: 2.1 数据模型的异构分层次、网状、关系和面向对象4种。 2.2 数据结构不同如ORACLE与Sybase数据库物理模型异构、数据结构不同,而有些数据还是半结构或非结构的。 2.3 系统控制方式不同有集中式与分布式。 2.4 计算机平台的异构从巨、大、中、小型机到工作站、PC。 2.5 通信协议的不同有Z39.50、HTTP及非标准等。 2.6 通信结构模式的不同有主从结构、客户机/服务器模式、浏览器/服务器模式。 2.7 操作系统的异构有UNIX、NT、OS/2、Apache、Sun Solaris、Linux等。 2.8 网络的异构有LAN、WAN、以太总线结构与令牌环结构等。 3.异构数据库连接与存取的相关技术

基于XML的异构数据交换技术的研究

3 2010204206收到,2010206223改回 33 李 沐,女,1985年生,在读硕士,研究方向:人工智能。 文章编号:100325850(2010)0820037204 基于X ML 的异构数据交换技术的研究 Research on Heterogeneous Da ta Exchange ba sed on X ML 李 沐 谢红薇 (太原理工大学计算机与软件学院 太原 030024) 【摘 要】随着电子政务的不断发展,政府的各个部门间需要交换的数据日益繁重,因此,基于电子政务的异构数据交换技术的研究显得格外重要。论文提出了基于XM L 的异构数据交换技术,使用XM L 可以将来自异构系统的不同数据源的数据很容易的集成在一起,应用软件可以在中间层的服务器上对后台数据库的数据进行集成,然后以XM L 格式发送给客户端或其他服务器。客户端在接收到数据以后,可以使用本地软件来解析数据,并对数据作进一步处理,这样就能有效地解决网络中日益繁重的异构数据交换问题。【关键词】XM L ,数据交换,异构系统 中图分类号:T P 3111138 文献标识码:A ABSTRACT W ith the continuous developm ent of e 2governm ent ,data w h ich needs to be exchanged betw een vari ous governm ent departm ents is becom ing heavier 1T herefo re ,the research based on data exchange of e 2governm ent system s in heterogeneous system s is particularly i m po rtant 1U se the X M L can integrate the data from different data sources very easy 1A pp licati on softw are can integrate data from back 2end database server in the m iddle level ,and then ,send data to the client o r o ther servers in X M L fo r m at 1T he local softw are can parse the received data ,and use the data fo r further p rocessing 1T h is can so lve the increasingly seri ous p roblem of heterogeneous data exchange in the netw o rk 1KEYWOR D S X M L ,data exchange ,heterogeneous system s 近年来,随着信息技术的不断发展,政府的各个部门都建立了基于各种数据库的信息管理系统,由于建设初期各种资源和技术的限制,各个部门采用的网络环境、操作系统和数据库系统都有所差异,因此数据共享比较困难,形成了众多信息孤岛。然而随着电子政务的不断发展,各部门之间需要交换的数据日益繁重,异构系统数据交换技术的研究显得格外重要。 异构系统的异构性主要包括以下几个方面:①网络环境的异构:网络的拓扑结构、通信协议的异构等;②操作系统的异构:操作系统可以是L inux 、U n ix 、W indow s 等;③数据库管理系统的异构:可以是数据模型相同厂商不同的数据库系统,如SQL Server 、O racle 、DB 2等,它们都是关系数据库,但数据的存储模式不同,数据处理语言也不同;也可以是数据模型不同的数据库系统,如层次模型、网状模型、关系模型以及面向对象模型等。目前,政府部门的数据异构主要是数据库管理系统的异构,因此异构交换技术主要实现的是异构数据库系统间的数据交换。 目前常见的异构数据交换技术可以分为电子数据交换(ED I )方式、中间数据库法、中介层方式、数据仓库方式、中间数据方式等几种方式,各有其优缺点[1]。本文提出一种理想的基于XM L 技术的异构系统数据交换技术,此技术是通过数据交换中间件实现的,它可 以处理日益繁多的电子政务需要交换的数据。由于XM L 文档本身是纯文本格式的,良好的数据存储格式使得XM L 文档能方便有效的在网络中传输,而且XM L 采用结构化的方式来组织数据,使数据具有统一的格式,方便其他应用程序对数据做进一步处理,因此,XM L 是目前最好的数据交换的标准。 1 XM L 技术的优势 XM L 是Ex ten sib le M arkup L anguage 的缩写,意为可扩展置标语言,用于置标电子文档,使其数据具 有结构化的格式[3]。XM L 作为SG M L 的一个子集,保留了SG M L 的强大功能,降低了SG M L 的复杂性,使其具有强大的扩展性和灵活性。在各种应用中XM L 都有一定的优点,如:①由于XM L 本身是纯文本格式的,可以很轻松的实现数据在W eb 上发布,而且描述的数据具有统一的格式,其他程序可以对数据作进一步处理,有利于开发灵活的W eb 应用程序;②XM L 采用结构化的方式描述的是数据的本身,数据的显示要使用CSS 和XSL 以及XSL T 来控制,这样用户可以使用丰富的样式来显示数据;③使用XM L 可以将来自不同数据源的数据很容易的集成在一起,应用软件可以在中间层的服务器上对后台数据库的数据进行集成,然后以XM L 格式发送给客户端或其他服务器,

第一章 电子商务概述

第一章电子商务概述 一、电子商务的概念及内涵 20世纪90年代以来,电子商务作为一种新兴的商务活动方式,正在以难以置信的速度渗透到人们的日常生活。那么,电子商务到底是什么呢?让我们从了解电子商务的概念和内涵开始。 (一)电子商务的概念 对于电子商务的定义,世人众说纷纭,国内外的知名组织、专家学者、IT行业及政府部门分别从不同的角度对电子商务作了不同的表述。所以到目前为止,尚没有形成一个权威的、全面的、具有权威性的、能够为大多数人接受的定义。 下面就是几个在当前比较有代表的定义: 1、世界电子商务会议的定义 1997年11月,国际商会在巴黎举行了世界电子商务会议(The World Business Agenda for Electronic Commerce),与会者将电子商务定义为:电子商务是指实现整个贸易活动的电子化。从涵盖范围方面可以定义为:交易各方以电子交易方式而不是通过当面交换或直接面谈方式进行的任何形式的商业交易。从技术方面可以定义为:电子商务是一种多技术的集合体,包括交换数据(如电子数据交换、电子邮件)、获得数据(如共享数据库、电子公告牌)以及自动捕获数据(如条形码)等。 2、联合国贸易法委员会的定义 《联合国贸易法委员会电子商务示范法》虽然在标题中提到“电子商务”,在第二条中提供了“电子数据交换”的定义,但《电子商务示范法》并未具体说明“电子商务”系指何物。在拟定时,联合国贸易法委员会决定,处理当前这一主题时需铭记电子数据交换的广泛涵义,即“电子商务”标题之下可能广泛涉及的电子数据交换在贸易方面的各种用途。“电子商务”概念所包括的通信手段有以下使用电子技术为基础的传递方式:以电子数据交换进行的通信,狭义界定为电子计算机之间以标准格式进行的数据传递;利用公开标准或专有标准进行的电文传递;通过电子手段,例如通过互联网进行的自由格式的文本的传递。 3、IT行业的定义 (1)IBM公司认为,电子商务是指采用数字化电子方式进行商务数据交换火热开展商务业务的活动,是在互联网的广阔联系与传统信息技术系统的丰富资源相结合的背景下应运而生的一种相互关联的动态商务活动。 (2)HP公司提出电子商务、电子商业、电子消费和电子化世界的概念。它对电子商务的定义是:通过电子化手段来完成商业贸易活动的一种方式,电子商务使我们能够以电子交易为手段完成物品和服务等的交换,是商家和客户之间的联系纽带。 4、权威学者的定义 美国学者瑞维·卡拉科塔和安德鲁·B.惠斯顿在《电子商务的前沿》中提出:广义的讲,电子商务是一种现代商业方法,这种方法通过改善产品和服务质量、提高服务传递速度,满足政府组织、厂商和消费者的降低成本的需求。这一概念也用于通过计算机网络寻找信息以支持决策。一般地讲,今天的电子商务通过计算机网络将买方和卖方的信息、产品和服务联系起来,而未来的电子商务则通过构成信息高速公路的无数计算机网络中的一条线将买方和卖方联系起来。 对于上述定义,我们可以从以下几方面来分析和理解。 第一,电子商务是一种采用最先进信息技术的商务方式。交易各方将自己的各类供求意愿按照一定的格式输入电子商务网络,电子商务网络便会根据用户的要求寻找相关的信息,并提供给用户多种交易选择。一旦用户确定了交易对象,电子商务网络就会协助完成合同的签订、分类、传递和款项收付结转等全套业务。为交易双方提供一种“双赢”的最佳选择。

多源异构数据采集和可视化解决方案

工业互联网先进应用案例集 案例 可快速部署的低成本多源异构数据采集 和可视化解决方案 ——基于宜科边缘控制器和IoTHub平台的设 备智能管理应用 宜科(天津)电子有限公司成立于2003年,位于天津市西青经济开发区,在中国天津和德国德累斯顿设有研发中心。公司将“自动化技术+数字化工厂+工业互联网”定义为重要的发展战略,围绕工业互联网和智能制造业务持续发力,在工业互联网、智能制造、工业软件等方面积累了大量项目案例和实施经验,在工业互联网领域拥有核心产品和方案,在系统集成解决方案领域处于国内领先地位。 一、项目概况 宜科边缘控制器利用宜科IoTHub TM工业互联网赋能平台和Workbench工业APP快速开发工具,提供“设备连接+数据可视化”应用模式,将成为中小企业管理者直观了解工厂运行状态的最有效方式。

1. 项目背景 工业互联网平台是工业互联网建设的核心。工业设备上云正成为牵引工业互联网平台发展的先导性应用,也是当前工业互联网平台建设的切入点。 工业设备上云就是通过建立实时、系统、全面的工业设备数据采集体系。构建基于云计算的数据汇聚、分析和服务平台,实现工业设备状态监测、预测预警、性能优化,引导带来工业互联网平台的功能演进和规模商用。工业设备种类繁杂、数量多、通信协议与数据格式各异,当前尚缺乏有效的技术手段能够低成本、便捷地实现工业设备快速接入平台,导致绝大部分平台的设备接入数量有限。2. 项目简介 基于宜科边缘控制器,提供“数据+应用”的服务,充分利用IoTHub TM工业互联网赋能平台IaaS和PaaS资源,以及边缘计算设备的性能,提供数据采集能力和数据可视化应用。 数据:系统提供多种协议接口,支持典型的工业控制器、传感器、物联网采集监控终端,并提供协议连接及数据交互操作。 应用:工业APP开发工具,方便提供生产过程监控、调试维护配置、报警相应及处理、报表实时更新及显示生成等功能,方便平台应用。 数据+应用=服务 3. 项目目标 面向工业互联网应用,支持市场二十种以上主流工业协议解析,支持二十万台设备并发连接,提供面向工业现场的图形化、拖拽式和低代码快速开发APP 工具,支持本地、私有云、共有云混合或单一部署,提供多个重点垂直领域的基础应用APP。 在汽车整车及零部件、装备制造、冶金、电子信息领域发展客户上千家,设备连接数超百万。在设备监控、设备预测性维护、生产现场数据可视化、数据分析、实时报警等方面,帮助广大中小制造业企业解决“数据之痛”,提升生产效率,降低运营成本,提高管理水平,助力企业做大做强。

异构数据库间的数据转换

收稿日期:2001-07-13 作者简介:蔡延峰(1975-),男,山东济南人,南京航空航天大学经济管理学院硕士研究生,研究方向:工业工程管理信息系统。 文章编号:1006-2475(2002)01-0041-03 异构数据库间的数据转换 蔡延峰,蔡启明 (南京航空航天大学经济管理学院,江苏南京 210016) 摘要:异构数据库管理系统间进行数据转换是当今开发人员经常遇到的问题。本文基于实际经验,简单论述了不同数据库管理系统间进行数据转换的不同解决方案。 关键词:数据库管理系统;数据转换;数据管道;联邦数据库系统中图分类号:TP311.13 文献标识码:B Translating Data between Asynchronous Structure Database Management Systems CAI Yan-feng ,CAI Oi-ming (Schooi of Management and Economics of NUAA ,Nanjing 210016,China ) Abstract :Data transiating between asynchronous structure database management systems is a probiem that deveiopers often meet today .Based on practicai experiences ,the paper discusses simpiy the schemes to soive the data transiating between asynchronous structure database management systems. Keywords :DBMS ;data transiating ;data pipeiine ;FDBS 0引言 信息技术的发展给企业的生产和管理带来了极大的方便,Intranet 和Internet 的广泛使用和迅速普及 也提高了社会实体间的联系和资源共享。然而,由于信息技术的更新和实体间选择的差异,不同部门使用不同的数据库管理系统是十分普遍的现象。 即使一个经过信息规划的企业,随着数据库技术的发展和市场的变化,都可能采用不同的数据库系统。以本人所做课题为例,南京金城集团是国营大型企业,下属十几个企业,不同时期不同下属企业安装了不同的数据库管理系统,如SOL Server ,Oracie 和 DB2等。因此在网络环境下, 异种数据库间数据转换的要求是十分普遍的。另外,当数据库升级时,要想最大限度地利用现有资源、避免重复开发的浪费也必须解决异种数据库操作的问题。在数据库采用外部数据时也存在着异种数据库操作问题。 本文以SOL Server 和Oracie 之间的数据转换为 例进行说明,其余数据库管理系统间的数据转换与此 类似。 1SOL Server 和Oracle 间的比较 不同的数据库管理系统(Database Management System ) 来自不同的厂商,运行在不同的软、硬件平台上,具有很多互不兼容的特性,每种DBMS 都有一套自己的数据类型、数据结构和数据定义、操作语言,所以一个应用系统必须与某个DBMS 绑在一起进行编译、链接和运行而不能直接存取其他DBMS 的数据。SOL Server 数据库管理系统是建立在Microsoft Windows NT 操作系统的基础上, 它提供了一个功能强大的客户/服务器平台,是能同时支持多个并发用户的关系数据库系统。 Oracie 数据库管理系统是Oracie 公司开发研制 的,它是至今为止数据库管理系统的领导者。它具有强大的安全性、移植性和兼容性,由于性能强大、结构复杂,和其他数据库管理系统比较起来相对难于掌握。 SOL Server 和Oracie 两者相比较具有较大的差 2002年第1期 计算机与现代化 JISUANJI YU XIANDAIHUA 总第77期

相关主题
文本预览
相关文档 最新文档