当前位置:文档之家› 数据库技术发展趋势_孟小峰

数据库技术发展趋势_孟小峰

数据库技术发展趋势_孟小峰
数据库技术发展趋势_孟小峰

V ol.15, No.12 ?2004 Journal of Software 软 件 学 报 1000-9825/2004/15(12)1822 数据库技术发展趋势?

孟小峰1+, 周龙骧2, 王 珊1

1(中国人民大学 信息学院,北京 100872)

2

(中国科学院 数学与系统科学研究院 数学研究所,北京 100080) State of the Art and Trends in Database Research

MENG Xiao-Feng 1+, ZHOU Long-Xiang 2, WANG Shan 1

1

(Information School, Renmin University of China, Beijing 100872, China) 2(Institute of Mathematics, Academy of Mathematics and Systems Sciences, The Chinese Academy of Sciences, Beijing 100080, China)

+ Corresponding author: Phn: +86-10-62515575, E-mail: xfmeng@https://www.doczj.com/doc/e813195676.html,, https://www.doczj.com/doc/e813195676.html,

Received 2004-07-28; Accepted 2004-09-06

Meng XF, Zhou LX, Wang S. State of the art and trends in database research. Journal of Software , 2004,15(12):1822~1836. https://www.doczj.com/doc/e813195676.html,/1000-9825/15/1822.htm

Abstract : This paper discusses the state of the art, the challenge problems that we face, and the future trends in database research field. It covers the hot topics such as information integration, stream data management, sensor database technology, XML data management, data grid, self-adaptation, moving object management, small-footprint database, and user interface.

Key words : database; DBMS; pan-data

摘 要: 讨论目前数据库研究领域中最热门的几个研究方向的发展现状、面临的问题和未来趋势.包括信息集成、数据流管理、传感器数据库技术、XML 数据管理、网格数据管理、DBMS 自适应、移动数据管理和微小数据库,数据库用户界面等.

关键词: 数据库;数据库管理系统;泛数据

中图法分类号: TP311 文献标识码: A

? Supported by the National Natural Science Foundation of China under Grant Nos.60073014, 60273018 (国家自然科学基金); the Key Project of Ministry of Education of China under Grant No.03044 (国家教育部科学技术重点项目); the Excellent Young Teachers Program of Ministry of Education of China (国家教育部优秀青年教师资助计划)

作者简介: 孟小峰(1964-),男,博士,教授,博士生导师,主要研究领域为Web 数据集成,XML 数据库,移动数据管理;周龙骧(1938-),男,研究员,博士生导师,主要研究领域为数据库系统实现技术,分布式数据库技术,电子商务技术;王珊(1944-),女,教授,博士生导师,主要研究领域为数据库,知识库,数据仓库.

孟小峰等:数据库技术发展趋势1823 1 泛数据研究的时代

数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,吸引了越来越多的研究者加入,使得数据库成为一个研究者众多且被广泛关注的研究领域.随着信息管理内容的不断扩展和新技术的层出不穷,数据库技术面临着前所未有的挑战.面对新的数据形式,人们提出了丰富多样的数据模型(层次模型、网状模型、关系模型、面向对象模型、半结构化模型等),同时也提出了众多新的数据库技术(XML数据管理、数据流管理、Web数据集成、数据挖掘等).

回顾数据库发展之初,数据模型是制约数据库系统的关键因素.E.F Codd博士(1923-2003)提出的关系模型充分考虑了企业业务数据的特点,从现实问题出发,为数据库建立了一个坚实的数学基础.在整个计算机软件领域,恐怕难以找到第2个像关系模型这样,概念如此简单,但却能带来如此巨大市场价值的技术.

关系模型在关系数据库理论基本成熟后,各大学、研究机构和各大公司在关系数据库管理系统(RDBMS)的实现和产品开发中,都遇到了一系列技术问题.主要是在数据库的规模愈来愈大,数据库的结构愈来愈复杂,又有愈来愈多的用户共享数据库的情况下,如何保障数据的完整性、安全性、并发性以及故障恢复的能力,它成为数据库产品是否能够进入实用并最终为用户接受的关键因素.Jim Gray在解决这些重大技术问题,使RDBMS成熟并顺利进入市场的过程中,发挥了关键作用.概括地说,解决上述问题的主要技术手段和方法是:把对数据库的操作划分为“事务”的基本单位,一个事务要么全做,要么全不做(即all-or-nothing原则);用户在对数据库发出操作请求时,需要对有关的不同数据“加锁”,防止不同用户的操作之间互相干扰;在事务运行过程中,采用“日志”记录事务的运行状态,以便发生故障时进行恢复;对数据库的任何更新都采用“两阶段提交”策略.以上方法及其他各种方法被总称为“事务处理技术”.

E.F Codd和Jim Gray在关系模型和事务处理技术上的创造性思维和开拓性工作,使他们成为这一领域公认的权威,并于分别于1981年和1998年成为图灵奖获得者.

在成熟的关系DBMS产品行销于世之后,数据库的研究困惑于如下的问题:DBMS本身的研究是不是已经没有问题了?新的处理要求在哪里?旗帜鲜明地提出这一思考的是VLDB2000会议,会议的主题是“Broadening the Database Field”,会议的论文设置也截然分为两类,即“core database technology”和“information systems infrastructures”,体现了在对传统问题关注的同时,着力寻求信息系统创新途径中所存在的数据管理问题.而信息系统创新途径的根本前提是Web时代的到来.于是,在Web大背景下的各种数据管理问题成为人们关注的热点,我们不妨把它笼统地称为“泛数据”研究.

所谓“泛数据”是相对原本人们所关注的企业业务数据而言的.这是Web时代的到来带给人们的新问题.“泛数据”研究“泛”在两个方面:

X-data: XML data (XML Databases), streaming data (Streaming Databases),…

X-computing: grid computing (Grid Databases), sensor network (Sensor databases), P2P computing (P2P databases), ubiquitous/pervasive computing (Ubiquitous/Pervasive Databases),… 

目前,“泛数据”研究的根本问题是它能否产生与关系模型和事务处理技术比肩的成果.“泛数据”深层次的问题何在?“泛数据”对现有DBMS体系结构变革的需要在哪里?这一切需要我们深思熟虑,是研究数据库所不能回避的.

本文基于这一想法,结合国际相关会议的情况,讨论目前数据库研究领域中最热门的几个研究方向的发展现状、面临的问题和未来趋势.希望能给数据库研究者尤其是正在进入数据库研究领域的人员一些启发.本文讨论的问题只是数据库研究领域中的一部分,观点也可能存在偏颇之处,但我们相信分析和预测数据库发展动态的工作,对促进中国数据库技术的研究和应用水平的提高具有重要的意义.

2 国际数据库研究界动态

每隔几年,国际上一些资深的数据库专家就会聚集一堂,探讨数据库的研究现状、存在的问题和未来需要关注的新的技术焦点,其中包括:1989年在Laguna Beach,Calif.[1],1990年和1995年在Palo Alto,Calif.[2,3],

1824 Journal of Software软件学报 2004,15(12)

“Lagunita”,1996年在Cambridge,Mass.[4]和1998年在Asilomar,Calif.[5]的研讨会,2003年的聚会在Lowell, Mass.[6]举行,共有25位资深数据库学者参加.他们来自不同国家和地区,有着不同的研究兴趣,学者们就数据库研究的现状和将来的走向展开了深入的讨论,提出了一些重要的观点.

与会的学者集中讨论了信息存储、组织、管理和访问等问题.这些问题受新型应用、技术趋势、相关领域的协同工作和领域本身的技术变革所驱动.信息的本质和来源在不断变化,每个人都意识到Internet,Web,自然科学和电子商务是信息和信息处理的巨大源泉.同时,另一个巨大的信息源即将到来,即廉价的微型传感器技术使得大部分的物体可以实时上报它们的位置和状态.这类信息能支持对移动对象的状态和位置的监视等应用.伴随新的制约与机会,传感信息的处理将会引发许多新环境下的极有趣味的数据库问题.

在应用领域,Internet是目前主要的驱动力,特别是在支持“跨企业”的应用上.在历史上,应用都是企业内部的,可以在一个行政领域内进行完善的指定和优化.但是现在,大部分企业感兴趣的是如何与供应商和客户进行更密切的交流,以便提供更好的客户支持.这类应用从根本上说是跨企业的,需要安全和信息集成的有力工具.由此产生的新问题需要数据库研究人员去解决.

越来越重要的另一个应用领域是自然科学,特别是物理科学、生物科学、保健科学和工程领域,这些领域产生了大量复杂的数据集,需要比现有的数据库产品更高级的数据库的支持.这些领域同样也需要信息集成机制的支持.除此之外,它们也需要对数据分析器产生的数据管道进行管理,需要对有序数据进行存储和查询(如时间序列、图像分析、网格计算和地理信息),需要世界范围内数据网格的集成.

除了在信息管理领域我们遇到的这些挑战之外,在传统的DBMS相关的问题上,诸如数据模型、访问方法、查询处理代数、并发控制、恢复、查询语言和DBMS的用户界面等主题也面临着巨大的变化.这些问题过去已经得到充分研究,但是技术的发展不断改变其应用规则.比如,磁盘和RAM容量的不断变大,存储每个比特数据的花费不断降低等.虽然访问次数和带宽也在不断提高,但是它们不像前者发展得那样快,不断变化的相对比率要求我们重新评估存储管理和查询处理代数.除此之外,处理器cache的规模和层次的提高,也要求DBMS算法能够适应cache大小的变化.上述只是由于技术变迁诱导的根据新情况对原有算法重新评价的两个例子.

另一个推动数据库研究发展的动力是相关技术的成熟.比如,在过去的几十年里,数据挖掘技术已经成为数据库系统重要的一个组成部分.Web搜索引擎导致了信息检索的商品化,并需要和传统的数据库查询技术集成.许多人工智能领域的研究成果也和数据库技术融合起来,这些新的技术使得我们可以处理语音、自然语言,进行不确定性推理和机器学习等.

Lowell报告[6]认为,我们注意到了许多新的应用,新的技术趋势以及和影响信息管理的相关领域的协作.整体上,这些都要求一个和现今我们所拥有的完全不同的信息管理架构,并需重新考虑信息存储、组织、管理和访问等方面的问题.

3 主流技术发展趋势

在这一部分中,我们从信息集成、数据流管理、传感器数据库技术、半结构化数据与XML数据管理、网格数据管理、DBMS自适应管理、移动数据管理、微小型数据库、数据库用户界面等方面分别讨论目前数据库领域研究方向的发展现状、面临的问题和未来趋势.

3.1 信息集成

信息系统集成技术已经历了20多年的发展过程,研究者已提出了很多信息集成的体系结构和实现方案,然而这些方法所研究的主要集成对象是传统的异构数据库系统.随着Internet的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,尤其是在Web上,有着极其丰富的数据来源.如何获取Web上的有用数据并加以综合利用,即构建Web信息集成系统,成为一个引起广泛关注的研究领域.

信息集成系统的方法可以分为[7]:数据仓库方法和Wrapper/Mediator方法.

在数据仓库方法中,各数据源的数据按照需要的全局模式从各数据源抽取并转换,存储在数据仓库中.用户

的查询就是对数据仓库中的数据进行查询.对于数据源数目不是很多的单个企业来说,该方法十分有效.但对目

孟小峰等:数据库技术发展趋势1825

前出现的跨企业应用,数据源的数据抽取和转化要复杂得多,数据仓库的方法存在诸多不便.

目前比较流行的建立信息集成系统的方法是Wrapper/Mediator方法[8,9].该方法并不将各数据源的数据集中存放,而是通过Wrapper/Mediator结构满足上层集成应用的需求.这种方法的核心是中介模式(mediated schema)[10].信息集成系统通过中介模式将各数据源的数据集成起来,而数据仍存储在局部数据源中,通过各数据源的包装器(wrapper)对数据进行转换使之符合中介模式.用户的查询基于中介模式,不必知道每个数据源的特点,中介器(mediator)将基于中介模式的查询转换为基于各局部数据源的模式查询,它的查询执行引擎再通过各数据源的包装器将结果抽取出来,最后由中介器将结果集成并返回给用户.Wrapper/Mediator方法解决了数据的更新问题,从而弥补了数据仓库方法的不足.但是,由于各个数据源的包装器是要分别建立的,因此,Web数据源的包装器建立问题又给人们提出了新的挑战.近年来,如何快速、高效地为Web数据源建立包装器成为人们研究的热点[11~14].

不过,这种框架结构正受到来自3个方面的挑战[6].第1个挑战是如何支持异构数据源之间的互操作性(interoperability).信息集成必须在多至数百万的信息源上穿梭进行,这些数据源的数据模型、模式、数据表现和查询接口各不相同.数据库界已经对联邦式的数据系统做了多年的研究,其中最早的报告针对这个问题做了广泛的讨论[1].然而,语义的相异性这个痛苦的问题依然存在.由不同人设计的任何两个模式都不会是相同的.它们会有不同的单位(例如工资,一种以欧元计算,而另一种以美元计算),不同的语义解释(也以工资为例,一种仅指档案工资,而另一种是指包含了各种津贴的总收入),对于相同的事务还会有不同的名字(对同一个人,可能一种用的是笔名,而另一种用的是原名,例如鲁迅和周树人).能够在网络标准上进行配置的语义相异性的解决方案依然是难以捉摸的.我们必须认真和集中地对待这个问题,否则跨企业的信息综合只会停留在幻想上.语义Web 的上下文方面的研究也存在着相同的问题.吸收相关领域的研究成果对解决这一问题是很重要的.

另一个挑战是如何模型化源数据内容和用户查询.目前广泛采用的技术有两种.LA V(local-as-view)方法利用全局谓词集合描述多个数据源内容视图和用户查询.当给定某用户查询时,中间件系统通过综合不同的数据源视图决定如何回答查询.这种方法可看做利用视图回答查询,目前已有一些研究成果,它亦可应用于数据仓库或查询优化等领域.GA V(global-as-view)方法假设用户查询直接作用于定义在源数据关系上的全局视图.人们主要关注的是在这种情况下如何提供高效的查询处理.

第三个挑战是当数据源的查询能力受限时,如何处理查询和进行优化?例如,https://www.doczj.com/doc/e813195676.html,数据源可以被看作是提供书的信息的数据库,但是,我们不能随便下载其上所有的书籍信息.事实上,我们只能填写Web搜索表格查询数据源并返回结果.很少的组织会允许外部实体来抽取自己运行系统中的所有数据,所以这些数据必须留在源端,在查询的时候才会被访问.如何模型化和计算具受限查询能力的数据源,如何生成查询计划和优化查询的研究工作正在展开[15~17].

这里我们给出信息集成中一些需要进一步研究的问题.

其一,早期的中间件系统采用集中式架构.近来,一种数据库应用需求正在显现,它要求支持共享分布的、基于站点(site)的环境下的数据集成.在这种环境中,网络中自主的站点互相连接交换数据和服务.这样,每个站点既是中间件,又是数据源.一些项目已经成立并正在研究这种新的架构下的问题[9,10].其二,更多的研究者正在注意如何利用清洁的数据(cleansing data)来处理数据源的异构性[6].一个特殊的问题称为“data linkage”,其含义为有效和高效的标示和链接冗余的记录.不同的数据源经常包含表示真实世界同一实体的多个近似但并不相等的冗余的记录或属性.例如“中科院”和“中国科学院”,或者“中国北京”和“北京”.不同的表示可能源于排版错误、拼写错误、缩写或者其他原因.当从Web页面上自动抽取无结构或者半结构化文档时,这个问题变得特别尖锐.对多数据源的数据集成,我们需要在进一步处理之前首先清洗数据.近来已有一些关于数据清洗和链接的工作.其三,XML数据的出现给数据集成带来更多需要解决的问题.其四,正如前面提到的那样,传感器网络和新的量子物理学和生物科学将产生巨大的数据集合.这些传感器和数据集合分布在世界各地,这些数据源能够动态地来往,这一点也打破了传统的信息集成范畴.

从体系结构实现的角度出发,信息集成技术经历了如下3个发展阶段[7]:单个的联邦系统、基于组件的分布式集成系统和基于Web Services的信息集成系统.Internet的迅速普及和广泛应用对计算机技术的发展产生

1826 Journal of Software软件学报 2004,15(12)

了深刻的影响,桌面应用正在向网络应用转移,从网上获得的不仅是信息,还包括程序和交互式应用(即服务),操作界面将在浏览器层面上得到统一,兼容性由网络标准技术实现(如SOAP,UDDI和WSDL等).在Web Services 的框架下,使用一组Web Services协议,构建信息集成系统.对每个数据源都为其创建一个Web Service,然后使用WSDL向服务中心注册.当要构建一个新的集成应用时,集成端首先向注册中心发送查找请求,收集并选择合适的数据源,然后通过SOAP协议从这些数据源获取数据.这种方法克服了上述两种方法的缺陷,具有完好封装、松散耦合、规范协议和高度的集成能力等特性.因此,基于Web Services的信息集成方案是构建Web数据集成系统较为理想的体系结构.

3.2 数据流管理

测量和监控复杂的动态的现象,如远程通信、Web应用、金融事务、大气情况等,产生了大量、不间断的数据流.数据流处理对数据库、系统、算法、网络和其他计算机科学领域的技术挑战已经开始显露.这是数据库界一个活跃的研究领域,包括新的流操作、SQL扩展、查询优化方法、操作调度(operator scheduling)技术等[6].

数据流管理与数据库管理在多个层面上存在差异.见表1.

Table 1 Comparison of database and data stream

表1 数据流与数据库对比

Data stream Database

Model Tuple sequence Tuple set/bag

Data duration Transient Persistent

Query Real-Time, continuous queries Off-Line, one-time queries

Query evaluation One pass Arbitrary

Query answer Approximate Exact

Query plan Fixed Adaptive

扩展数据库管理系统若直接支持数据流类型就会面临众多问题.首先,在数据库中,数据是稳定的,持续的,而查询是暂时的.在数据流中则正好相反:数据是动态的,而查询是实时稳定的.这就需要增强数据库查询处理能力,支持复杂的实时查询需求.

面临的问题主要有以下几点.其一,数据流环境中的选择、投影,特别是连接和聚集操作具有新的含义.如何扩展查询语言SQL的表达能力以便支持数据流查询.其二,引入滑动窗口机制可以把无限的数据流转换为有限的关系.但窗口的长度、个数等特性影响查询的准确性.尤其是在做连接和聚集操作时,不但要处理现在的数据,还要兼顾历史和将来的数据.如何仅用一次扫描实现上述操作,并保证查询的实时和有效是数据流查询处理面临的关键问题.其三,若在有限的空间不能支持数据流的精确聚集操作,引入近似操作机制是必须的和可接受的.利用样本、直方图或者结构信息统计数据流的的研究工作正在展开.其四,如何考虑数据流的查询优化问题.考虑到数据流速(data rate)的情况,数据流查询优化的目的应为获得最大的查询数据流速,即单位时间的数据流量,而不是以往考虑的代价最小的查询计划.基于流速的查询优化的研究工作也是目前数据流研究的热点问题.

商业微传感器设备即将出现,使得新型的DBMS的“监视”应用变得可能.数据流的监控应用需要有能够基于数据流间的复杂关系区分正常或反常活动(如网络入侵或电信欺诈监测等)的成熟的实时查询.可以通过传感器给每个重要的对象都加上一个标签,这样就可以实时地报告这个对象的状态或者位置.比如说,人们会在笔记本电脑或者投影仪上附加一个传感器,而不是附上一个财产标签.在这种情况下,如果一个投影仪丢失或者被窃,人们就可以从监视系统中查找其下落.这样的监视系统能不断地接收从传感器发来的“信息流”,信息流给出了系统感兴趣的对象信息.这种信息流在高性能数据输入、时间序列功能、历史消息窗口以及高效率队列处理方面给DBMS提出了新的要求.DBMS产品也将尝试提供对这种监视应用的支持,其方法应该是通过将流处理的功能移植到传统的结构数据框架上.

Web Services自然也产生数据流,松散结合的系统相互交换大量的商务数据,如订单、零售事务等.这些数据以XML格式表现,产生持续的XML数据流.具有高效处理XML数据流的查询能力,从不间断的XML数据流中匹配、抽取和转换部分数据流以驱动后台商务应用,是Web Services的核心.

XML流处理的特点是XML文档的节点一次性地按照某种遍历的顺序流过.因为每次面对的总是单个的

孟小峰等:数据库技术发展趋势1827

节点(元素、属性或text),所以需要将必要的数据有效地缓存,以返回结果.如何协调缓存容量和查询效率之间的平衡,是目前XML流处理需要解决的问题之一.目前,查询XML数据流的研究包括Xfilter[18],Yfilter[19], XMLTK[20],XSQ[21],XSM[22]等.处理的方法一般是将XPath转化成一个有限自动机模型,有固定的初始节点和终节点,当走到有限自动机的终点时,表示XPath查询被匹配.比较复杂的自动机模型可以支持包含双斜杠(//)和*或带多个谓词的XPath语句,有的还支持集函数.XML流处理需要解决的另一个问题是处理同时出现的大量复杂路径查询.有的研究提取相似的XPath查询并综合到一个结构中,同时计算共享路径以避免重复操作,可以大大提高处理的效率.

数据流本身的流速和流量的增长,传感器数据流和XML数据流的出现是对传统的数据流处理提出的挑战.部分研究者正致力于将数据流融入数据库管理系统中的工作.另一部分研究者则欲开发普遍适用(NiagaraCQ, Stanford Stream, Telegraph, Aurora)或者专用的(Gigascope)数据流管理系统.

3.3 传感器数据库技术

随着微电子技术的发展,传感器的应用越来越广泛.可以使小鸟携带传感器,根据传感器在一定的范围内发回的数据定位小鸟的位置,从而进行其他的研究;还可以在汽车等运输工具中安装传感器,从而掌握其位置信息;甚至于微型的无人间谍飞机上也开始携带传感器,在一定的范围内收集有用的信息,并且将其发回到指挥中心.

当有多个传感器在一定的范围内工作时,就组成了传感器网络.传感器网络由携带者所捆绑的传感器及接收和处理传感器发回数据的服务器所组成.传感器网络中的通信方式可以是无线通信,也可以是有线通信.

现在,在研究机构和商业公司中都有对传感器网络的研究.WINS NG是Sensoria公司设计的传感器网络结构.该网络结构包括处理传感器数据的服务器、与服务器直接相连的可以将传感器收集的数据传送到服务器的网关节点和作为传感器网络神经末梢的各个收集信息的传感器.各个收集信息的传感器之间可以相互传递数据.在该网络中,信息是通过无线通信的方式传递的.Smart Dust Motes是U.C.Berkley设计的微型传感器网络结构,该网络结构运行在一个立方毫米级的小盒子里,主要包括收集数据的传感器和处理数据的服务器.各个节点之间通过激光传递信息.

在传感器网络中,传感器数据就是由传感器中的信号处理函数产生的数据.信号处理函数要对传感器探测到的数据进行度量和分类,并且将分类后的数据标记时间戳,然后发送到服务器,再由服务器对其进行处理.传感器数据可以通过无线或者光纤网存取.无线通信网络采用的是多级拓扑结构,最前端的传感器节点收集数据,然后通过多级传感器节点到达与服务器相连接的网关节点,最后通过网关节点,将数据发送到服务器.光纤网络采用的是星型结构,各个传感器直接通过光纤与服务器相联接.

传感器节点上数据的存储和处理方法有两种:第1种类型的处理方法是将传感器数据存储在一个节点的传感器堆栈中,这样的节点必须具有很强的处理能力和较大的缓冲空间;第2种方法适用于一个芯片上的传感器网络,传感器节点的处理能力和缓冲空间是受限制的:在产生数据项的同时就对其进行处理以节省空间,在传感器节点上没有复杂的处理过程,传感器节点上不存储历史数据;对于处理能力介于第1种和第2种传感器网络的网络来说,则采用折衷的方案,将传感器数据分层地放在各层的传感器堆栈中进行处理.

传感器网络越来越多地应用于对很多新应用的监测和监控.在这些新的应用中,用户可以查询已经存储的数据或者传感器数据,但是,这些应用大部分建立在集中的系统上收集传感器数据.因为在这样的系统中数据是以预定义的方式抽取的,因此缺乏一定的灵活性.

新的传感器数据库系统需要考虑大量的传感器设备的存在,以及它们的移动和分散性.因此,新的传感器数据库系统需要解决一些新的问题.主要包括:

(1) 传感器数据的表示和传感器查询的表示:Cornell大学的COUGAR模型、Rutgers大学的WebDust系统、Washington大学的Sagres系统都对这两个问题进行了研究.在COUGAR系统中,每一个传感器表示成一个ADT,每一个信号处理函数与一个ADT函数相联系,该ADT函数对于传感器收集到的数据输出一个与传感器所在的位置相关联的序列,COUGAR采用关系数据库的表来存储这些信息.COUGAR采用主动方式的持续查

1828 Journal of Software软件学报 2004,15(12)

询,当在查询过程中有新的数据产生时,这种查询方式会自动增加对新产生的数据的查询.Sagres系统主要包括两部分,第1部分是设备信息管理器,主要存储传感器的设备信息和作为属性的描述性规则等;第2部分是查询翻译器,主要采用ECA模型对数据进行查询和更新.

(2) 在传感器节点上处理查询分片:传感器资源的有限性,要求我们必须有效地处理各个节点上的查询.

(3) 分布查询分片:产生和传输传感器数据都需要花费代价,必须考虑单个节点的查询效率和网络传输代价的平衡.而且,与传统的分布式查询所不同,在传感器数据库中,没有全局的优化信息,传感器是移动的,而且源数据是动态的,这些都是需要考虑的问题.

(4) 适应网络条件的改变:在传感器网络中,大量的数据查询必须处理传感器之间或者传感器与前端服务器之间的数据流.数据流引擎和数据流操作符是对这种大流量数据进行控制的主要方法.另外,基于传感器数据的本质和网络的可能拥塞,对一个查询分片来说需要决定下一个要执行的数据流操作符,这就是自适应查询处理需要考虑的问题.

(5) 处理站点失败和传输失败的情况:传感器网络中必须考虑站点或者传输失败的情况.

(6) 传感器数据库系统:传感器数据库必须利用系统中的所有传感器,而且可以像传统数据库那样方便、简洁地管理传感器数据库中的数据;建立可以获得和分配源数据的机制;建立可以根据传感器网络调整数据流的机制;可以方便地配置、安装和重新启动传感器数据库中的各个组件等.

3.4 XML数据管理

目前大量的XML数据以文本文档的方式存储,难以支持复杂高效的查询.用传统数据库存储XML数据的问题在于模式映射带来的效率下降和语义丢失.一些Native XML数据库的原型系统已经出现(Taminon,Lore, Timber,OrientX(中国人民大学开发)等).XML数据是半结构化的,不像关系数据那样是严格的结构化数据,这样就给Native XML数据库中的存储系统带来更大的灵活性,同时,也带来了更大的挑战.恰当的记录划分和簇聚,能够减少I/O次数,提高查询效率;反之,不恰当的划分和簇聚,则会降低查询效率.研究不同存储粒度对查询的支持也是XML存储面临的一个关键性问题[23].

当用户定义XML数据模型时,为了维护数据的一致性和完整性,需要指明数据的类型、标示,属性的类型,数据之间的对应关系(一对多,多对多等)、依赖关系和继承关系等.而目前半结构化和XML数据模型形成的一些标准(如OEM,DTD,XML Schema等)忽视了对这些语义信息和完整性约束方面的描述.ORA-SS[24]模型扩展了对象关系模型用于定义XML数据.这个模型用类似E-R图的方式描述XML数据的模式,对对象、联系和属性等不同类型的元素用不同的形状加以区分,并标记函数依赖、关键字和继承等.其应用领域包括指导正确的存储策略,消除潜在的数据冗余,创建和维护视图及查询优化等.

在XML数据查询处理研究中,存在下列焦点问题:

第1,如何定义完善的查询代数.众所周知,关系数据库统治数据管理领域长盛不衰的法宝就是描述性查询语言SQL和其运行基础关系代数.关系代数的目的之一是约束明确的查询语义,之二是用于支持查询优化.关系代数的优势来自简单明确的数据模型——关系,具有完善的数学基础和系统的转换规则.而XML数据模型本身具有的半结构化特点是定义完善的代数运算的最大障碍.XML查询语言中的不确定性是另一个难以克服的困难.目前提出的Xquery Formal Semantic标准基于Function Language的思想,为查询优化带来了新的困难.

第2,复杂路径表达式是XML查询语句的核心,必须将复杂、不确定的路径表达式转换为系统可识别的、明确的形式.面向对象数据库中的模式支持的分解方法,不适应处理没有模式或者虽有模式信息但模式本身为半结构化和不确定性的XML路径分解的情况.并且,XML数据的存储和索引方法与面向对象数据库不同,而这正是影响路径分解的重要因素.

第3,XML数据信息统计和代价计算.传统的对值的统计对XML查询是不够的.XML数据本身缺乏模式的支持,使对数据结构信息的统计显得更加重要.XML数据中的数值分布在类似树状结构的树叶上,即使相同类型的数据,由于半结构化特点,其分布情况也可能完全不同.因此,需要把对结构的统计信息和对值的统计信息结合到一起,才能得到足够精确的统计信息.对XML查询代价的计算可以分为两个层次:上层为对查询结果集

孟小峰等:数据库技术发展趋势1829

大小的估计.给定XPath路径,忽略方法的不同,只估计返回路径目标结点结果集的大小.这种方法普遍用于路径分解后确定查询片段的执行次序.下层为执行时间的估计.给定查询片断,估计不同的执行算法所需时间代价.这种方法用于确定查询片段的执行方法.

目前,XML数据索引按照用途可分为3种:简单索引、路径索引和连接索引.简单索引包括标记索引、值索引、属性索引等.路径索引抽取XML数据的结构,索引具有相同路径或者标记的结点用于导航查询时缩小搜索的范围.连接索引在元素的编码上建立特定的索引结构来辅助跳过不可能发生连接的节点,从而避免对这些节点的处理.可以利用的索引结构包括B+树、改进的B+树[25,26]、R树和XR树[27]等.利用索引提高查询效率实际上是空间换时间的做法.如何针对不同的查询需求建立、使用和维护合适的索引是研究者面临的一个问题.另一个问题是,不同的索引,索引目标也不相同,如何在一个查询中综合地使用不同的索引.随着XML数据在电子商务中的广泛应用,XML数据更新需求迫切,更多的研究者开始关注如何动态地维护索引以适应不断的数据更新的问题.

对于XML数据的更新操作,无论在语言,还是在操作方法上都没有一个统一的标准.更新操作从逻辑上是指:元素的插入、删除和更新.更新包括模式检查、结点定位、存储空间的分配和其他辅助数据的更新,比如索引、编码等.在XML文档中插入数据的问题需要移动所有插入点后面的数据.为了解决这个问题,引入了空间预留方法,在数据存储时,根据模式定义预留一部分空间给可能的插入点.当有数据插入时,如果预留空间足够,则无须数据移动.如果预留空间不够,则在新申请的页面中插入数据,原有数据也不需要移动.与此同时,为以后的数据插入预留了更多的空间.针对不同的存储策略,数据更新的方法也不同,非簇聚存储方法在更新时无须在物理上保持数据的有序性,更新代价较小.簇聚存储方法在更新时需要更多的无关数据移动以维护簇聚性.因此,对更新频繁的数据,不宜采用簇聚存储方法.

XML数据处理面临的未解决的问题还包括:首先在查询处理上,是导航处理还是基于代数的一次一集合的处理?这一直是XML查询优化研究的焦点,而如何在一个系统中把二者有机地结合起来以提高效率的研究还很不充分.目前对XML数据查询的各种不同的执行方法之间的孰优孰劣的比较工作还刚刚开始,并未形成共识性的规则.由于XML数据本身的灵活性,找到一些普遍适用的规律是很困难的.在今后的一段时间内,相信会有更多的研究工作在这方面展开.其次,实例化视图作为查询优化的一个重要手段并未在XML查询优化研究中得到足够的重视.最后,Native XML数据库是否是合适的XML数据处理解决方案?如果是的话,如何做到XML数据与传统数据库数据的互操作?这些都是有待进一步研究的问题.

3.5 网格数据管理[6,28,29]

简单地讲,网格是把整个网络整合成一个虚拟的巨大的超级计算环境,实现计算资源、存储资源、数据资源、信息资源、知识资源和专家资源的全面共享.目的是解决多机构虚拟组织中的资源共享和协同工作问题.在网格环境中,不论用户工作在何种“客户端”上,系统均能根据用户的实际需求,利用开发工具和调度服务机制,向用户提供优化整合后的协同计算资源,并按用户的个性提供及时的服务.按照应用层次的不同可以把网格分为3种:计算网格,提供高性能计算机系统的共享存取;数据网格,提供数据库和文件系统的共享存取;信息服务网格则支持应用软件和信息资源的共享存取.

高性能计算的应用需求使计算能力不可能在单一计算机上获得,因此,必须通过构建“网络虚拟超级计算机”或“元计算机”获得超强的计算能力,这种计算方式称为网格计算.它通过网络连接地理上分布的各类计算机(包括机群)、数据库、各类设备和存储设备等,形成对用户相对透明的虚拟的高性能计算环境,应用包括了分布式计算、高吞吐量计算、协同工程和数据查询等诸多功能.网格计算被定义为一个广域范围的“无缝的集成和协同计算环境”.网格计算模式已经发展为连接和统一各类不同远程资源的一种基础结构.网格计算有两个优势,一个是数据处理能力超强;另一个是能充分利用网上的闲置处理能力.为实现网格计算的目标,必须重点解决3个问题:其一,异构性.由于网格由分布在广域网上不同管理域的各种计算资源组成,怎样实现异构资源间的协作和转换是首要问题.其二,可扩展性.网格资源规模和应用规模可以动态扩展,并能不降低性能.其三,动态自适应性.在网格计算中,某一资源出现故障或失败的可能性较高,资源管理必须能够动态监视和管理网格资源,

1830 Journal of Software软件学报 2004,15(12)

从可利用的资源中选取最佳资源服务.

数据网格保证用户在存取数据时无须知道数据的存储类型(数据库,文档,XML)和位置.涉及的问题包括:如何联合不同的物理数据源,抽取源数据构成逻辑数据源集合;如何制定统一的异构数据访问的接口标准;如何虚拟化分布的数据源等.目前,数据网格研究的问题之一是:如何在网格环境下存取数据库,提供数据库层次的服务,因为数据库显然应该是网格中十分宝贵且巨大的数据资源.数据库网格服务不同于通常的数据库查询,也不同于传统的信息检索,需要将数据库提升为网格服务,把数据库查询技术和信息检索技术有机结合,提供统一的基于内容的TOP-K数据库检索机制和软件[43~45].

信息网格是利用现有的网络基础设施、协议规范、Web和数据库技术,为用户提供一体化的智能信息平台,其目标是创建一种架构在OS和Web之上的基于Internet的新一代信息平台和软件基础设施.在这个平台上,信息的处理是分布式、协作和智能化的,用户可以通过单一入口访问所有信息.信息网格追求的最终目标是能够做到按需服务(service on demand)和一步到位的服务(one click is enough).信息网格的体系结构、信息表示和元信息、信息连通和一致性、安全技术等是目前信息网格研究的重点.

目前,信息网格研究中未解决的问题包括:个性化服务、信息安全性和语义Web[29].对同一个请求,给一个领域专家与一个初学者的应答应该是不一样的.请求应答应该依赖于提交请求者的背景,也应该根据提交请求者以及环境的不同,反馈相应的意见.为了达到个性化,需要为之建立一个框架以概括和发掘适当的源数据.一个值得注意的问题是信息的个性化和不确定性需要人们核实信息系统所提供的答案是否“正确”.例如,如果信息系统出错,提供了不合适的个性化结果,那该怎么办呢?

Internet的普遍应用使得个体信息的可获得性发生了巨大的变化.对于一般性的数据,如一个人在哪些地方居住过,是很容易得到的.另外,如果查找一个在给定的地方居住的每个人的信息是容易的,那么据此推断一个给定人的室友也就很容易了.站点的集中可以查出哪些人坐过同一架飞机这样的信息,在这样的情况下,不难拿到一个死去的人的私人信息,并用这些信息来冒名申请信用卡,这种身份盗窃问题已成为一个国际问题.数据库的安全性问题在20世纪80年代进行了许多研究.现在我们需要从一个新的角度来重新研究这个问题,解决数据关联、安全策略、支持多个个体的安全机制以及由第三方把持的信息控制等问题.这些问题与以前单一的防止不合法用户访问以保护数据的情形大为不同,是用于建立一个面向Web的安全模型.

未来由“语义Web”引发的研究机会会非常引人瞩目[29].尽管这个概念所要表达的真正含义并不清楚,然而目前的大多数工作已经集中在“本体(ontology)”上.一个本体刻画了一个论题的领域和范围,这通常用一种形式语言来识别它们的概念及其之间的关系.我们在第 3.1节曾提到过这项工作对支持信息集成的重要性.因为在这方面,基本的问题是不能把那些在同一个深层次上用不同的术语讨论的同一个问题的数据库综合在一起.关于本体的研究同样也可以让使用数据库和其他资源的用户用语音或者是自然语言来查询他们自己的术语.

由于得到政府和企业的大力支持,近年来,网格技术在国内外都得到飞速发展.网格研究呈现了实验室研究和实际应用紧密结合的局面,网格技术的应用从单纯的科学计算领域扩展到企业计算领域,并推动了相关的产业化进程.

3.6 DBMS的自适应管理[6]

随着RDBMS复杂性增强以及新功能的增加,使对数据库管理人员的技术需求和熟练数据库管理人员的薪水支付都在大幅度增长,导致企业人力成本支出也在迅速增加.随着关系数据库规模和复杂性的增加,系统调整和管理的复杂性相应增加.今天,一个DBA必须了解磁盘分区,并行查询执行,线程池和用户定义的数据类型.基于上述原因,数据库系统自调优和自管理工具的需求增加,对数据库自调优和自管理的研究也逐渐成为热点.

这类项目至少包含两个部分.首先,目前的DBMS有大量“调节按钮”,这允许专家从可操作的系统上获得最佳的性能.通常,生产商要花费巨大的代价来完成这些调优.事实上,大多数的系统工程师在做这样的调整时,并不非常了解这些调整的意义.只是他们以前看过很多系统的配置和工作情况,将那些使系统达到最优的调整参数记录在一张表格中.当处于新的环境时,他们在表格中找到最接近眼前配置的参数,并使用那些设置.

这就是所谓的数据库调优技术.它其实给数据库系统的用户带来极大的负担和成本开销,而且DBMS的调

孟小峰等:数据库技术发展趋势1831

优工作并不是仅依靠使用者的能力就能完成的.其实,把基于规则的系统和可调控的数据库联系起来是可以实现数据库自动调优的.目前,广大的用户其实已经在数据库调优方面积累了大量的经验,诸如:动态资源分配、物理结构选择以及某种程度上的视图实例化等.我们认为,数据库系统的最终目标是“没有可调部分”,即所有的调整均由DBMS自动完成.它可以依据缺省的规则,如响应时间和吞吐率的相对重要性做出选择;也可以依据用户的需要制定规则.因此,建立能够清楚地描述用户行为和工作负载的更完善的模型是这一领域取得进展的先决条件.除了不需要手工调整,DBMS还需要一种能力以发现系统组件内部及组件之间的故障,辨别数据冲突,侦查应用失败,并且做出相应的处理.这些能力要求DBMS具有更强的适应性.

学术界与工业界都在努力,有的数据库厂商已将部分研究成果转化到产品中去.我们相信,达到实质意义上的“无可调部分”,即开发出无须DBA的DBMS是可能的.

3.7 移动数据管理

目前,蜂窝通信、无线局域网以及卫星数据服务等技术的迅速发展,使得人们可以随时随地访问信息的愿望成为可能.在不久的将来,越来越多的人将会拥有一台掌上型或笔记本电脑,或者个人数字助理(PDA)甚至智能手机,这些移动计算机都将装配无线联网设备,从而能够与固定网络甚至其他的移动计算机相联.用户不再需要固定地联接在某一个网络中不变,而是可以携带移动计算机自由地移动,这样的计算环境,我们称之为移动计算(mobile computing).

研究移动计算环境中的数据管理技术,已成为目前分布式数据库研究的一个新的方向,即移动数据库技术.与基于固定网络的传统分布计算环境相比,移动计算环境具有以下特点:移动性、频繁断接性、带宽多样性、网络通信的非对称性、移动计算机的电源能力、可靠性要求较低和可伸缩性等.移动计算环境的出现,使人们看到了能够随时随地访问任意所需信息的希望.但是,移动计算以及它所具有的独特特点,对传统的数据库技术,如分布式数据库技术和客户/服务器数据库技术,提出了新的要求和挑战.移动数据库系统要求支持移动用户在多种网络条件下都能够有效地访问所需数据,完成数据查询和事务处理.通过移动数据库的复制/缓存技术或者数据广播技术,移动用户即使在断接的情况下也可以继续访问所需的数据,从而继续自己的工作,这使得移动数据库系统具有高度的可用性.此外,移动数据库系统能够尽可能地提高无线网络中数据访问的效率和性能.而且,它还可以充分利用无线通信网络固有的广播能力,以较低的代价同时支持大规模的移动用户对热点数据的访问,从而实现高度的可伸缩性,这是传统的客户/服务器或分布式数据库系统所难以比拟的.

目前,移动数据管理的研究主要集中在以下几个方面:首先是数据同步与发布的管理.数据发布主要是指在移动计算环境下,如何将服务器上的信息根据用户的需求有效地传播到移动客户机上.数据同步则是指在移动计算环境下,如何将移动客户机的数据更新同步到中央服务器上,使之达到数据的一致性.目前面临的一个主要问题是持续查询(continuous query).持续查询是指用户只需向服务器提交一次查询请求(在实际系统中经常是以user profile的形式出现),当用户查询所涉及的信息内容发生变化时,服务器自动将新的查询结果发布给用户.从根本上讲,持续查询采用的是发布/预订(publish/subscribe)的发布方法,但这里我们需要着重关注的问题是:因为我们要在众多的信息文件中进行挑选,把不同的信息发布给不同的用户,因此如何快速、准确地完成这项任务就变得非常重要.持续查询同样引发一系列的研究问题,比如持续查询格式的组织,在移动环境下持续查询结果的传送等,这些都是今后移动计算领域在数据库方面有待研究和解决的具体问题.

其次是移动对象管理技术[30,31].移动对象/用户是移动计算环境下的运行主体,因而如何实施对移动对象/用户的有效管理便成为这一领域的研究热点,即移动对象数据库(moving objects databases,简称MOD)技术.移动对象数据库是指对移动对象(如车辆、飞机、移动用户等)及其位置进行管理的数据库.移动对象管理技术在许多领域展现了广阔的应用前景.在军事上,移动对象数据库可以回答常规数据库所无法回答的查询;在民用领域,利用移动对象数据库技术可以实现智能运输系统、出租车/警员自动派遣系统、智能社会保障系统以及高智能的物流配送系统.此外,移动对象管理技术还在电子商务领域有着广泛的应用前景.目前,移动对象管理主要研究问题包括:

(1) 位置的表示与建模[32]:为了对移动对象的位置进行行之有效的管理,移动对象数据库系统必须能够准

1832 Journal of Software软件学报 2004,15(12)

确地获取移动对象的当前位置信息(位置信息的获取),并建立有效的位置管理模型(位置信息的表示).

(2) 移动对象索引技术[33]:在移动对象数据库中,通常管理着数量非常庞大的移动对象.在查询处理时,如果逐个扫描所有的移动对象显然会极大地影响系统的性能.为了减小搜索空间,就必须对移动对象进行索引.移动对象的索引技术是一个充满挑战性的研究领域.到目前为止,这方面的研究还比较初步,尚待进一步地深入.

(3) 移动对象及静态空间对象的查询处理:移动对象数据库中的查询目标分为两种:一种是移动对象(如汽车、移动用户等),另一种是静态空间对象(如旅馆、医院等),对这两类数据的查询各自需要相应的索引结构的支持.移动对象数据库中的查询具有位置相关的特性,即查询结果依赖于移动对象当前位置,同一个查询请求,其提交的时间、地点不同,返回的结果也将不同.典型的查询包括区域查询(查询某个时间段处于某个地理区域的移动对象)、KNN查询(查询离某一点最近的K个移动对象)以及连接查询(查询满足条件的移动对象组合)等.

(4) 位置相关的持续查询及环境感知的查询处理[34]:在移动对象数据库中,另一类重要的查询是位置相关的持续查询(location-dependent continuous query,简称LDCQ).位置相关的持续查询是指在某个时间区间内持续有效的查询,在该时间区间内,由于移动对象位置的改变,查询的结果也在不断变化,系统需要随时将查询结果的变化信息传递给查询用户,使得用户能够实时监控最新的查询结果.例如,在高速公路上行进的救护车可以提交一个持续查询:“请在未来20分钟之内随时告诉我离我最近的医院”.用户将在未来20分钟的行程中不断地收到离救护车最近的医院的查询结果.

3.8 微小型数据库技术

数据库技术一直随着计算的发展而不断进步,随着移动计算时代的到来,嵌入式操作系统对微小型数据库系统的需求为数据库技术开辟了新的发展空间.微小型数据库技术[35~37]目前已经从研究领域逐步走向应用领域.随着智能移动终端的普及,人们对移动数据实时处理和管理要求也不断提高,嵌入式移动数据库越来越体现出其优越性,从而被学界和业界所重视.

一般说来,微小型数据库系统(a small-footprint DBMS)可以定义为:一个只需很小的内存来支持的数据库系统内核.微小型数据库系统针对便携式设备其占用的内存空间大约为2MB,而对于掌上设备和其他手持设备,它占用的内存空间只有50KB左右.内存限制是决定微小型数据库系统特征的重要因素.微小型数据库系统根据占用内存的大小又可以进一步分为:超微DBMS(pico-DBMS)、微小DBMS(micro-DBMS)和嵌入式DBMS 3种.

? Pico-DBMS包括Gnat-DB和Pico-DBMS,分别占用内存11KB和35KB,适用于智能卡(smart card)等微小设备;

? Micro-DBMS包括Sybase SQL Anywhere,IBM DB2 Everyplace以及开放源码DBMS——Berkeley DB,它们占用的内存空间通常在50KB~300KB之间,适用于手机等设备;

?嵌入式DBMS包括Oracle 9i Lite,Informix Cloudscape,人大“小精灵”[38],分别占用1MB~2MB的内存空间,适用于掌上电脑等设备.

各种微小型数据库系统分类及主要特点见表2[36].

微小型数据库系统与操作系统和具体应用集成在一起,运行在各种智能型嵌入设备或移动设备上.其中,嵌入在移动设备上的数据库系统涉及数据库技术、分布式计算技术,以及移动通信技术等多个学科领域.

随着电子银行、电子政府以及移动商务应用的增加,需要处理的移动数据也迅速地增大.应用中对移动数据的管理要求也越来越高,开始涉及一些复杂的查询如连接和聚集,并且为了保证数据的一致性,提出了原子性和持久性的要求,同时对移动设备上数据访问的安全性也提出了较高的要求,如视图和聚集函数等复杂访问权限的管理.因此,为满足日益增长的数据处理需求及方便应用的开发,对移动设备上的微小型数据库管理系统的需求也越来越大.

孟小峰等:数据库技术发展趋势1833

Table 2 Comparison of kinds of tiny databases system

表2 各种微小型数据库系统分类及主要特点

Tiny DBMS Memory Device Transaction support Key techniques

Gnat-DB 11KB Smartcards AD Log-Structured storage

Pico-DBMS 35KB Smartcards ACID Ring storage

SQL anywhere 50KB PDAs ACID Adaptive SQL-Anywhere, UltraLite

DB2 everyplace 150KB PDAs ACID First-Results-Optimizer

Berkeley DB 375KB PDAs ACID (key, value) storage

Oracle 9i lite 1MB PDAs ACID Transparent online/offline

Cloudscape 2MB PDAs ACID ORDBMS, 100% JA V A 传统的数据库系统其结构和算法都是基于磁盘的,它需要大量的RAM和磁盘存储空间,并且使用了缓冲及异步I/O技术来减少磁盘存取的开销.然而,移动设备大多只有很小的存储空间、较低的处理速度以及很低的网络带宽,因此需要对传统数据库进行裁减以适应移动设备的需求.

移动设备所具有的计算能力小、存储资源不多、带宽有限以及Flash存储上写操作速度慢等特性,影响了微小型数据库系统的设计.要考虑诸如压缩性、RAM的使用、读写规则、存取规则、基本操作系统和硬件的支持及稳定存储等因素.因此在设计微小型数据库系统时,应该考虑如下设计原则:

?压缩性原则:数据结构和代码都要精简.

?R AM原则:最小化RAM的使用.

?写原则:最小化写操作以减少写代价.

?读原则:充分利用快速读操作.

?存取原则:利用低粒度和稳定内存的直接访问能力进行读和写.

?安全原则:保护数据不受意外和恶意破坏,最小化算法的复杂性以避免安全漏洞.

微小型数据库技术目前已经从研究领域向广泛的应用领域发展,各种微小型数据库产品纷纷涌现.尤其是对移动数据处理和管理需求的不断提高,紧密结合各种智能设备的嵌入式移动数据库技术已经得到了学术界、工业界、军事领域和民用部门等各方面的重视并不断实用化.

3.9 数据库用户界面

一直以来,一个普遍的悲哀是数据库学术界在用户界面方面做的工作太少了.目前,计算机已经有足够的能力在桌面上运行很复杂的可视化系统.然而,对于一个DBMS给定的信息类型,如何使它在可视化上达到最优还不清楚.20世纪80年代时,人们提出了少数优秀的可视化系统,尤其是QBE和VisiCalc.但15年来至今仍没有更优秀的系统出现,因此人们迫切需要在这方面有所创新[6].

XML数据的出现使人们提出了新的查询语言XQuery,但这至多只是从一种描述语言转到另一种差不多有相同表示程度的描述语言.从本质上讲,普通用户使用这样的语言还是有一定难度的.

随着数据库应用及信息检索系统的广泛普及,越来越多的非专业用户需要一种易于掌握的界面去访问所需的信息.数据库自然语言界面(NLIDB)显然最符合这类用户的要求.它提供了用户直接以人类语言(而不是人工语言或机器语言)的方式向数据库系统发问以获得所需的信息,从而大大改善了人机交互的容易程度.国外早在20世纪七八十年代就开始了这方面的大量研究工作,并研制了若干数据库自然语言界面系统.

数据库界面的研究在我国一直未引起足够的重视,因此缺乏适合我国用户的数据库界面.开展数据库中文自然语言界面的研究十分有意义.中文自然语言查询系统NChiql[39,40]在这方面做了有益的尝试.特别在今天,计算机的汉语语音识别已初步达到实用的阶段,中文语言查询界面若与汉音识别成龙配套,前景将十分诱人.

4 结束语

本文从目前数据库研究的热点问题出发,探讨了数据库未来发展方向的问题.我们看到在近40年中,数据库研究工作集中在数据库管理系统开发的核心领域上,而数据管理的研究范畴远比这宽得多.如果忽视一些新的应用领域面临的数据管理问题,就会使数据库研究局限于传统的数据管理应用上,从而失去活力.从研究者角度来说,我们应该尽量避免局限于我们所做的东西.我们需要拓宽数据库研究领域,不断地与新技术和新应用融

1834 Journal of Software软件学报 2004,15(12)

合.这一点从最具影响的数据库会议历年来收文领域的变化可见一斑.以VLDB为例,从2000年开始为非核心数据库技术类文章分配了更多的配额,以鼓励对与信息管理相关的挑战性问题的研究.

在众多新技术应用中,对数据库研究最具影响力,推动数据库研究进入新纪元的无疑将是Internet的发展.Internet中的数据管理问题从深度和广度两方面对数据库技术都提出了挑战.从深度上讲,在Internet环境中,一些数据管理的基本假设不再成立,数据库研究者需要重新考虑在新情况下对传统技术的改进.从广度上讲,新问题的出现需要我们开拓思路,寻求创新性的技术突破.

最后,一个值得数据库研究界注意的问题是:目前各大数据库会议和期刊非常重视论文的严谨性和完整性.这使得研究者在证明其思想的合理性上花费过多的精力(如大量的实验和相关工作比较等),其导致的一个潜在问题是:一些大胆的或冒险的启发性研究工作可能因为缺乏严谨的证明,或者看上去过于激进等原因而得不到认可.我们应该为这些充满想象力的工作提供展示的舞台,让更多的研究者共享最新的创造性思维成果.基于此,一些资深的数据库学者于2001举办了首届“创新数据系统研究大会(Conference on Innovative Data Systems Research,简称CIDR[41]) ”,其目的就是鼓励人们发表一些前瞻性成果,而不用拘泥于结构严谨、性能模拟和原型实现等细节.

Jim Gray在SIGMOD2004年会的主题发言[42]中提到,数据库体系结构面临革命性变革.新的应用和需要将促使这一变革的到来.这对我国数据库工作者来说可能面临更大的压力和挑战.

需要说明的是,目前数据库的研究范围已极其广泛,限于篇幅,有很多方向如文本挖掘、数字图书馆、量子计算的生物信息等本文未有论及,但并不说明它们不重要.

References:

[1] Bernstein P, Dayal U, DeWitt DJ, Gawlick D, Gray J, Jarke M, Lindsay BG, Lockemann PC, Maier D, Neuhold EJ, Reuter A,

Rowe LA, Schek H, Schmidt JW, Schrefl M, Stonebraker ML. Future directions in DBMS research——The laguna beach participants. SIGMOD Record, 1989,18(1):17~26.

[2] Silberschatz A, Stonebraker M, Ullman JD. Database systems: Achievements and opportunities. CACM, 1991,34(10):110~120.

[3] Silberschatz A, Stonebraker M, Ullman JD. Database research, achievements and opportunities into the 21st century. SIGMOD

Record, 1996,25(1):52~63.

[4] Silberschatz A, Zdonik SB. Strategic directions in database systems——Breaking out of the box. ACM Computing Surveys, 1996,

28(4):764~778.

[5] Bernstein P, Brodie ML, Ceri S, DeWitt DJ, Franklin MJ, Garcia-Molina H, Gray J, Held G, Hellerstein JM, Jagadish HV, Lesk M,

Maier D, Naughton JF, Pirahesh H, Stonebraker M, Ullman JD. The asilomar report on database research. SIGMOD Record, 1998,27(4):74~80.

[6] Abiteboul S, Agrawal R, Bernstein P, Carey M, Ceri S, Croft B, DeWitt D, Franklin M, Molina H, Gawlick D, Gray J, Haas L,

Halevy A, Hellerstein J, Ioannidis Y, Kersten M, Pazzani M, Lesk M, Maier D, Naughton J, Schek H, Sellis T, Silberschatz A, Stonebraker M, Snodgrass R, Ullman J, Weikum G, Widom J, Zdonik S. The Lowell Database Research Self-Assessment Meeting, Lowell Massachusetts, 2003. https://www.doczj.com/doc/e813195676.html,/~gray/lowell

[7] Meng XF. Research on the technology of Web information integration. Computer Applications and Software, 2003,20(11):32~36

(in Chinese with English abstract).

[8] Levy A, Rajaraman A, Ordille JJ. Querying heterogeneous information sources using source descriptions. In: Vijayaraman TM,

Buchmann AP, Mohan C, Sarda NL, eds. Proc. of the 22th Int’l Conf. on Very Large Data Bases (VLDB 1996). Morgan Kaufmann Publishers, 1996. 251~262.

[9] Chawathe SS, et al. The TSIMMIS project: Integration of heterogeneous information sources. In: Proc. of the 10th Meeting of the

Information Processing Society of Japan. 1994. 7~18.

[10] Wiederhold G. Mediators in the architecture of future information systems. IEEE Computer, 1992,25(3):38~49.

[11] Meng XF, Hu D, Li C. Schema-Guided wrapper maintenance for web-data extraction. In: Chiang RHL, Laender AHF, Lim E-P, eds.

Proc. of the 5th ACM CIKM Int’l Workshop on Web Information and Data Management (WIDM). ACM Press, 2003. 1~8.

孟小峰等:数据库技术发展趋势1835

[12] Meng XF, Luo DF, Lee ML, An J. OrientStore: A schema based native XML storage system. (Demo). In: Freytag JC, Lockemann

PC, Abiteboul S, Carey MJ, Selinger PG, Heuer A, eds. Proc. of the 29th Int’l Conf. on Very Large Data Bases (VLDB). Berlin: Morgan Kaufmann Publishers, 2003. 1057~1060.

[13] Meng XF, Wang HY, Hu DD, Gu MZ. SG-WRAM schema guided wrapper maintenance: A demonstration. In: Dayal U,

Ramamritham K, Vijayaraman TM, eds. Proc. of the 19th Int’l Conf. on Data Engineering (ICDE). IEEE Computer Society, 2003.

750~752.

[14] Meng XF, Lu HJ, et al. Data extraction from the Web based on pre-defined schema. Journal of Computers Sciences and

Technology, 2001,17(4):377~388.

[15] Wu W, Yu C, Doan A, Meng W. An interactive clustering-based approach to integrating source query interfaces on the deep Web.

In: Weikum G, K?nig AC, De?loch S, eds. Proc. of the ACM SIGMOD Int’l Conf. on Management of Data (SIGMOD 2004). ACM Press, 2004. 95~106.

[16] Rajaraman A, Sagiv Y, Ullman JD. Anawering queries using templates with binding patterns. In: Jan C, ed. Proc. of the 14th ACM

SIGACT-SIGMOD-SIGART Symp. on Principles of Database Systems (PODS). ACM Press, 1995. 105~112.

[17] Yerneni R, Li C, Garcia-Molina H, Ullman J D. Computing capabilities of mediators. In: Delis A, Faloutsos C, Ghandeharizadeh G,

eds. Proc. ACM SIGMOD Int’l Conf. on Management of Data. ACM Press, 1999. 443~454.

[18] Altinel M, Franklin MJ. Efficient filtering of XML documents for selective dissemination of information. In: Abbadi AE, Brodie

ML, Chakravarthy S, Dayal U, Kamel N, Schlageter G, Whang K-Y, eds. Proc. of the 26th Int’l Conf. on Very Large Data Bases (VLDB). Morgan Kaufmann, 2000. 53~64.

[19] Diao Y, Altinel M, Franklin MJ, Zhang H, Fischer P. Path sharing and predicate evaluation for high-performance XML filtering.

TODS, 2003,28(4):296~336.

[20] Peng F, Chawathe SS. Stream processing of XPath queries with predicates. In: Halevy AY, Ives ZG, Doan A, eds. Proc. of the 2003

ACM SIGMOD Int’l Conf. on Management of Data (SIGMOD). ACM Press, 2003. 419~430.

[21] Avila-Campillo I, Ravin D, Green T, Gupta A, Kadiyska Y, Onizuka M, Suciu D. Processing XML streams with deterministic

automata. In: Calvanese D, Lenzerini M, Motwani R, eds. Proc. of the 9th Int’l Conf. Database Theory (ICDT 2003). Lecture Notes in Computer Science 2572, Springer-Verlag. 2003. 173~189.

[22] Lud?scher B, Mukhopadhyay P, Papakonstantinou Y. A transducer-based XML query processor. In: Bernstein PA, Ioannidis YE,

Ramakrishnan R, Papadias D, eds. Proc. of the 28th Int’l Conf. on Very Large Data Bases (VLDB). Morgan Kaufmann Publishers.

2002. 227~238.

[23] Meng XF, Luo D, Lee ML. An J, OrientStore: A schema based native XML storage system. In: Freytag JC, Lockemann PC,

Abiteboul S, Carey MJ, Selinger PG, Heuer A, eds. Proc. of the 29th Int’l Conf. on Very Large Data Bases (VLDB). Berlin: Morgan Kaufmann. 2003. 1057~1060.

[24] Wu XY, Ling TW, Lee ML, Dobbie G. Designing semistructured databases using the ORA-SS model. In: ?zsu MT, Schek H-J,

Tanaka K, Zhang Y, Kambayashi Y, eds. Proc. of the 2nd Int’l Conf. on Web Information Systems Engineering (WISE 2001). Vol 1, IEEE Computer Society, 2001. 171~182.

[25] Halverson A, Burger J, Galanis J. Mixed mode XML query processing. In: Freytag JC, Lockemann PC, Abiteboul S, Carey MJ,

Selinger PG, Heuer A, eds. Proc. of the 29th Int’l Conf. on Very Large Data Bases (VLDB). Berlin: Morgan Kaufmann, 2003.

225~236.

[26] AI-Khalifa S, Jagadish HV, Koudas N, Patel JM, Srivastava D, Wu Y. Structural joins: A primitive for efficient XML query pattern

matching. In: Agrawal R, Dittrich K, Ngu AHH, eds. Proc. of the 18th Int’l Conf. on Data Engineering (ICDE). IEEE Computer Society, 2002. 141~152.

[27] Jiang H, Lu H, Wang W, Chinooi B. XR-Tree: Indexing XML data for efficient structural join. In: Dayal U, Ramamritham K,

Vijayaraman TM, eds. Proc. of the 19th Int’l Conf. on Data Engineering. IEEE Computer Society, 2003. 253~263.

[28] Jagatheesan A, Moore R, Paton NW, Watson P. Grid data management systems & services. In: Freytag JC, Lockemann PC,

Abiteboul S, Carey MJ, Selinger PG, Heuer A, eds. Proc. of the 29th Int’l Conf. on Very Large Data Bases (VLDB). Berlin: Morgan Kaufmann, 2003. 1150.

1836 Journal of Software软件学报 2004,15(12)

[29] Decker S, Kashyap V. The semantic Web: Semantics for data on the Web. In: Freytag JC, Lockemann PC, Abiteboul S, Carey MJ,

Selinger PG, Heuer A, eds. Proc. of the 29th Int’l Conf. on Very Large Data Bases (VLDB 2003). Berlin: Morgan Kaufmann Publishers, 2003. 1148.

[30] Wolfson O, Xu B, Chamberlain S, Jiang L. Moving object databases: Issues and solutions. In: Rafanelli M, Jarke M, eds. Proc. of

the 10th Int’l Conf. on Scientific and Statistical Database Management. IEEE Computer Society, 1998. 111~122.

[31] Wolfson O, Chamberlain S, Dao S, Jiang L. Location management in moving objects databases. In: Proc. of the 2nd Int’l Workshop

on Satellite-Based Information Services (WOSBIS 1997). 1997.

[32] Meng XF, Ding ZF. DSTTMOD: A discrete spatio-temporal trajectory based moving object database system. In: Marík V,

Retschitzegger W, Stepánková O, eds. Proc. of the 14th Int’l Conf. on Database and Expert Systems Applications (DEXA 2003).

Lecture Notes in Computer Science 2736, Springer-Verlag, 2003. 444~453.

[33] Ding R, Meng XF, Bai Y. Efficient index update for moving objects with future trajectories. In: Proc. of the 8th Int’l Conf. on

Database Systems for Advanced Applications (DASFAA). IEEE Computer Society, 2003. 183~194.

[34] Ding ZM, Meng XF, Bai Y, Ding R. Relational database support for location dependant queries. Journal of CRAD,

2004,41(3):492~499 (in Chinese with English abstract).

[35] Bobineau C, Bouganim L, Pucheral P, Valduriez P. PicoDBMS: Scaling down database techniques for the smartcard. In: Abbadi

AE, Brodie ML, Chakravarthy S, Dayal U, Kamel N, Schlageter G, Whang K-Y, eds. Proc. of the 26th Int’l Conf. on Very Large Data Bases (VLDB). Morgan Kaufmann, 2000. 11~20.

[36] Arumugam S, Nagarajan K. Survey of small footprint databases. Technical Report, CIS 6930. Distributed Database Systems, 2000.

[37] Wetzel M, Stuttgart U, Informatik F. Small footpoint databases. Technical Report, University Stuttgart, 2003. http://www.

informatik.uni-stuttgart.de/ipvr/as/lehre/hauptseminar/docws02/paper05.pdf

[38] Zhang X, Meng XF, Wang S. KingBase lite: A smart mobile embedded database system. In: Proc. of Fourth Int’l Conf. on High

Performance Computing in Asia-Pacific Region(HPC Asia 2000). Volume II, IEEE Press, 2000. 806~811.

[39] Meng XF, Wang S, Wong KF. Overview of a Chinese natural language interface to databases: Nchiql. IJCPOL, 2001,14(3):

213~232.

[40] Meng XF, Liu S, Wang S. Word segmentation based on database semantic in Nchiql. Journal of Computer Science and Technology,

2000,15(4):346~354.

[41] Conference on Innovative Data Systems Research (CIDR), https://www.doczj.com/doc/e813195676.html,/cidr/

[42] Gray J. The revolution in database architecture. In: Weikum G, K?nig AC, De?loch S, eds. Proc. of the ACM SIGMOD Int’l Conf.

on Management of Data. ACM Press, 2004. 1~4.

[43] Database Access and Integration Services Working Group. https://www.doczj.com/doc/e813195676.html,/grid-db/

[44] Goldman R. Integrated query and search of databases, XML, and the Web [Ph.D Thesis]. Stanford University, 2000.

[45] Hristidis V, Gravano L, Papakonstantinou Y. Efficient IR-Style keyword search over relational databases. In: Freytag JC,

Lockemann PC, Abiteboul S, Carey MJ, Selinger PG, Heuer A, eds. Proc. of the 29th Int’l Conf. on Very Large Data Bases (VLDB). Berlin: Morgan Kaufmann, 2003. 850~861.

附中文参考文献:

[7] 孟小峰.Web信息集成技术研究.计算机应用与软件, 2003,20(11):32~36.

[34] 丁治明,孟小峰,白芸,丁锐.基于关系数据库的位置相关查询处理.计算机研究与发展,2004,41(3):492~499.

数据库技术发展趋势

数据库技术领域的发展趋势 1 泛数据研究 2 国际数据库研究界动态 3 主流技术发展趋势 3.1 信息集成 3.2 数据流管理 3.3 传感器数据库技术 3.4 XML 数据管理 3.5网格数据管理 3.6 DBMS的自适应管理 3.7移动数据管理 3.8 微小型数据库技术 3.9 数据库用户界面 1 泛数据研究的时代 数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,吸引了越来越多的研究者加入,使得数据库成为一个研究者众多且被广泛关注的研究领域.随着信息管理内容的不断扩展和新技术的层出不穷,数据库技术面临着前所未有的挑战.面对新的数据形式,人们提出了丰富多样的数据模型(层次模型、网状模型、关系模型、面向对象模型、半结构化模型等),同时也提出了众多新的数据库技术(XML 数据管理、数据流管理、Web数据集成、数据挖掘等). 回顾数据库发展之初,数据模型是制约数据库系统的关键因素.E.F Codd 博士(1923-2003)提出的关系模型充分考虑了企业业务数据的特点,从现实问题出发,为数据库建立了一个坚实的数学基础.在整个计算机软件领域,恐怕难以找到第2 个像关系模型这样,概念如此简单,但却能带来如此巨大市场价值的技术. 关系模型在关系数据库理论基本成熟后,各大学、研究机构和各大公司在关系数据库管理系统(RDBMS)的实现和产品开发中,都遇到了一系列技术问题.主要是在数据库的规模愈来愈大,数据库的结构愈来愈复杂,又有愈来愈多的用户共享数据库的情况下,如何保障数据的完整性、安全性、并发性以及故障恢复的能力,它成为数据库产品是否能够进入实用并最终

分布式数据库架构改造,让技术不再是业务发展的瓶颈

数据库架构改造,让技术不再是业务发展的瓶颈双十一过完的第一个工作日,又到了袋鼠小妹跟大家分享服务案例的时候啦。 今天分享的客户案例,是成立于2014年的某社交众筹平台。(出于保护客户隐私和机密的要求,相关信息已做脱敏处理。) 该众筹平台目前已拥有超过一亿个注册用户,筹款项目近130万个,总支持次数超过2亿次,是目前中国最具影响力的、基于社交圈的众筹平台之一。 经过两年的快速发展,平台的业务规模已经远超预期,蜂拥而来的流量让系统服务器达到了峰值,尤其是数据库在业务峰值期间经历着严峻的考验。 在这种情况下,客户通过渠道联系到了袋鼠云。 袋鼠云的数据库专家,使用自研的云资源管控平台(EasyCloud),迅速对客户数据库做了全面体检。 EasyCloud平台:云资源监控界面 发现其问题如下: 1. 核心数据库压力大(CPU使用率60%,QPS 3万+),不时的性能抖动已经影响业务。 2. 核心MySQL数据库数据量超过TB,单表数量几亿条,单库容量达到天花板。 3. 系统架构设计不合理,压力全部落到数据库,导致系统扩展性弱,限制了业务发展。 4. 数据库请求非常集中,90%以上的请求都在某几张表上,业务的峰值和热点非常明显,有点类似电商的热点商品秒杀;

5. 资源配置过高,超高的资源配置掩盖了技术架构的问题; 针对体检出来的问题和实际场景,袋鼠云规划了两个阶段的解决方案:短期以优化为主,以适应当前业务的快速发展;长期以架构改造为导向,通过架构来从根本上解决性能瓶颈。 短期解决方案: 思路上以“短、平、快”为主,解决当前性能瓶颈,主要聚焦在SQL优化,参数调整,读写分离等,优先满足当前几个月的性能需求。 1、数据库瓶颈分析,定位到大部分请求来自于几张表,重点对这几张表进行优化。 2、数据库读写分离,通过使用备库来分摊读压力,避免大量的读请求影响到主库和正常的业务流程。 3、慢SQL,对慢SQL进行优化和索引上的调整。 4、通过EasyCloud的AWR报表分析,对部分调用次数高的SQL,采用类似缓存等。 通过袋鼠DBA多次的数据库优化和调整,整个系统压力下降明显,数据库没有再出现响应慢的问题,解决了当前的性能瓶颈。 平台性能的明显提升,让客户对袋鼠云的技术实力有了一定的信任,这为后期架构方案的顺利执行,奠定了基础。 长期解决方案: 前面解决完短期的性能瓶颈,袋鼠DBA快马加鞭,对客户整体系统架构,重新进行了梳理和设计。 应用层采用微服务架构,原有数据库使用分库分表、缓存设计,满足系统未来2-3年的业务发展目标。 这样一来,即使未来系统容量不够,架构也无需进行大的重构,可以很方便地进行水平扩容,不会让技术成为业务发展的瓶颈。 解决内容如下: 1、基于阿里云EDAS做服务化设计。 2、协助客户对业务架构进行改造,通过缓存设计、页面渲染、前后端交互等,减少不必要的数据请求,使系统能够支持更大的流量和并发。

校园基础地理空间数据库建设设计方案

校园基础地理空间数据库建设设计方案 遥感1503班第10组 (杨森泉张晨欣杨剑钢熊倩倩) 测绘地理信息技术专业 昆明冶金高等专科学校测绘学院 2017年5月

一.数据来源 二. 目的 三 .任务 四. 任务范围 五 .任务分配与计划六.小组任务分配七. E-R模型设计八.关系模式九.属性结构表十.编码方案

一.数据来源 原始数据为大二上学期期末实训数字测图成果(即DWG格式的校园地形图) 导入GIS 软件数据则为修改过的校园地形图 二.目的 把现实世界中有一定范围内存在着的应用数据抽象成一个数据库的具体结构的过程。空间数据库设计要满足用户需求,具有良好的数据库性能,准确模拟现实世界,能够被某个数据库管理系统接受。

三.任务 任务包括三个方面:数据结构、数据操作、完整性约束 具体为: ①静态特征设计——结构特性,包括概念结构设计和逻辑结构设计; ②动态特性设计——数据库的行为特性,设计查询、静态事务处理等应用程序; ③物理设计,设计数据库的存储模式和存储方式。 主要步骤:需求分析→概念设计→逻辑设计→物理设计 原则:①尽量减少空间数据存储冗余;②提供稳定的空间数据结构,在用户的需要改变时,数据结构能够做出相应的变化;③满足用户对空间数据及时访问的需求,高校提供用户所需的空间数据查询结果;④在空间元素间为耻复杂的联系,反应空间数据的复杂性;⑤支持多种决策需要,具有较强的应用适应性。 四、任务范围 空间数据库实现的步骤、建库的前期准备工作内容、建库流程 步骤:①建立实际的空间数据库结构;②装入试验性数据测试应用程序;③装入实际空间数据,建立实际运行的空间数据库。 前期准备工作内容:①数据源的选择;②数据采集存储原则;③建库的数据准备;④数据库入库的组织管理。 建库流程:①首先必须确定数字化的方法及工具;②准备数字化原图,并掌握该图的投影、比例尺、网格等空间信息;③按照分层要求进行

数据库未来发展趋势(同名25272)

数据库未来发展趋势(同名25272)

数据库技术最新发展 数据库(Databases,简称DB)是指长期保存在计算机的存储设备上、并按照某种模型组织起来的、可以被各种用户或应用共享的数据的集合。数据库管理系统(Database Management Systems,简称DBMS)是指提供各种数据管理服务的计算机软件系统,这种服务包括数据对象定义、数据存储与备份、数据访问与更新、数据统计与分析、数据安全保护、数据库运行管理以及数据库建立和维护等。 由于企业信息化的目的就是要以现代信息技术为手段,对伴随着企业生产和经营过程而产生的数据进行收集、加工、管理和利用,以改善企业生产经营的整体效率,增强企业的竞争力。所以,数据库是企业信息化不可缺少的工具,是绝大部分企业信息系统的核心。 纵观数据库发展,三大数据库巨头公司纷纷推出其最新产品,数据库市场竞争日益加剧。从最新的IDC报告显示,在关系数据库管理系统(RDBMS)软件市场上,Oracle继续领先对手IBM和微软,但是微软在2006年取得了更快的销售增长率…… 根据对数据库发展的技术趋势不难看出,整个数据库发展呈现出了三个主要特征: (1)、支持XML数据格式 IBM公司在它新推出的DB2 9版本中,直接把对XML的支持作为其新产品的最大卖点,号称是业内第一个同时支持关系型数据和XML数据的混合数据库,无需重新定义XML数据的格式,或将其置于数据库大型对象的前提下,IBM DB2 9允许用户无缝管理普通关系数据和纯XML数据。 对于传统关系型数据与层次型数据的混合应用已经成为了新一代数据库产品所不可或缺的特点。除了IBM,Oracle和微软也同时宣传了它们的产品也可以实现高性能XML存储与查询,使现有应用更好的与XML共存。 (2)、商业智能成重点 为应对日益加剧的商业竞争,企业不断增加内部IT及信息系统,使企业的商业数据成几何数量级不断递增,如何能够从这些海量数据中获取更多的信息,以便分析决策将数据转化为商业价值,就成为目前数据库厂商关注的焦点。各数据库厂商在新推出的产品中,纷纷表示自己的产品在商业智能方面有很大提高。如:微软最新版SQL Server 2005就集成了完整的商业智能套件,包括数据仓库、数据分析、ETL工具、报表及数据挖掘等,并有针对性的做了一些优化。如何更好的支持商业智能将是未来数据库产品发展的主要趋势之一。 (3)、SOA架构支持 SOA已经成为目前IT业内的一个大的发展趋势,最初IBM和BEA是该理念的主要推动者,后来有越来越多的企业加入,开始宣称支持SOA,其中包括Oracle,而微软开始并不是非常赞同SOA的,但是,随着时间的发展,目前国内主流的数据库厂商都开始宣称他们的产品是完全支持SOA架构的,包括微软的SQL Server 2005,从微软态度的转变可以看出,未来IT业的发展与融合,SOA正在成长为一个主流的趋势。 本文仅对数据库管理系统的现状以及一些重要的发展方向作一简要综述,并不具体对一些技术内容进行深入探讨,每一个方向的研究课题都可以充分地展开。

数据中心的未来发展趋势

数据中心未来的发展趋势 经历了ISP/ICP飞速发展,.COM公司的风靡后,一种新的服务模式--互联网数据中心(Internet Data Center,缩写为IDC)正悄然兴起。它在国外吸引着像AT&T、AO- 、IBM、Exodus、UUNET等大公司的巨资投入;国内不但四大电信运营商中国电信、中国网通、中国联通、中国吉通开始做跑马圈地,一些专业服务商如清华万博、首都在线和世纪互联等,也参与了角逐。 IDC(Internet Data Center) - Internet数据中心,它是传统的数据中心与Internet的结合,它除了具有传统的数据中心所具有的特点外,如数据集中、主机运行可靠等,还应具有访问方式的变化、要做到7x24服务、反应速度快等。IDC是一个提供资源外包服务的基地,它应具有非常好的机房环境、安全保证、网络带宽、主机的数量和主机的性能、大的存储数据空间、软件环境以及优秀的服务性能。 IDC作为提供资源外包服务的基地,它可以为企业和各类网站提供专业化的服务器托管、空间租用、网络批发带宽甚至ASP、EC等业务。简单地理解,IDC是对入驻(Hosting)企业、商户或网站服务器群托管的场所;是各种模式电子商务赖以安全运作的基础设施,也是支持企业及其商业联盟(其分销商、供应商、客户等)实施价值链管理的平台。形象地说,IDC是个高品质机房,在其建设方面,对各个方面都有很高的要求。 IDC的总体结构如下图所示:

IDC的建设主要在如下几个方面: 网络建设 IDC主要是靠其有一个高性能的网络为其客户提供服务,这个高性能的网络包括其- AN、WAN和与Internet接入等方面。 IDC的网络建设主要有: - IDC的- AN的建设,包括其- AN的基础结构,- AN的层次,- AN的性能。- IDC的WAN的建设,即IDC的各分支机构之间相互连接的广域网的建设等。- IDC的用户接入系统建设,即如何保证IDC的用户以安全、可靠的方式把数据传到IDC的数据中心,或对存放在IDC的用户自己的设备进行维护,这需要IDC 为用户提供相应的接入方式,如拨号接入、专线接入及VPN等。 - IDC与Internet互联的建设。

海量数据下分布式数据库系统的探索与研究

海量数据下分布式数据库系统的探索与研究 摘要:当前,互联网用户规模不断扩大,这些都与互联网的快速发展有关。现 在传统的数据库已经不能满足用户的需求了。随着云计算技术的飞速发展,我国 海量数据快速增长,数据量年均增速超过50%,预计到2020年,数据总量全球 占比将达到20%,成为数据量最大、数据类型最丰富的国家之一。采用分布式数 据库可以显著提高系统的可靠性和处理效率,同时也可以提高用户的访问速度和 可用性。本文主要介绍了分布式数据库的探索与研究。 关键词:海量数据;数据库系统 1.传统数据库: 1.1 层次数据库系统。 层次模型是描述实体及其与树结构关系的数据模型。在这个结构中,每种记 录类型都由一个节点表示,并且记录类型之间的关系由节点之间的一个有向直线 段表示。每个父节点可以有多个子节点,但每个子节点只能有一个父节点。这种 结构决定了采用层次模型作为数据组织方式的层次数据库系统只能处理一对多的 实体关系。 1.2 网状数据库系统。 网状模型允许一个节点同时具有多个父节点和子节点。因此,与层次模型相比,网格结构更具通用性,可以直接描述现实世界中的实体。也可以认为层次模 型是网格模型的特例。 1.3 关系数据库系统。 关系模型是一种使用二维表结构来表示实体类型及其关系的数据模型。它的 基本假设是所有数据都表示为数学关系。关系模型数据结构简单、清晰、高度独立,是目前主流的数据库数据模型。 随着电子银行和网上银行业务的创新和扩展,数据存储层缺乏良好的可扩展性,难以应对应用层的高并发数据访问。过去,银行使用小型计算机和大型存储 等高端设备来确保数据库的可用性。在可扩展性方面,主要通过增加CPU、内存、磁盘等来提高处理能力。这种集中式的体系结构使数据库逐渐成为整个系统的瓶颈,越来越不适应海量数据对计算能力的巨大需求。互联网金融给金融业带来了 新的技术和业务挑战。大数据平台和分布式数据库解决方案的高可用性、高可靠 性和可扩展性是金融业的新技术选择。它们不仅有利于提高金融行业的业务创新 能力和用户体验,而且有利于增强自身的技术储备,以满足互联网时代的市场竞争。因此,对于银行业来说,以分布式数据库解决方案来逐步替代现有关系型数 据库成为最佳选择。 2.分布式数据库的概念: 分布式数据库系统:分布式数据库由一组数据组成,这些数据物理上分布在 计算机网络的不同节点上(也称为站点),逻辑上属于同一个系统。 (1)分布性:数据库中的数据不是存储在同一个地方,更准确地说,它不是 存储在同一台计算机存储设备中,这可以与集中数据库区别开来。 (2)逻辑整体性:这些数据在逻辑上是相互连接和集成的(逻辑上就像一个 集中的数据库)。 分布式数据库的精确定义:分布式数据库由分布在计算机网络中不同计算机

数据库技术及其发展趋势

数据库技术及其发展趋势 数据库技术是通过研究数据库的结构、存储、设计、管理以及应用的基本理论和实现方法,并利用这些理论来实现对数据库中的数据进行处理、分析和理解的技术。 数据库技术研究和管理的对象是数据,所以数据库技术所涉及的具体内容主要包括:通过对数据的统一组织和管理,按照指定的结构建立相应的数据库和数据仓库;利用数据库管理系统和数据挖掘系统设计出能够实现对数据库中的数据进行添加、修改、删除、处理、分析、理解、报表和打印等多种功能的数据管理和数据挖掘应用系统;并利用应用管理系统最终实现对数据的处理、分析和理解。 一、数据库发展历史 第一代数据库系统是20世纪70年代研制的层次和网状数据库系统。层次数据库系统的典型代表是1969年IBM公司研制出的层次模型的数据库管理系统IMS。20世纪60年代末70年代初,美国数据库系统语言协会CODASYL(Conference on Data System Language)下属的数据库任务组DBTG(Data Base Task Group)提出了若干报告,被称为DBTG报告。DBTG报告确定并建立了网状数据库系统的许多概念、方法和技术,是网状数据库的典型代表。在DBTG思想和方法的指引下数据库系统的实现技术不断成熟,开发了许多商品化的数据库系统,它们都是基于层次模型和网状模型的。 可以说,层次数据库是数据库系统的先驱,而网状数据库则是数据库概念、方法、技术的奠基者。 第二代数据库系统是关系数据库系统。20世纪70年代是关系数据库理论研究和原型开发的时代,其中以IBM公司的San Jose研究试验室开发的System R 和Berkeley大学研制的Ingres为典型代表。大量的理论成果和实践经验终于使关系数据库从实验室走向了社会,因此,人们把20世纪70年代称为数据库时代。20世纪80年代几乎所有新开发的系统均是关系型的,其中涌现出了许多性能优良的商品化关系数据库管理系统,如DB2、Ingres、Oracle、Informix、Sybase 等。这些商用数据库系统的应用使数据库技术日益广泛地应用到企业管理、情报检索、辅助决策等方面,成为实现和优化信息系统的基本技术。 第三代数据库系统从20世纪80年代以来,数据库技术在商业上的巨大成功刺激了其他领域对数据库技术需求的迅速增长。这些新的领域为数据库应用开辟了新的天地,并在应用中提出了一些新的数据管理的需求,推动了数据库技术的研究与发展。 1990年高级DBMS功能委员会发表了《第三代数据库系统宣言》,提出了第三代数据库管理系统应具有的三个基本特征: 应支持数据管理、对象管理和知识管理。必须保持或继承第二代数据库系统的技术。必须对其他系统开放 二、数据库技术发展趋势 针对关系数据库技术现有的局限性,理论界如今主要有三种观点 :

基于arcsde的空间数据库的设计与建立

基于ArcSDE的空间数据库的设计与建立 摘要:随着地理信息系统的发展,传统的以文件形式管理、存储地理空间数据的方式已不能满足现在应用的需求。针对以上问题,本文通过arcsde对空间数据进行管理,使空间数据和属性数据统一存储在面向对象的关系型数据库(sql server)中,实现统一、高效的管理。 关键词:空间数据库;属性数据;arcsde 围绕空间数据的管理,前后出现了几种不同的空间数据管理模式:纯文件模式、文件结合关系型数据库的管理模式、全关系型数据库管理模式和面向对象的数据库管理模式。前两种方式都是将空间数据和属性数据分离存储,这样往往会产生诸多问题:1.空间数据与属性数据的连接太弱,综合查询效率不高,容易造成空间数据与属性数据的脱节;2.空间数据与属性数据不能统一管理,实质上是两套管理系统,造成资源的浪费和管理的混乱,数据一致性较难维护;3.由于空间数据不能统一在标准数据库里存放,造成空间数据不能在网上共享。而面向对象数据库管理系统技术还不够成熟,并且价格昂贵,目前在gis领域还不够通用。所以在较长时间内,还不能完全脱离现有关系型数据库来建设gis空间数据库。arcsde是esri公司提供的一个基于关系型数据库基础上的地理数据库服务器。同一些数据库厂商推出的在原有数据库模型上进行空间数据模型扩展的产品(如oracle spatial)不同,esri的arcsde 的定位则是空间数据的管理及应用,而非简单的数据库空间化。

1.系统目标 建成一个多级比例尺(100万、25万、5万、1万)矢量、栅格以及航空影像、遥感影像(tm,spot)的c/s结构基础地理空间数据库,便于对空间数据有效的管理、分发和应用。 2.总体设计方案 系统总体技术方案设计在充分考虑实际应用环境及应用需求的 基础上,结合考虑国际国内发展的主流趋势和平台产品的功能与性能来完成。 2.1技术路线 空间数据库建设应放弃数据文件式的管理方式,采用大型关系数据库管理系统(sql server)管理空间数据,arcsde作为sql server 2008和arc/info或其他地理信息系统软件的接口, vb/vc/delphi/java/c#为前端应用开发工具。其中,空间数据通过arcsde存储在sql server 2008数据库。arcsde是基于c/s计算模型和关系数据管理模式的一个连续的空间数据模型,借助这一模型,可将空间数据加入到数据库管理系统(rdbms)中去[1]。arcsde 融于rdmbs后,提供了对空间、非空间数据进行高效率操作的数据接口。由于arcsde采用c/s体系结构,大量用户可同时针对同一数据进行操作。arcsde提供了应用程序接口(api),开发人员可将空间数据检索和分析功能集成到应用工程中去,以完成前端的应用开发,最终提供数据的存储、查询和分发服务。如图1所示: 图1结构图

数据库现状发展

计算机信息与技术学院软件工程一班吴迪 数据库技术国内外发展现状 <国外现状> 自从1969年美国的IBM公司开发出第一个DBMS系统IMS以来,数据库的研究和开发已经走过了三十多年的历程,经历了三代的演变(从层次型数据库系统到网络型数据库系统,再到现在成为数据库主流的关系型数据库系统),取得了辉煌的成就,形成了数百亿美元的产业,数据库技术和系统已经成为世界各国信息基础设施的核心技术和重要基础。 据欧共体委员会1991年底调查统计,当时西欧公司提供的联网数据库为1616个,而美国公司提供的联网数据库为3057个,加上其他形式的电子信息服务,欧洲计算机网络服务业的年收入为39亿美元,远远低于美国的97亿美元。在欧洲,该行业业务的96%是金融和商业信息。据估计,欧共体国家在数据库、网络以及其他计算机联网服务方面,比美国落后3至5年。欧共体的联网业务规模大约是美国的一半。 美国是世界上数据库业起步最早的国家。目前,在世界范围内,无论是数据库的数量、质量、品种、类型,还是数据库生产者、数据库提供商的数量,抑或是联机数据库的使用频率和产值方面,别的国家还都无法与之抗衡。据Gale公司统计,至1995年止,全世界拥有数据库8525种,其中美国产品占69%,为世界其它国家数据库拥有总量的将近2倍。 80年代初,英、法、德等国意识到数据库产业的重要性,开始自主建立数据库产业和联机产业,以期打破美国的垄断,到90年代中期,欧洲约有2000个数据库提供利用,占世界全部的27%,其涉及语言丰富,联机服务产值在1991-1996年的年均增长率为15.9%,远高于美国同期的增长率8.5%。体现出强劲的势头。西欧数据库产业后劲十足的原因有:信息自立的战略,主要向内的经营策略,不断完善的经济技术环境,特别是欧洲一体化的进程。 <国内现状> 二十世纪九十年代以来,我国电子信息产业发展迅速,年增长率达到27%左右。 我国的数据库(主要是中文数据库)建设起步于70年代中后期,当时主要引进 学习国外理论和成果。随后,全国许多单位纷纷开始建设数据库。“七五”期间,我国在数据库建设方面的投入达10亿元人民币。截止到1995年10月31日我国自建且有一定规模的数据库已达1038个。这些成就,为经济建设和社会文明进步起到了积极的推动作用。 目前,我国的数据库已由1992年806个增加到1000个以上,数据库的容量有很

(最新整理)分布式数据库研究现状及发展趋势

(完整)分布式数据库研究现状及发展趋势 编辑整理: 尊敬的读者朋友们: 这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((完整)分布式数据库研究现状及发展趋势)的内容能够给您的工作和学习带来便利。同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。 本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(完整)分布式数据库研究现状及发展趋势的全部内容。

山西大学研究生学位课程论文(2014 —--— 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:分布式数据库技术 论文题目:分布式数据库研究现状及发展趋势授课教师(职称): 曹峰() 研究生姓名: 刘杰飞 年级: 2014级 学号: 201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月 17日

分布式数据库研究现状及发展趋势 摘要随着大数据、云时代的到来,数据库应用需求的拓展和计算机硬件环境的变化,特别是计算机网络与数字通信技术的飞速发展,卫星通信、蜂窝通信、计算机局域网、广域网和激增的Intranet及Internet得到了广泛应用,使分布式数据库系统应运而生。为了符合当今信息系统的应用需求和企业组织的管理思想和管理模式。分布式数据库提供了解决整个信息资产被分裂所成的信息孤岛,为孤岛联系在一起提供桥梁.本文主要介绍分布式数据库的研究现状,存在的一些问题以及未来的发展趋势。 关键词分布式数据库;发展趋势;现状及问题 1.引言 随着信息技术的飞速发展,社会经济结构、生产方式和消费结构已经发生了重大变化,这些变化深刻地影响着人民生活的方方面面。尤其是近十年来人们对计算机的依赖性越来越强,同时也对计算机提出了更高的要求。随着数据库在各个行业中的不断发展,各行业也对数据库提出了更高的要求,数据量也急剧增加,同时有关大数据分析的讨论正在愈演愈烈.甚至出现了爆炸性增长的趋势,一方面是由于移动互联网和移动智能终端的普及发展,数据信息正以每年40%的速度增长,造成数据量庞大;同时,数据种类呈多样性,文本、图片、视频等结构化和非结构化数据共存;另一方面也要求实时交互性强;最重要的是大数据蕴含了巨大的商业价值。相应的对于管理这些数据的复杂度也随之增加。同时各行业部门或企业所使用的软硬件之间的差异,这给开发企业管理数据库管理软件带来了巨大的工作量,如果能够有效解决这个问题,即使用同一模块管理操作不同的数据表格,对不同的数据表格进行查询、插入、删除、修改等操作,也即对企业简单的应用实现即插即用的功能,那么就能大大地减少软件开发的维护和更新费用,缩短软件的开发周期。分布式数据库系统的开发,降低了企业开发的成本,提高了软件使用的回报率。当今社会已进入了信息时代,人们将越来越多的信息存储在网络中的计算机上。如何更有

数据库技术的发展现状及趋势

第24卷第1期长春师范学院学报(自然科学版)2005年3月V o l.24 N o.1Journal of Chang Chun T eachers Co llege(N atural Science)M ar 2005 数据库技术的发展现状及趋势 赵玉萍,廖运文 (西华师范大学计算机学院,四川南充 637002) [摘 要]数据库技术已发展成为信息科学里一项十分重要的技术,其应用领域之宽引人瞩目。本文介 绍了数据库技术发展的现状及最新研究动态。 [关键词]数据库技术;数据仓库;实时数据库;W eb数据库 [中图分类号]T P311.13 [文献标识码]A [文章编号]1008-178X(2005)01-0107-03 1.引言 数据库技术从20世纪70年代流行的层次、网状数据库系统到80年代的关系数据库,在很多领域都取得了巨大的成功;随着应用领域的不断扩展,关系数据库的限制和不足日益显现出来,随着面向对象技术的出现,面向对象数据库系统成为数据库系统领域研究和发展的新方向。数据库技术与网络技术、人工智能技术、面向对象技术、并行计算技术、多媒体技术等的相互融合,为数据库技术的应用开拓了更广阔的空间。 2.数据库技术发展现状 数据库技术与多学科技术的有机结合是当前数据库技术发展的重要特征。计算机领域中,其它新兴技术的发展对数据库技术产生了重大的影响。传统的数据库技术和其他计算机技术的相互结合、相互渗透,使数据库中新的技术内容层出不穷。数据库的许多概念、技术内容、应用领域,甚至某些原理都有了重大的发展和变化。建立和实现了一系列新型数据库系统,如分布式数据库系统、面向对象数据库系统、演绎数据库系统、知识库系统、多媒体数据库系统等,它们共同构成了数据库系统的大家族。传统的数据库系统仅是数据库大家族的一员,当然,它也是最成熟的和应用最广泛的一员。它的核心理论、应用经验、设计方法等仍然是整个数据库技术发展和应用开发的先导和基础。 2.1 面向对象方法和技术正逐步融入数据库 传统数据库主要适于商务或事务型这类传统应用,而对于CAD、CAM、C I M S、CA SE、过程控制与实时应用、地理信息管理及各种工程应用等,传统数据库系统已不能适应其要求。在这些领域,不仅数据本身的结构和存储形式各异,而且不同领域对数据的处理技术的要求也比一般事务管理环境复杂得多,而这些并不是传统数据库技术所能解决的,因而人们将面向对象的方法引入数据库领域,形成了面向对象数据库管理系统(OODBM S)。它实际上是数据库技术(DB)和面向对象技术(OO)结合的产物。OODBM S首先是一个数据库系统,即系统具备数据库系统的处理能力,其次又是一个面向对象的系统,即包含对象的概念、方法和技术。与传统的数据库相比,OODBM S在复杂系统的模拟、表达和处理能力等方面具有优势,不足之处是理论技术还相当不成熟、不够完善。但随着数据库技术和面向对象技术的不断发展和完善,OODBM S必将得到广泛应用。 2.2 网络技术与数据库技术的融合 分布式数据库系统是数据库技术与计算机网络技术相结合的产物。传统的集中式数据库将数据存储于单个计算机上,但随着数据库应用的不断发展,规模的不断扩大,逐渐感觉到集中式数据库系统 [收稿日期]2004—10—23 [作者简介]赵玉萍(1975- ),女,湖北荆门人,西华师范大学计算机学院讲师,从事数据库理论与应用的研究。 ? ? 1 7

数据库新技术及其发展趋势

数据库新技术及其发展 趋势 公司内部编号:(GOOD-TMMT-MMUT-UUPTY-UUYY-DTTI-

数据库新技术及其发展趋势 数据库技术是计算机科学的重要分支,主要研究如何安全高效地管理大量、 持久、共享的数据。数据库的研究始于20世纪60年代中期,它的发展有着三大 标志性事件。第一件大事, 1969年IBM公司研制开发了基于层次模型的数据库管理系统的商品化软件InformationManagement System,即IMS系统,是首例成功的数据库管理系统软件。第二件大事,美国数据系统语言协会CODASYL (Conference On DataSystem Language)下属的数据库任务组DBTG(Data Base TaskGroup)对数据库方法进行系统的研究和讨论后,于20世纪60年代末到70年代初提出了若干报告。DBTG报告确定并建立了数据库系统的许多概念、方法和技术。DBTG所提议的方法是基于网状结构的,它是数据库网状模型的基础和典型代表。第三件大事, 1970年IBM公司San Jose研究实验室的研究员E. F. Codd博士发表了题为“大型共享数据库数据的关系模型”的论文,提出数据库的关系模型,从而开创了数据库关系方法和关系数据理论的研究领域,为关系数据库技术奠定了理论基础, E. F. Codd因此在1981年获得ACM图录奖。20世纪80年代几乎所有新开发的 系统都是关系系统。随着计算机系统硬件、Internet和Web技术的发展,数据库系统所管理的数据格式、数据处理方法以及应用环境不断变化,同时人工智能、 多媒体技术和其他学科技术的发展,数据库技术面临着前所未有的挑战。 当前数据库技术发展的现状,关系数据库技术仍然是主流 国内数据库的发展趋势也是飞速的,在数据库技术的当前及未来发展里程中, 数据仓库以及基于此技术的商业智能无疑将是大势所趋。IBM的实验室在这方面进行了10 多年的研究, 并将研究成果发展成为商用产品。除了用于

文档:数据库的发展现状与前景

数据库的现状及发展趋势 数据库是数据管理的最新技术,是计算机科学的重要分支。今天信息资源已成为各个部门的重要财富建立一个满足各级部门信息处理要求的行之有效的信息系统也成为一个企业或组织生存和发展的重要条件。因此作为信息系统核心和基础的数据库技术得到越来越广泛的应用,从小型单项事务处理系统到大型信息系统,从联机事务处理到联机分析处理,从一般企业管理到计算机辅助设计与制造,计算机集成制造系统,电子政务,电子商务地理信息系统等,越来越新的应用领域采用数据库技术来存储和处理信息资源。对于一个国家来说,数据库的建设规模,数据库信息量的大小和使用频度已成为衡量这个国家信息化程度的重要标志。数据库是长期存储在计算机内有组织的大量的共享的数据的集合。数据库系统的出现使信息系统从加工数据的程序为中心转向围绕共享的数据库为中心的新阶段。这样既便于数据的集中管理,又有利于应用程序的研制和维护,提高了数据的利用率和相容性,提高了决策的可靠性。数据库已成为现代信息系统的重要组成成分。具有数百G,数百T,甚至数百P字节的数据库已普遍存在于科学技术,工业,农业,商业,服务业和政府部门的信息系统中。数据库技术是计算机领域中发展最快的技术之一。 数据库系统一般由数据库,数据库管理系统,应用系统和数据库管理员构成。数据库系统有以下的特点:数据结构化;数据的共享性高,冗余度低,易于扩充;数据独立性高;数据由DBMS统一管理和控制。数据库系统数据量都很大,加之DBMS丰富的功能使得自身的规模也很大,因此整个数据库系统对硬件资源提出了较高的要求:(1)要有足够大的内存,存放操作系统,DBMS的模块,数据缓冲区和应用程序;(2)有足够大的磁盘或磁盘阵列等设备存储数据库,有足够大的磁带或光盘作数据备份;(3)要求系统有较高的通道能力,以提高数据传送率。数据库系统的软件主要包括:(1)DBMS。DBMS为数据库的建立,使用和配置的系统软件。(2)支持DBMS运行的操作系统。(3)具有与数据库接口的高级语言及其编译系统,便于开发应用程序。(4)以DBMS为核心的应用开发工具。(5)为特定应用环境开发的数据库应用系统。数据库的人员包括:(1)数据库管理人员。具体职责是决定数据库中的信息内容和结构;决定数据库的存储结构和存取策

分布式数据库管理系统简介

分布式数据库管理系统简介 一、什么是分布式数据库: 分布式数据库系统是在集中式数据库系统的基础上发展来的。是数据库技术与网络技术结合的产物。 分布式数据库系统有两种:一种是物理上分布的,但逻辑上却是集中的。这种分布式数据库只适宜用途比较单一的、不大的单位或部门。另一种分布式数据库系统在物理上和逻辑上都是分布的,也就是所谓联邦式分布数据库系统。由于组成联邦的各个子数据库系统是相对“自治”的,这种系统可以容纳多种不同用途的、差异较大的数据库,比较适宜于大范围内数据库的集成。 分布式数据库系统(DDBS)包含分布式数据库管理系统(DDBMS)和分布式数据库(DDB)。 在分布式数据库系统中,一个应用程序可以对数据库进行透明操作,数据库中的数据分别在不同的局部数据库中存储、由不同的DBMS进行管理、在不同的机器上运行、由不同的操作系统支持、被不同的通信网络连接在一起。 一个分布式数据库在逻辑上是一个统一的整体:即在用户面前为单个逻辑数据库,在物理上则是分别存储在不同的物理节点上。一个应用程序通过网络的连接可以访问分布在不同地理位置的数据库。它的分布性表现在数据库中的数据不是存储在同一场地。更确切地讲,不存储在同一计算机的存储设备上。这就是与集中式数据库的区别。从用户的角度看,一个分布式数据库系统在逻辑上和集中式数据库系统一样,用户可以在任何一个场地执行全局应用。就好那些数据是存储在同一台计算机上,有单个数据库管理系统(DBMS)管理一样,用户并没有什么感觉不一样。 分布式数据库中每一个数据库服务器合作地维护全局数据库的一致性。 分布式数据库系统是一个客户/服务器体系结构。 在系统中的每一台计算机称为结点。如果一结点具有管理数据库软件,该结点称为数据库服务器。如果一个结点为请求服务器的信息的一应用,该结点称为客户。在ORACLE客户,执行数据库应用,可存取数据信息和与用户交互。在服务器,执行ORACLE软件,处理对ORACLE 数据库并发、共享数据存取。ORACLE允许上述两部分在同一台计算机上,但当客户部分和服务器部分是由网连接的不同计算机上时,更有效。 分布处理是由多台处理机分担单个任务的处理。在ORACLE数据库系统中分布处理的例子如: 客户和服务器是位于网络连接的不同计算机上。 单台计算机上有多个处理器,不同处理器分别执行客户应用。

数据库未来发展趋势(更新版)

东华大学 报告名称: 数据库技术最新发展 学院: 专业: 姓名: 学号: 指导老师: 2015-12-10

1.引言 自从计算机问世以后,就有了处理数据、管理数据的需求,由此,计算机技术新的研究分支数据库技术应运而生。数据库(Databases,简称DB)是指长期保存在计算机的存储设备上、并按照某种模型组织起来的、可以被各种用户或应用共享的数据的集合。数据库管理系统(Database Management Systems,简称DBMS)是指提供各种数据管理服务的计算机软件系统,这种服务包括数据对象定义、数据存储与备份、数据访问与更新、数据统计与分析、数据安全保护、数据库运行管理以及数据库建立和维护等。 随着计算机应用领域的不断拓展和多媒体技术的发展,数据库已 是计算机科学技术中发展最快、应用最广泛的重要分支之一。从20世纪60年代末开始,数据库系统已从第一代层次数据库、网状数据库,第二代的关系数据库系统,发展到第三代以面向对象模型为主要特征的数据库系统。关系数据库理论和技术在70~80年代得到长足的发展和广泛而有效地应用,80年代,关系数据库成为应用的主流,几乎所有 新推出的数据库管理系统(DataBaseManagementSystem,DBMS)产品都是关系型的,他在计算机数据管理的发展史上是一个重要的里程碑,这种数据库具有数据结构化、最低冗余度、较高的程序与数据独立性、易于扩充、易于编制应用程序等优点,目前较大的信息系统都是建立在关系数据库系统理论设计之上的。但是,这些数据库系统包括层次

数据库、网状数据库和关系数据库,不论其模型和技术上有何差别,却主要是面向和支持商业和事务处理应用领域的数据管理。然而,随着用户应用需求的提高、硬件技术的发展和InternetIntranet提供的丰富多彩的多媒体交流方式,促进了数据库技术与网络通信技术、人工智能技术、面向对象程序设计技术、并行计算技术等相互渗透,互相结合,成为当前数据库技术发展的主要特征,形成了数据库新技术。目前,数据库技术已相当成熟,被广泛应用于各行各业中,成为现代信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。 2.数据库技术的发展历程 在数据库系统出现以前,各个应用拥有自己的专用数据,通常存放在专用文件中,这些数据与其他文件中数据有大量的重复,造成了资源与人力的浪费。随着机器存储数据的日益增多,数据重复的问题越来越突出。于是人们就想到将数据集中存储、统一管理,这样就演变成数据库管理系统而形成数据库技术。 数据库的诞生以20世纪60年代IBM 推出的数据库管理产品IMS 为标志。1969年IBM 公司研制了基于层次模型数据库管理系统IMS (Information Management System),并作为商品化软件投入市场。数据库的出现,实现了数据资源的整体管理。IMS系统的推出,使得数据库概念得到了普及,也使得人们认识到数据的价值和统一管理的

大数据时代的数据库的创新与发展

大数据时代的数据库的创新与发展

大数据时代的数据库的创新与发展 摘要:大数据时代的到来,使得传统数据库在处理百TB以上、特别是PB级数据的查询、 统计、分析等应用时,遇到性能上的瓶颈。面对电信、金融、安全、政企等大数据量应用,包括电信话单、金融细帐、智能电网、经营分析、公安网监、舆情监控、审计稽查、应急指挥等,用户体验往往不可接受。海量数据的3V(数量Volume、速度Velocity、多样Variety)挑战着传统数据库曾经非常成功的“一种架构支持多类应用”的模式。互联网和大数据应用的冲击下,世界数据库格局在发生革命性的变化,通用数据库(OldSQL)一统天下变成了OldSQL、NewSQL、NoSQL共同支撑多类应用的局面。 大数据是信息化的一个崭新发展阶段,通过分析各种大数据,人类对知识的认知可以见微知著、集腋成裘、由此及彼,对世界的认知也将更全面、更深入、和更具前瞻性。自2011年5月,EMC和IDC在合作研究“数字宇宙”五年之后提出“大数据”概念以来,“大数据经济”的影响力愈发显著,谷歌、Facebook竞相超过微软,曾经的“软件为王”让位于“数据为王”。 可以预见,大数据时代将引发大量应用创新,比如,城市大数据应用将支撑智慧城市建设,还有智慧教育、智慧医疗、智慧交通、智慧金融等; 关键词:大数据时代,数据库;系统;创新; 引言:“大数据”( big data)或者称为“海量数据”,这个直白的名词,已经在全球 引起了广泛关注,已经引领了又一轮数据技术的革命。 美国EMC 公司于2011 年5 月在美国拉斯维加斯举办第11 届 EMC World 大会,大会的核心是帮助企业利用IT变革的重要趋势。此次大会以“云计算相遇大数据( Cloud Meets Big Data)”为主题,着重展现当今两个最重要的技术趋势,正式抛出了“大数据”概念。 根据IDC《数字世界》研究项目在2012年的统计,2010年全球数字资源的规模首次突破了ZB(1ZB=1万亿GB)级别,达到了1.227ZB;而2005年只有130Eb,五年增长了10倍。如果保持这种爆炸式的增长速度,到了2020年,我们的数字资源规模将超过40ZB,相当于世界上每个人拥有超过5200GB的数据。无疑,我们已进入了大数据时代。 在 2011 年 12 月,我国工信部发布了物联网“十二五”规划,提出了4项关键技术创新工程。信息处理技术的内容包括海量数据存储、数据挖掘、图像视频智能分析等,都是大数据技术的重要组成部分;另外 3 项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,这些也都与“大数据”密切相关。我国也对大数据技术给与了足够的重视。基于以上概述,大数据时代已经到来,已经对我们的社会产生了重大影响,本文将尝试对大数据时代我国的索引和数据库事业的发展与创新进行研究和展望。 大数据时代: 多权威机构和企业对大数据给予了不同的定义。麦肯锡认为,“大数据所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。”IBM公司认为,可以用3个特征相结合来定义大数据:数量(V olume)、种类(Variety)和速度(Velocity),即庞大容量、极快速度和种类丰富的数据。IDC认为,“大数据不是一个事物,而是一个跨多个信息技术领域的活动。大数据技术描述了新一代的技术和架构,其被设计用于通过使用高速(V elocity)的采集、发现或分析,从超大容量(V olume)的多样(Variety)数据中经济地提取价值(Value)。” 综合对种不同的见解,本文认为,具备以下特征的就是大数据。

空间数据库复习资料整理v3

一、名词解释 1空间数据库 是地理信息系统在计算机物理存储介质上存储和应用的相关的地理空间数据的总合。 2空间数据库管理系统: 能进行语义和逻辑定义存储在空间数据库上的空间数据,提供必需的空间数据查询、检索和存取功能,以及能够对空间数据进行有效的维护和更新的一套软件系统。 3空间数据库应用系统 提供给用户访问和操作空间数据库的用户界面,是应用户数据处理需求而建立的具有数据库访问功能的应用软件。一般需要进行二次开发,包括空间分析模型和应用模型。 4什么是arcSDE 空间数据库引擎(SDE: Spatial Database Engine) ArcSDE是一个用于访问存储于关系数据库管理系统(RDBMS)中的海量多用户地理数据库的服务器软件产品。 5什么是空间数据 地理信息系统的数据库(简称空间数据库或地理数据库)是某一区域内关于一定地理要素特征的数据集合。 6空间数据模型 空间数据(库)模型:就是对空间实体及其联系进行描述和表达的数学手段,使之能反映实体的某些结构特性和行为功能。 空间数据模型是衡量GIS功能强弱与优劣的主要因素之一。 7空间数据结构 不同空间数据模型在计算机内的存储和表达方式。 8场模型 在空间信息系统中,场模型一般指的是栅格模型,其主要特点就是用二维划分覆盖整个连续空间 9对象模型 面向对象数据模型(Object―Oriented Data Model,简称O―O Data Model)是一种可扩充的数据模型,在该数据模型中,数据模型是可扩充的,即用户可根据需要,自己定义新的数据类型及相应的约束和操作。 10概念数据模型 按用户的观点来对数据和信息建模。用于组织信息世界的概念,表现从现实世界中抽象出来的事物以及它们之间的联系。如E-R模型。

相关主题
文本预览
相关文档 最新文档