当前位置:文档之家› 基于XML Web技术及其在电子出版之应用

基于XML Web技术及其在电子出版之应用

基于XML Web技术及其在电子出版之应用
基于XML Web技术及其在电子出版之应用

基于XML Web技术及其在电子出版之应用

(计算机08-2 08032232 张雪)

【摘要】:一般预料,XML将继HTML之后,成为新一代Web的整合

技术,为网路带来第二波革命性的改变,促使网路从资讯处理阶段跨越到知识管理阶段,并将在电子出版、电子商务、电子图书馆、电子资料交换、远距教学等领域展现其强大的应用潜能。本文旨在探讨XML 如何有效的表达网路上各种知识,为资料的交换和处理提供新的机制;并试图从电子出版的角度着眼,说明电子文件组成要素,分析目前Web 出版的现况,从而深入了解现今Web所遭遇的困境与瓶颈;接着基于文件存取、整合、传递、操纵、显示等议题,提出一个整合式XML文件管理系统架构,并探讨XML相关技术,诸如DTD、XML Schema、XML Namespaces、RDF、XLink、DOM、CCS、XSL等,在此一架构中所扮演的角色及功能,进而描绘出Web未来发展之趋势与轮廓。

关键词:XML;HTML;XHTML;Web出版;电子文件;电子出版

绪论

随着网路的发展,图书与出版技术逐渐由传统印刷形式,朝向全面电子化的方向迈进,藉由网路,人类的文化得以采用数位化型态即时传播;透过网路,全球的使用者皆可共享资讯、共用资源。如今,经由Web产生的电子文件,已经如同蜘蛛网一样,密密麻麻的组成了一个全球性的系统(Distributed Hypertext System)。在此一系统中,HTML(HyperText Markup Language,超文件标示语言)

无疑是扮演了一个关键性的角色。但是随着资讯科技的发展,Web应用愈来愈广泛,HTML的弱点也愈来愈明显。其中最严重的,便是HTML 擅长版面编排而欠缺内容语意,所以虽然适合人类阅览但却不利于电脑理解;其次,HTML的标签集是固定的、不可扩展的,无法应付多样化的应用。这些缺点在电子出版、电子商务、远距教学、电子图书馆等全新领域急速发展,并期望Web朝向自动化、智慧化目标迈进的同时,遂成了Web发展的一大隐忧。

有鉴于此,人们开始着手研究改进HTML的方法,XML (eXtensible Markup Language,可扩展标注语言)便是在这样的背景下产生的。XML具有可扩展性、高度结构化和良好的资料组织能力,能够有效的表达网路上各种知识,为资料的交换和处理提供新的机制,一般预料,XML将成为新一代Web的整合技术。若将HTML比拟为网路的第一波革命,则XML极可能继HTML之后为网路带来第二波革命性的改变,促使网路从资讯处理阶段跨越到知识管理阶段,并将在电子出版、电子商务、电子图书馆、电子资料交换、远距教学等领域展现其强大的应用潜能。众多的特点使得XML成为一个强势语言,并迅速获得各界的支持及响应。

本文从电子出版的角度着眼,说明电子文件组成要素,分析目前Web出版的现况,从而深入了解HTML所遭遇的困境与瓶颈,接着基于文件存取、整合、传递、操纵、显示等议题,规画一个整合式XML文件管理系统架构,并探讨XML相关技术在此一架构中所扮演的角色及功能,进而描绘出Web未来发展之趋势与轮廓。

一、电子文件与Web出版

电子文件所必备的要素众多,其中最重要的当属‘资料’(Data)、‘结构’(Structure)和‘表现’(Presentation)三者:1.资料:指文件的内

容(Content),也就是文字、图表等内涵部分。

2.结构:指文件中有关资料的描述部分,如题名、作者、章节、段落等。

3.表现:指文件所呈现出来的外观、样式、版面编排等。

若将文件与人体作一类比,则结构就如同人的骨架,资料则相当于肉

体,而表现就形同外貌,三者相辅相成,形成一个完整的资讯描述体系,因此在本文中特将此三者合称为‘电子文件三要素’。一般而言,如果电子出版的目的仅在于如何将电子文件顺利呈现在读者面前供其阅览,则只要使用适当的‘表现’方式来展现出文件的‘资料’即可,不太需要考虑到文件的‘结构’问题,就此一层次而言,HTML已经相当足够。但是,如果要更有效的管理、检索、交换Web 上呈现指数成长的电子文件,则非得加强其结构性不可。

二、XML与新一代Web

(一)XML缘起与目标

1996年7月‘XML工作小组’(XML Working Group)在W3C(World Wide Web Consortium,全球资讯网协会)的赞助下成立),当年11月提交XML初稿,并于1998年1月10日正式通过XML1.0规范,成为W3C的一个建议标准(Recommendation)。由于XML具有可扩展性、结构性、自我描述性,并采用资料和样式分离原则,使其在资料的管理、交换上拥有极为卓越之性能。XML和HTML一样都是从SGML演变而来的,只不过HTML是SGML的一个应用语言(Application),而XML却是SGML的一个精简子集(Subset)。XML将SGML去芜存菁,舍弃约百分之二十复杂罕用的部分,承袭了其他百分之八十的特点,

是以具备了SGML所没有的简易性与灵活性,又有着HTML所欠缺的扩展性与结构性。因此,称XML为主导‘第二代Web’(Second-Generation Web)的重要技术实不为过。

XML的发展将使得许多理想得以实现:

1.促进国际化媒体独立(Media-Independent)的电子出版。

2.允许产业间定义平台独立(Platform-Independent)的协定来进行资料交换,尤其是在电子商务方面。

3.以某种形式传送资讯给使用者代理程式(User Agents),使其能在接收之后自动处理。

4.让人们很容易的便能使用平价软体来处理资料。

5.允许人们以自己想要的方式显示资讯。

6.提供Metadata,不但能帮助人们找到所需的资讯,更能帮助资讯生产

者与消费者找到对方。

不过,XML并不是被发展出来取代HTML的,而是用以弥补其不足之处。XML 相较于HTML至少有以下几个重要的差异:1.XML文件的作者可以自订标签(Tags)

1.完构的(Well-Formed)XML文件。

2.有效的(Valid)XML文件。一个XML文件只要合于XML规范中所制订的语法规则,便可以很容易的具备‘完构性’(Well-Formedness);不过,要达到‘有效性’(Validity),则除了满足语法规则外,尚必须遵循某些额外定义的语意才行。XML处理器会根据XML规范中所定义的完构性和有效性来查核文件内容,一旦发现不合规定的文件便会拒绝处理并告知使用者,这对于在网路上进行资料交换与资讯共享是非常必要的--不符合公认标准的资料可以不被接受。

三、XML在电子出版之应用

(一)电子文件与Metadata:RDF资源描述架构

文件整合为资源整合的一环,而资源整合的重大议题之一是:如何使得所有被整合的事物不但是‘机器可读的’(Machine-readable),而且更进一步是‘机器可理解的’(Machine-understandable),这和人工智慧(Artificial Intelligent)领域长久以来致力于提升机器智能的宗旨不谋而合。人类的思维过程不外乎藉由各种管道获取知识(Knowledge),然后进行推理(Reasoning),最后做出决策(Decision),由此可见,知识乃是人类智慧中极重要的一环。然而,知识的获得则需要经过资料处理及资讯管理的过程才能萃取出来,大量的资料经过组织、整理后成为有用的资讯;而众多的资讯经过归纳、演绎之后,才能构成知识;有了足够的知识,才能做出正确的推理与决策,此乃人类思维的基本体系。因此,要让机器如同人类一样能‘理解’事物,就必须发展能够具体表达知识的方式。于是,知识表达(Knowledge Representation)这一门探讨如何利用不同模式有效描述人类知识的学问,遂逐渐成为人工智慧一个极重要的研究领域。

(二)同步多媒体整合语言SMIL

虽然Web已经成为多媒体文件的重要发行管道之一,但由于先天的

限制,HTML在同步性、互动性和即时性方面一直存在着若干限制。为了提升Web 处理多媒体文件的能力,使独立的多媒体文件能被整合成为媲美电视的同步多媒体节目,W3C遂于1997年3月成立了同步多媒体工作小组,基于XML规范制订了适合Web展示的同步多媒体整合语言SMIL (Synchronized Multimedia Integration Language),并于1998年6月正式成为W3C的建议标准。SMIL(念作smile)语言是一个非常容易学习的语言,它也是XML的一个应用,如同HTML 文件一样,SMIL文件同样可以利用一般简易文书编辑器来制作。SMIL文件可内含串流语音(streaming audio)、串流视讯(streaming video)、影像(images)、文字(text)或任何其他的媒体类型。SMIL最重要的特性在于作者不但可以描述多媒体文件的时序行为,精确规划萤幕上的布局,将多媒体物件与超连结相关连,更能设定各种多媒体互动情境,适合在网路上进行即时互动的出版、广播、

教学、娱乐等。

(三)数学标注语言MathML

在科技文献中,数学公式是非常重要的表现元素,非常可惜的是HTML虽然拥有无数好用的标签群,然而对于数学公式的支援却明显不足,以致于科技文献的作者只好另谋他法来呈现数学公式,例如利用图形方式来展现。这造成了三个主要问题:其一,图形资料量庞大,占用网路频宽,影响传输效率;其二,图形化的公式无法重复利用,例如无法编辑或修改公式内容;其三,图形化公式只适合人类阅读,机器无法理解公式内涵。这些都使得目前要在Web上传递公式内涵或显示公式画面都极其麻烦,以致于在Web上进行科技文献的线上出版困难度增加。有鉴于此,W3C遂于1998年4月提出专为出版数学公式的标注语言

MathML(Mathematical Markup Language),并于1999年7月修订。MathML 的标签群可概分为展示标签(Presentation Tags)和内容标签(Content Tags)两大类:展示标签主要用途在将数学公式外观以高解析度的方式呈现出来供人类阅读;而内容标签则用来将公式内涵以语意化的方式标注,作为不同应用程式之间的传输介面,进行分散式科学运算及处理。

(四)Web子系统(Web Subsystem)

Web子系统严格说起来,应可独立于‘整合性XML文件管理系统’

之外,因为它是针对读者设计的,而不是给文件作者、管理者或出版者

使用的。它的主要任务是提供Web式的使用者介面,让读者可以透过‘检

视介面’来阅读文章;透过‘查询介面’来检索文件内容。综上所述,本系统充分运用XML的特性,将文件的结构、内容、表现三要素分开处理,除了可以让终端使用者顺利地浏览到文件资料,也可以方便电脑对文件进行查询比对,更重要的是它可以提供描述文件的metadata,例如:文件分类、作者姓名、文件标题、摘要、关键字、编制日期......等项目,这些讯息或许并不是读者阅读时的重点,但对于机器在进行资讯检索的过程,却具有重大的意义,在工程效率上以及精确率上都将远高于对全文进行检索。此外,同一份文件资料更可以随意加工处理,以各种不同型式呈现出来,创造各种不同的附加价值。

(四)结论与建议

XML能够有效的表达网路上各种知识,为资料的交换和处理提供新的机制,因此XML将促使网路从资讯处理阶段跨越到知识管理阶段。从电子出版的角度来看,目前Web上为数众多的网站及互相纠结的HTML文件,在写作之初由于缺乏有效的资料著录,造成资料杂乱、不易检索的问题,因此亟需资讯检索技术与方法来解决;此外,除了致力于技术的发展,在写作及出版的过程中加强Metadata的著录,亦不失为另一个解决网路上电子文件乱象并提升检索精确率的有效方案。XML与生俱来的结构化及自我描述特性,能有效的组织资料、描述资料,以进行语意层次的有意义检索;而其无限扩展的能力,更使其跳脱既定的框架,而在版面编排、

多媒体出版、文件共享......等方面发展出独特的应用,在在使XML成为网路出版内、外兼顾的有效方案。

从资讯传播的角度而言,传播的目的在于建立收送彼此双方的共同性Commonness),亦即设法共享资讯(Information)、观念(Idea)、态度(Attitude)或知识(Knowledge)。传播的双方可能是人对人,也可能是人对电脑或甚至是电脑对电脑。当网路上两部电脑透过通讯协定(Protocol)进行通讯时,只不过具备讯息传递能力。至于讯息的涵义以及如何把这些讯息转换成另一种形式呈现给人们,则正是XML的专长。在未来几年,为因应资讯需求从大众化到个人化的趋势,网路上预料将出现更智慧型的搜索引擎,能根据讯息意涵和使用者需求,提供资讯过滤、资讯撷取、智慧型代理等功能,XML技术能够使这样的目标早日实现。从电子商务的角度观之,不同商业系统采用相同的XML词汇集,便能随时自动更新来自各供应商的商品目录和价格资讯,并根据商品类别为客户提供最直观的购物环境。商家之间更可透过金融机构共通的资料交换格式(如以XML制订的OFX)来交换金融资讯,如电子支付、财务分析、咨询文件等;图书馆更可利用XML达到自动化的馆际合作、馆际互借、线上采购等工作。有鉴于XML将为Web带来第二波革命(第一波为HTML),目前,产、官、学界无不积极合作,致力于XML相关技术之研究及工具软体、应用程式之开发。我们何其有幸生活在这个科技发达的时代,得以享受新科技所带来的新产品及新服务,大大提升我们的生活品质。当然,科技是多变的,未来更是难以准确预测的,我们也可能成为新科技潮流中被实验的白老鼠。不过,从XML受产、官、学各界关注的程度而言,XML成为下一代Web的整合技术殆无疑义,并将在电子出版、电子商务、电子图书馆、电子资料交换等领域展现其强大的应用潜能,究竟能发挥多少效能,只局限于人们的想像力及创造力。相较于国外XML技术正如火如荼的发展,国内的研究仍处于萌芽阶段,不但中文化的开发工具和应用程式严重不足,连参考文献、研究报告也都寥寥可数,这对提升国家竞争力无疑是一大阻碍。因此,国内亦应尽速结合各界力量,投入XML相关技术之研发,积极从事推动学术、教育、企业各领域早日采用XML标准,以因应未来多变的网路应用环境。

参考文献:

【1】:林盈达,《多媒体网路:趋势、技术、应用》,(台北:松岗,民86),页1-1。

【2】:陈光华,<超越资讯检索的语言藩篱>,《大学图书馆》,2卷1期(民87年1月)。

【3】:曾元显,<多媒体资讯检索技术之探讨>,《21世纪资讯科学与技术的展望国际学术研会》:

【4】:邱炯友、林信成,《各国政府出版品电子化策略及措施之研究》: 【5】:陈雪华,<网路资源与Metadata之发展>,《图书馆学刊》,12:期(民86年),页23-28。

【6】:吴乐南,《多媒体系统:软硬体、原理及应用》,(台北:儒林,民85),页11-16~11-20。

相关主题
文本预览
相关文档 最新文档