当前位置:文档之家› 企业内容管理软件的核心技术及应用方向

企业内容管理软件的核心技术及应用方向

企业内容管理软件的核心技术及应用方向
企业内容管理软件的核心技术及应用方向

企业内容管理软件的核心技术及应用方向

2004-12-3 18:20:23 秦磊赵亮/KMCenter

虽然一提到数据管理,大家首先想到的是数据库技术,但实际上这只为企业解决了15%的结构化数据管理问题,85%的非结构化数据怎么来管呢?这也就是企业内容管理软件的

职能所在。

需求篇

信息激增催生内容管理

在当今信息爆炸的时代,信息每天都在以惊人的速度增长。有统计表明,来自交易中的数据每年增长的速度达到61%,而其他各种相关信息的每年增长率甚至超过92%。同时,信息的种类也在不断地扩展,越来越多的非结构化信息不断出现,包括企业的各种报表、账单、电子文档、网站的各种元素、图片、传真、扫描影像,以及大量的多媒体的音频、视频信息等等。而信息爆炸的背后,我们面临的巨大挑战是如何有序地存储、管理并利用这些信息,尤其是对于那些大量的、非结构化的信息。如果一个企业无法将这些信息进行有系统地编目和管理,则随之面临的危机是不断流失的生产力。另一个统计数字值得我们深思,企业员工为了完成自己的工作而用于寻找信息的时间平均占整个工作时间的30%,这等于将员工每周40个小时的工作时间缩减为28个小时。没有

一个公司允许员工每年用30%的时间去休假,然而现在,这是一个很多企业和组织不得不面对的现实。从另一方面,企业和组织也希望对这些信息有更多的控制,保障信息的安全,挖掘信息的价值。

在过去几年中, 我们接触过许多不同行业的客户对于内容管理方面的各种需求, 并成功与客户一起实施了许多企业内容管理应用。在我们试图为企业内容管理明确一个定义之前,不妨让我们从几个实际的案例来分析客户对于企业内容管

理的需求。

用户1:中国银行广州分行

中国银行广州分行,从1998年开始实施电子报表管理应用。而在此之前,所有的报表都是打印到纸张上,每年用于打印的开销超过600万人民币。广州中行在进行系统选型时要求,应用的平台必须基于成熟的技术,支持开放的标准,可以支持从PC到Unix系统到AS/400到ES/9000等各种硬件平台,支持存储管理各个业务系统各种报表。系统要求具有工业化强度、可扩展性,适应中行的大集中模式。今天,基于内容管理平台,中国银行广州分行的电子报表管理系统已经成功实施并经历了三个发展阶段,即从广州市行扩展到广东省行再扩展到华南区域中心。目前,该系统支持存储管理华南中心下辖五省一市的来自各个业务系统(包括会计、零售、信用卡、信贷、消费信贷、国际结算、收付清算、电话银

行、基金、中间业务、NETS、SCAN、EFT、BEPS、ATM、POS等)的394种报表,支持超过1000个用户的并发访问。通过多层级存储管理,报表可以被自动迁移到光盘库中保存15年或者永久保存。目前,中国银行还希望基于该系统管理更多类型的内容,包括各种影像单证、OA系统的公文和电子文档等。

用户2:北京移动通信公司

北京移动通信公司需要提供话费详单的多种服务渠道,包括邮寄、营业厅、1860、Internet等等,而原来每个服务渠道都有各自处理详单的方式,造成系统压力、响应时间、运营成本、客户服务等多方面的问题。今天,基于IBM的内容管理软件,北京移动成功实施了统一的详单管理平台,实现了详单的海量存储。通过高效压缩,系统可以节省超过90%的存储成本,而详单的保存时间可以支持2年甚至更长的时间。即便在峰值时,查询的时间也仅在1到2秒钟。这样一个统一的平台目前可以支持营业厅、1860、Internet以及安全保卫部门等多渠道的详单服务,在实现系统响应时间缩短、客户服务质量提升的同时,还大大节省了运营的成本。在扩展性上,该系统可以很好地支持北京移动未来的个性化详单服务要求。

用户3:某图书馆

某图书馆的实验型数字图书馆系统,需要发布6000张拓片,

最初采用的方式是基于数据库加上Web服务器进行自主开发。数据库采用12个字段描述关于拓片的索引信息,而最后一个字段是URL地址,对应Web服务器的文件目录、子目录、文件名,每条记录对应三个图片,分别为150DPI的高分辨率JPEG图、75DPI的中分辨率JPEG图以及拇指图,这三张图片都是从平均大小为7M左右的TIFF转换得到的。该系统上线后,业务部门提出了很多新的需求,他们希望能够通过层次存储管理原始的TIFF图片,能够支持更复杂的层次型元数据描述,以提升拓片的价值;他们希望将系统从单纯的图片发布平台扩展为拓片的专业研究平台,可以增加关于拓片各种背景资料、专家研究文档;希望支持工作流,以实现对拓片的专业化标引流程;通过水印等技术实现拓片信息的版权保护。系统本身也需要从底层解决元数据和拓片影像之间的一致性、完整性保障,保证系统的安全性;支持参量检索、全文检索等多渠道复合检索方式。现在,该图书馆已经开始通过内容管理软件管理拓片、电子图书、博士论文、音频、视频等各种多媒体数字资源,实施了八个数字资源子系统。

在上面的几个案例中,我们谈到了报表、账单、影像、电子文档、图片、音频、视频等各种信息,这些信息都是非结构化的大对象,难以用传统的关系型数据库管理,我们将这些非结构化的信息称为内容(Content)。而上述的各种客户需

求也反映了客户对于内容管理系统的基本需求,包括基于成熟开放的技术、标准;支持各种硬件环境、提供从部门级应用到企业级应用的扩展;具有高可用性、安全性、工业化强度;支持多层级海量存储管理、强大的开发能力;保证信息的一致性、完整性、灵活的数据模型、工作流、数字版权保护等等。

平台是主流

明确了企业内容管理,认识到平台的重要性,那么到底何处入手了解、掌握并开发出适合您的企业内容管理应用呢?最好的方式是从成熟商业软件入手。

一个统一、完整、集成、开放、可扩展的内容管理架构应

该包含以下内容:

我们就其中的一些重点技术做详细的探讨。

1、系统架构

对于任何平台来说,良好的架构对于系统的重要性是不言而喻的,尤其是企业内容管理系统。内容管理平台软件需要考虑如何实现灵活高效的数据模型,如何设计各种语言的API 接口,如何实现完善的访问控制管理,以及如何架构系统的拓扑以完成数据迁移、缓存,如何支持PB级的存储和上千的并发用户。企业内容管理尤其需要考虑到未来的扩展能力,如何在最大化保护用户现有投资的情况下,提供无限的可扩

展空间。由于企业内容管理牵涉的范围太广,使得平台在选择技术时,必须使用大量的成熟稳定的技术,而且必须符合业界标准。此外,当这些技术发展时,企业内容管理平台必须能够支持这些新的技术以及新的标准。同时还要在技术、软件、平台本身升级时保护用户先有的数据。

作为企业内容管理的厂商通常需要掌握数据库、应用服务器、存储等必需的核心技术。然后将这些技术整合在一起,以满足用户的需求。比如,下图中的三角形架构是一种代表性架构,充分利用了各种软件技术的优势,设计出了高效、灵活、高扩展的企业内容管理平台。该体系结构是由一个索引服务器、一个或多个资源管理器和一个或多个客户程序构成的三角形客户/服务器模型。

索引服务器(又称图书馆服务器)负责存储管理用户安全控制信息和关于数字对象的元数据信息等。底层基于关系数据库管理存储所有的元数据信息、安全权限控制信息、用户信息,并支持参量检索、文本检索、参量/文本混合检索等多渠道检索方式。

资源管理器负责存储管理数字对象,支持从硬盘到磁带库、光盘库的多层级存储管理,支持从一个资源管理器到多个资源管理器的扩展。通过基于流媒体的媒体资源管理器支持对音频、视频信息的流媒体服务。

当用户想获取某内容对象时,客户程序发送查询请求至索引服务器,然后索引服务器返回搜索结果并将内容对象存储的具体存储位置加密形成安全对象令牌。客户端根据索引服务器发来的安全令牌发出获取内容对象的请求至资源管理器,最后资源管理器响应并解析请求,并将内容对象直接返回至客户端。这种方式可以保证“安全尽在控制,信息一站必达”。

在这个三角形架构下,可以支持多个分布式资源管理器,具有很好的扩展性。而客户对系统的所有操作,包括增加、更新、删除、提取等等,都通过统一的库访问协议完成,从而保证信息的一致性、完整性和安全性。

2、数据模型

数据模型的设计应该是企业内容管理中最有挑战性的技术

实现之一。数据模型的能力直接表现出一个企业内容管理平台适应用户需求的能力。在实施企业内容管理的初始阶段,我们只能了解很少的一部分需求,如果我们设计数据模型时仅基于这些特定的需求,那么这个应用可能只能适应客户当时的需求,而无法适应客户的需求变化。在内容管理中,通常元数据越复杂,内容提升价值的潜力就越大。而丰富元数据的模型不是一蹴而就的,这就要求一个面向客户内容管理的通用数据模型,以适应客户不断变化的需求,提升信息的价值。如下图这个抽象的内容管理数据模型非常值得借鉴。

在这个模型中,在对一个内容进行描述时,支持多层级的元数据模型,支持对各种复合文档的精确描述,可以对同一文档中不同的资源对象实施不同的处理和控制;该模型也可以灵活地描述内容和内容之间的关系以及内容在使用中的工

作状态。而图形化的建模工具以及支持建模的API可以帮助方便客户和应用开发商通过不同方式快速建模并进行调整。现在,某些行业已经开始定制行业元数据标准来描述复杂的需求,例如数字图书馆行业和广电行业开始基于都柏林元数据定制自己行业的多层级元数据标准,并以XML描述。XML 与通常的关系型数据库不同之处在于其数据是有结构的,并且可能在同一个Tag下包含多值。如上图所示的元数据模型可以方便地支持从XML文件向内容管理数据模型的转换。

在描述不同内容之间的关系时,准许用户在初始模型建立时或者在使用过程中随时建立链接(Link)、数据库外键和引用属性(引用属性是一种可以将一个字段变成指向另一条记录的指针)。这是一种可以将系统中任意两个记录关联在一起

的方法,不管这两条记录在数据模型上是否相似,也无论他们是否已经和其他记录建立了链接关系,从而为客户建立描述内容的组织方式提供了便利的条件。出于性能和稳定考虑,目前基于关系型数据库还是保存元数据最好的手段。未来的趋势是越来越加强对XML的支持,包括对XML数据库的支

持。

3、检索查询

对于企业内容管理的最终用户来说,如何高效准确地找到自己所需要的资源是首要课题。尤其是企业内容管理的数据模型逐渐复杂、来源更加多样化,使得检索查询就变得更加重要,同时也变得非常困难。因此企业内容管理系统需要支持标准,支持多渠道复合检索以及查询优化。

用户可以实现在对单一系统的查询,也可以使用信息集成技术,完成一次检索对多个数据源的查询。

从数据模型的分析上得出,企业内容管理系统的元数据可以非常复杂。例如各种基于XML的元数据标准,其定义都极其详细。举例来说,广电标准数据模型规定了广播电视音像资料编目著录项目和规则,适用于广播电视音像资料的编目著录,将主要用于广播电视音像资料的收藏、管理、检索、资料获取,具有实用、简单、灵活、易转换、可扩展等特性。这个数据模型,包括了4级信息,每个级别的信息包括15大属性,属性里面又包括多个子属性,很多属性则是用多值的方式实现的。这样的模型创建后,需要一个简单、强大且基于标准的检索方式,而查询中可能会涉及到元数据参量查询、元数据的全文检索、文本对象的全文检索等复合检索等等,单纯使用关系型数据库的SQL语言很难满足这种多渠道检索的需求。对XML查询的支持是业界普遍采用技术基

础。例如有的产品从XQuery和XPath上设计出了非常好的查询方法。IBMContentManager通过查询解析器,将用户

的查询重新处理,并进行优化,然后向底层的数据库发出查询语句。这种被称为XQPE(XQueryPathExpressions)的查询语言可以完全阐释所有可能用到的数据模型,并且使用简单,高效。

在内容管理平台中,除了对关系型数据库的元数据进行参量检索外,对元数据以及文本对象的全文检索也是非常重要的。所谓全文检索(FullTextSearch),通常是指对文字型的处理对象,根据数据资料的内容,而不是根据外在特征来实现的信息检索手段。例如,IBMContentManager可以在文本正

文及文本字段属性上建立全文搜索。全文索引是对字的检索。另外还有一个概念是智能检索,或者称为TokenSearch,这是基于词的检索,涉及到分词、对词的概念和意图分析等等。需要注意的是,全文检索查询,尤其是中文智能检索只是内容管理系统中的一种检索方式。现在有很多误导的信息,试图将“全文检索”、“中文智能检索

”曲解成内容管理。客户实施了这种“内容管理”系统后,肯定无法达到预先的期望。因为单纯的全

文搜索引擎无法完成客户对内容的管理需求。而且,单纯的全文搜索引擎不能有效地与关系型数据库的结构化息集成,在整合检索时的效率也是必须注意的问题。

4、内容管理的API

为了更好支持在企业内容管理平台上快速开发出满足用户

需求的应用,内容管理平台必须提供出完整的API以满足各种客户端的开发。完整的API支持是区别企业内容管理平台和一般的内容管理应用重要依据。通过企业内容管理平台提供的API,厂商可以开发出面向各种不同客户需求的垂直应用,也可以支持应用开发商和客户开发自己的内容管理应用。因此,如何设计好API就成为关键的问题。做过软件的朋友可能都有体会,做一个应用不难,但是做一个平台非常难,其中的一个原因就是需要为使用者提供出完整的API。这些API既要保证体现平台所有的功能,又要尽量遵循标准。只有遵循业界标准,才可以保证开发人员容易上手,应用容易移植。但是,与关系型数据库这种成熟的平台不同,内容管理平台还处在发展阶段,并没有像关系型数据库那样有JDBC和ODBC等成熟的标准。

JSR170(ContentRepositoryAPIforJava)、

XQuery(XMLQueryLanguage)和

JSR225(XQueryAPIforJava)等都是企业内容管理的候选标准。只是目前这些标准还无法完全满足客户需求,所以必须基于这些标准进行扩展。

5、工作流

在企业内容管理软件中,工作流是必须考虑的要素。通常实

现工作流的方法有两个不同层面,一个层面是使用软件内置的工作流,支持在单一系统内部的工作流。这种工作流简单易用,使用成本低,而且效率很高。

另一层面则是基于第三方的工作流引擎,为企业搭建企业工作流程管理的总线,实现跨不同系统的企业工作流程管理。在企业内容管理软件中,还有很多因素都是需要考虑并值得关注的。例如对于内容的版权保护、数字水印;安全认证和权限管理;捕获和创建的方式;以及计算机输出管理、电子记录的管理(RecordManager)、流媒体服务等等。因为篇幅的关系,这里就不在一一详述了。

从上面的技术浅析,我们可以看到,内容管理已经从当年的“特殊应用管理内容”到“特定领域的

内容管理系统”发展成今天的“通用企业内容管理平台”了。企业和组织也迫切需要将内部的各种内容进行有序管理、挖掘信息的价值,并支持前端不同的应用。统一性、完整性、集成性、开放性、可扩展性、技术成熟度以及标准支持是进行企业内容管理系统选型的重要因素,也是快速启动内容管理的垂直应用并使之不断扩展的基础。

多层次展示

由于内容管理解决方案种类比较繁多,我们仅从中选择了几

款主流的软件给用户参考。

IBM DB2内容管理解决方案

IBM DB2内容管理家族是一套全面的

相关主题
文本预览
相关文档 最新文档