当前位置:文档之家› 容错试错机制参考材料

容错试错机制参考材料

容错试错机制参考材料
容错试错机制参考材料

关于建立健全党员干部容错免责机制的实施办法

(试行)2015-07-02

为进一步激发党员干部干事创业的激情,大力营造鼓励和支持党员干部改革创新、敢于担当的良好氛围,进一步推进我市重点项目、重点工作的落实,更好地开创全面深化改革新局面,根据《中国共产党纪律处分条例》、《行政机关公务员处分条例》和其他有关法律法规,现制定如下办法。

一、申请免予追责的条件

对改革创新未达到预期效果或造成负面影响和损失的(重大安全责任事故除外),属于不可抗力导致或同时符合以下条件的,可以免予追究有关人员的责任:

1.法律、法规没有明令禁止的;

2.符合市委、市政府决策部署的;

3.经过集体民主决策并有书证的;

4.没有为自己、他人或单位谋取私利的;

5.积极主动采取措施,尽力挽救的;

6.有利于改革创新、有利于发展大局的。

二、认定免予追责的程序

相关单位和个人在工作实施前,或因改革创新出现失误受到追责等情形时,可向纪检监察机关提出免责申请。各级纪检监察机关要严格按照有关政策和党政纪规定予以核实认定。

1.申请。单位或本人认为符合免责条件的,应在启动问责程序后七个工作日内,由所在单位党委(党组)按干部管理权限向相应的纪检监察机关提出书面申请(由案件审理室受理)。其中,市管干部及市直机关党员干部向市纪委监察局提出申请;区、县(市)党员干部向所在区、县(市)纪委监察局提出申请。

2.核实。纪检监察机关依申请事项开展调查,出具书面调查报告。

3.认定。根据调查结果,由纪检监察机关会同有关部门作出认定意见,必要时可实行听证制。认定结果在三个工作日内向申请单位或个人反馈并予以答复解释;必要时向同级党委、政府书面报告。

4.暂缓。对一时难以定论的,可以暂缓作出决定,实行暂挂制,一般暂挂时间不超过三个月,期满给予结论性意见。

三、适用免予追责的范围

经确定予以免责的单位和个人,可在四个方面予以免责:

1.在落实党风廉政建设责任制考核中免予扣分,免予一票否决;

2.在干部提拔任用党风廉政审查中,免予一票否决;

3.免予行政追责和效能问责;

4.需追究党政纪责任的,可酌情从轻、减轻或免予处分。

非党员非监察对象免责按干部管理权限参照执行。

四、严明容错免责纪律

在支持和保护改革创新的同时,严禁打着改革创新旗号搞劳民伤财的“政绩工程”、“形象工程”,坚决惩治借改革创新之名徇私舞弊、贪污受贿、假公济私以及严重侵害群众利益

五、其他

1.本办法由中共绍兴市纪委、绍兴市监察局负责解释。

2.本办法自印发之日起试行。

各局(办)、沥海镇党委:

经党工委研究,《关于建立健全干部职工容错免责机制的实施办法(试行)》现予以印发,请认真遵照执行。

中共绍兴滨海新城工作委员会

2015年10月8日

关于建立健全干部职工容错免责机制的实施办法(试行)

为努力打造一支敢冲敢闯、敢为人先、敢争一流的“狮子型”干部队伍,进一步激发滨海新城干部职工干事创业的激情,大力营造鼓励和支持干部职工改革创新、敢于担当的良好氛围,进一步推进新城重点项目、重点工作的落实,确保招商选资、有效投资、工程建设等各项工作顺利推进,根据《中国共产党纪律处分条例》、《行政机关公务员处分条例》、《关于建立健全党员干部容错免责机制的实施办法(试行)》和其他有关法律法规,结合新城实际,制定本办法。

一、适用对象和实施原则

本办法适用于滨海新城管委会、各市级派出机构、沥海镇及下辖村(居)的全体工作人员,以及经授权、委托具有公共事务管理职能的工作人员。管委会聘用、借调、挂职人员参照本办法执行。

对机关工作人员实行容错免责,坚持“鼓励改革创新、支持履职担当、坚持实事求是、依法公平公正”的原则。

二、申请免予追责的条件

对勇于担当、敢于作为的干部职工,对改革创新未达到预期效果或在工作中虽出现失误,但未发生重大安全生产责任事故、较大群体性事件以及其他严重损失或恶劣影响,符合法律法规规定且具备以下条件之一的,可以免予追究有关人员的责任:

(一)法律、法规没有明令禁止,主动改革创新、攻坚克难,有利于开发建设大局的;

(二)符合市委、市政府决策部署的;

(三)符合党工委、管委会决策精神的;

(四)由分管委领导牵头协调的;

(五)主动参与突发事件处置,积极采取措施,尽力减少损失的;主动承担急难险重工作任务,积极破解要素保障瓶颈的;

(六)其他经党工委认为应当免责的情形。

三、认定免予追责的程序

相关单位和个人在工作实施前,或因改革创新出现失误受到追责等情形时,可向新城纪检监察机关提出免责申请,纪检监察机关要严格按照有关政策和党纪政纪规定予以核实认定。

(一)申请。单位或本人认为符合免责条件的,应在启动问责程序后七个工作日内,由所在单位按干部管理权限向相应的纪检监察机关提出书面申请,其中:委管干部向纪工委、监察分局提出申请;沥海镇管干部向沥海镇纪委提出申请。

(二)核实。纪检监察机关依申请事项开展调查,出具书面调查报告。

(三)认定。根据调查结果,由纪检监察机关会同有关单位作出认定意见,必要时可实行听证制。认定结果向申请单位或个人反馈并予以答复解释;必要时向党工委、管委会书面报告。

(四)暂缓。对一时难以定论的,可以暂缓作出决定,实行暂挂制,一般暂挂时间不超过三个月,期满给予结论性意见。

四、适用免予追责的范围

经确定予以免责的单位和个人,可在六个方面予以免责:

(一)在落实党风廉政建设责任制考核中免予扣分及一票否决;

(二)在干部提拔任用党风廉政审查中,免予一票否决;

(三)免予行政追责和效能问责;

(四)在评优评先和职称评定中不作负面评价;

(五)需追究党纪、政纪责任的,可酌情从轻、减轻或免予处分;

(六)在人事分配制度改革中不作为降薪降职降级的依据。

五、严明容错免责纪律

在支持和保护改革创新的同时,严禁打着改革创新旗号搞劳民伤财的“政绩工程”、“形象工程”,坚决惩治借改革创新之名徇私舞弊、贪污受贿、假公济私以及严重侵害群众利益等行为。

六、其他

(一)本办法由滨海新城纪工委、监察分局负责解释。

(二)本办法自印发之日起试行。

第六条建立容错免责机制,宽容领导班子和党员干部改革创新失误。 (一)容错免责的条件。改革创新未达到预期效果或者造成

了一定负面影响和损失(“一票否决”事项除外),符合以下条件的,可以减轻或者免除有关人员的责任:

1.工作措施的组织实施经过前期调研、制定方案、听取意见、专家论证、风险评估、民主决策等程序,涉及公共利益的重大改革创新经过公众听证;

2.个人和所在单位没有违规谋取利益

3.未与其他单位或者个人恶意串通,损害公共利益或者危及公共安全;

4.负面影响和损失主要是客观因素造成;

5.其他可以容错免责的事项。

(二)容错免责的实施。相关单位和个人因改革创新失误受到追责时,可向各级纪检监察机关提出免责申请,按照下列程序进行:

1.申请。所在单位党委(党组)按管理权限向纪检监察机关提出书面申请;

2.核实。纪检监察机关依申请事项开展调查,出具书面调查报告;

3.认定。纪检监察机关根据党纪政纪规定和本办法进行认定,认定是否给予免责,书面认定结果及时反馈。

新华网南京3月9日电(杜勇清吴承主高原)日前,淮安市清河区以区委区政府今年1号文件形式,发布《关于激励党员干部干事创业容错免责的实施办法》,解决党员干部不敢担当、廉而不为突出问题,营造敢闯敢干的政治生态环境,因八类情况造成的工作失误或轻微违纪行为,当事人可从轻、减轻甚至免予问责或处分。

办法规定,单位或党员干部在改革创新履职过程中主观上为公为民,客观上尽职尽责,且有下列八种情形之一的,可以申请容错免责处理:已按程序集体研究、民主决策、阳光运行且有相关书证的;因上级尚未明确禁止,或因政策界限不明确、政策调整影响出现偏差的;符合区委、区政府决策部署或上级领导有明确批示和要求的;没有为自己、他人或单位谋取私利的;主动挽回损失、消除不良影响或者有效阻止危害结果发生的;因经验不足初犯,情节较轻,或尚未造成严重影响的;因不可抗力因素导致的;其他规定可予以免责的。

本报讯(记者杨志华)近日,山东省德州市出台了干部干事创业容错免责办法,明确8种具体情形可以减责免责,营造勇于担当担责、宽容失误失败、关心爱护干部的良好政治生态,受到干部群众的欢迎。

德州市委书记陈勇介绍,德州市出台干部干事创业容错免责办法,旨在建立干部容错免责机制,支持保护干部勇担当、敢作为,让干部在干事创业中胆子大、步子稳,放心地向前冲、勇敢闯、大胆干。

为了使办法更具可操作性、针对性,规定了对8种具体情形可以减责免责:在落实党委、政府部署要求,特别在推动重点工作、重要决策、重大项目中,因大胆履职、大力推进出现一定失误或引发矛盾的;在推进改革和体制机制创新中,因缺乏经验、先行先试出现一定失误或未达到预期效果的;在创造性落实上级指示中,因政策界限不明确或受不可预知因素影响造成一定失误或偏差的;在化解矛盾焦点、解决历史遗留问题中,因勇于破除阻碍、触及固有利益造成一定损失或引发信访问题的;在承担急难险重任务或分管风险较大工作中,因主动揽责涉险、积极担当作为出现一定失误或受到非议的;在处理重特大事故、群体性事件、突发性案件中,因果断决策、及时应对处置出现一定失误或因不可抗力造成损失的;在涉及全局利益工作中,因维护大局、主动放弃部门或局部利益引发内部矛盾和不满的;在服务企业、服务群众中,因着眼于提高效率进行容缺受理、容缺审查出现一定失误或偏差的。

德州市委组织部负责人介绍,这8种情形有一个共同特点,就是在没有违法违纪、没有谋取私利、没有造成重大损失或恶劣影响的前提下,干部在工作中大胆创新、主动作为出现失误和问题。实际操作中,要认真查明实施行为的具体背景、目的、过程和后果,作出全面客观准确的评价和判断。确保不与党纪国法相抵触,不与上级制度唱反调,不与本市规定相矛盾,切实把创造性执行上级决策部署与不讲政治不守规矩、故意违背政策规定区别开来;把担当担责、创新创先导致的失误与盲目决策、以权谋私区别开来;把不可抗力、客观因素造成的损失与失职渎职区别开来。

德州市纪委相关负责人表示,干事创业也要遵守党纪国法,不能闯“红灯”、碰“底线”,更不能成为违规违纪的借口。办法的出台并不是放松对干部的严格管理,更不是对干部的纵容庇护,哪些能够容错免责、哪些必须严肃处理,认定上有着极为严格的标准和程序。

云计算系统的容错和故障恢复

云计算系统的容错和故障恢复(1) 云计算属于分布式系统,许多因素导致系统异常:首先,云计算系统由成百上千的节点组成,节点的失效是常事。假如节点的平均无故障时间是3年,则一个1000节点的机群,平均每天可能有一个节点故障。从商业成本来看,使用普通和主流的计算机(CPU,内存、网络、硬盘等)比高可靠计算机的性能/价格比更高,更何况无论多么可靠的计算机也会出现故障。其次,电源、网络等其他硬件也会出现故障;第三,软件出故障的几率远远高于硬件;第四,各种人为因素,例如错误的操作,也导致故障。由于这些因素,云计算系统需要很好地处理各种原因导致的故障,自动从故障中恢复,并且不影响运行中的上层的应用程序: l 多副本的数据 云计算分布式文件系统保存了数据的多个副本(例如,GFS缺省保存3份),当某个副本失效后,分布式文件系统的master会在适当的时机启动副本复制,使得数据的副本数保持设定的数量,保证了数据的安全; l Worker故障 分布式文件系统的worker可能出现故障,master通过内置的heartbeat/lease 监控所有worker的状态,一旦确认某个worker故障,master会把该worker保存的数据的副本个数减一,以便系统在适当时机启动副本复制以保证数据不会丢失; l Master故障 为了避免master成为系统的单点,master也有多个副本:其中一个是主master,其余为辅master,主master承担着master的职责,例如应答用户和worker的请求,记录操作日志等;辅master通过操作日志保持与主master的准同步。当主master发生故障后,在分布式选举协议作用下,一个辅master会升级成为主master,保证系统的继续运行; l 应用程序容错 出于容错和故障恢复的原因,云计算系统的上层应用程序不能假设它正在或将要使用哪个worker,也不能假设数据存储在或将要存储到哪个worker上,当应用程序需要使用数据时,云计算客户端库将询问云计算系统的master获得数据副本所在的位置,并向其中一个副本(通常是与该客户端网络“距离”最近的)发出

双机容错系统方案

双机容错系统方案 1.前言 对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少的,另一方面,计算机硬件和软件都不可避免地会发生故障,这些故障有可能给企业带来极大的损失,甚至整个服务的终止,网络的瘫痪。可见,对一些行业,如:金融(银行、信用合作社、证券公司)等,系统的容错性和不间断性尤其显得重要。因此,必须采取适当的措施来确保计算机系统的容错性和不间断性,以维护系统的高可用性和高安全性,提高企业形象,争取更多的客户,保证对客户的承诺,减少人工操作错误、达到系统可用性和可靠性为99.999%。 2.双机容错系统简介 根据用户提出的系统高可用性和高安全性的需求,推出基于Cluster集群技术的双机容错解决方案,包括用于对双服务器实时监控的Lifekeeper容错软件和作为数据存储设备的系列磁盘阵列柜。通过软硬件两部分的紧密配合,提供给客户一套具有单点故障容错能力,且性价比优越的用户应用系统运行平台。 3.Cluster集群技术 Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。 Cluster大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败,并可透明的向Cluster中加入组件。 一个Cluster包含多台(至少二台)拥有共享数据储存空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。 Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。 4.工作拓扑图

软件容错方法

容错方法: 1.Byzantine协议:有m个处理机(进程)出错的系统中要实现协同一致,至少需要2m+1 个正常处理机(进程)时才可能,也就是说至少需要的处理机(进程)总数是3m+1个。 2.微重启技术(Micro-reboot):针对大型分布式应用软件系统发生故障时的快速恢复技术。 微重启技术有别与传统的重启方式(宏重启),它采用递归恢复的方法,即将系统划分为多个故障隔离的组件子集,首先重启可能引起故障的最小子集但不影响系统其他部分的正常运行,如果不起作用,再依照故障传播路径递近地重启更大范围子集,直到故障最终解决或者需要其他恢复策略的执行。微重启可以有效避免系统因全面重启而造成的数据丢失和事务进程的中断,并且极大地缩短了因全面重启而引起的冗长恢复时间;通过快速地解决局部故障以避免整体宕机,从而提高了应用系统的可用性。 3.软件抗衰技术(Software Rejuvenation):在软件运行期间,系统可能出现资源逐渐耗尽或 运行错误逐步积累所导致的系统性能下降乃至挂起停机的现象,这种现象称为软件衰退(Software Aging)。软件抗衰是指为预防系统突然发生故障而预先采取的措施。它是一种前摄的容错技术,主要通过适时、适度地消除系统内部错误的运行状态来完成。主要措施有:周期性地暂停软件的运行,清除系统的内部状态,重新启动并恢复为干净的初始/中间状态。常见的内部状态清理手段有清除缓冲序列、内存垃圾收集、重新初始化内核表、清理文件系统等。最简单、常见的软件抗衰措施是计算机的重新引导。 4.回滚机制:可以周期性的对软件做检查点,检查点可以放在磁盘,远程内存,非易失性 的或者持久的内存中,也可以实时的对软件的操作以日志的方式进行记录。当软件出现错误时,可以根据检查点或者日志回滚到一个合适点并对先前出现的错误进行相应处理而不造成软件再次出错。 5.错误忽视技术(Failure-Oblivious Computing):在一次计算中,当错误发生在不相关的 计算中,错误忽视技术能够保证服务忽视这些错误而继续执行该计算。当内存错误发生在该计算中,错误忽视技术能够产生一个能够导致服务能处理的无效输入请求,从而服务中的错误处理模块能够进行处理。该方法的缺陷是只能处理内存相关的bug,能够产生高负载,以及由于对内存接口进行了潜在的不安全修改而可能产生程序的非预期行为。 6.编译器级容错技术:如复制指令错误探测(Error Detection by Duplicated Instructions,简 称EDDI),基本思想是编译器复制程序指令并将源指令与复制指令合并(为了提高容错性能,两种指令放在不同的寄存器和内存的不同位置)。在一定的同步点(store指令处和branch指令处),编译器插入检测指令来检查源指令与复制指令的执行结果是否一致。其优点是效率高,既可用于单机环境,又可用于分布式环境,而且可以根据不同环境加以定制。

存储容错

西安工业大学 容错技术与存储容错 姓名:李丽莎 学号:1206210398 专业:计算机应用技术

容错技术与存储容错 摘要:大量数据需要传输和存储,在传输和存储过程中会出现各式各样的错误。为了避免和减少这些错误的发生,增加系统的可靠性,由此出现了容错机制。 本文就容错的概念,容错技术,存储容错系统和常见的两种容错系统进行了探讨,深入理解了容错的机制和内涵。 关键词:数据存储;容错技术;容错系统 1、容错技术的概况和历史 容错FT(Fault Tolerant)就是当系统由于种种原因出现了数据、文件损坏或丢失时,能够自动地将这些损坏或丢失的文件和数据恢复到发生事故以前的状态,使系统能够连续正常运行的一种技术。容错技术一般利用冗余硬件交叉检测操作结果。 上世纪80年代,第一代容错技术开始进入商用领域。1993年,英特尔 I860处理器在Stratus的硬件级容错体系结构中成功应用。1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PA -RISC对称多处理技术。进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。如今,NEC通过与美国容错公司多年的合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准操作系统环境的容错服务器。 2、常见的容错技术 常见的容错技术有双重文件分配表和目录表技术、快速磁盘检修技术、磁盘镜像技术、双工磁盘技术等。

关于计算机服务器系统的容错技术

关于计算机服务器系统的容错技术 摘要随着时代的发展,信息技术的进步,计算机已经逐渐的成为了各行各业中不可取代的一部分,我国对于计算机技术的应用也十分的广泛。其中,计算机服务器系统是计算机中十分重要的一个技术,能够为国防、医疗以及金融等各个行业为计算机系统提供不间断的服务,如果它出现问题那么会造成十分严重的损失,因此应该对于计算机服务器系统的容错技术进行足够的重视并且对其进行进一步的发展。本文主要对其进行了详细的阐述。 关键词计算机服务器系统容错技术 中图分类号:TP302.8 文献标识码:A 1容错必要性 随着计算机技术的普及,通过计算机系统来进行信息的传输并提供服务逐渐应用的越来越广泛,但是计算机的软硬件都有可能会发生故障,这些故障如果没有及时的进行解决很容易造成巨大的损失,甚至会造成整个服务的终止网络也会因此而瘫痪,因此产生难以估量的损失。因此,系统的容错性以及不间断的性质显得尤为重要,为了能够更好地保证系统安全、可靠地运行,必须要采取一定的措施来保证计算机系统能够在出现故障的时候已然可以正常的使用。经过人

们地长时间的研究,总结出来了两种方法,一种叫做避错,就是使用正确的设计并且进行相应的质量控制尽可能的避免系统产生错误,防止将错误引进系统之中,但是在实际的运行中难免会产生一些意料之外的事情,因此这种方法在实施起来有着很大的难度。另外一种就是容错,在系统中出现了某些硬件或者软件的错误的时候,系统能够执行规定的一组程序,或者说这种程序不会因为系统的故障而被中断或者在中途被修改,且其执行的结果也不包含系统中的故障引起的差错。 随着科技的不断发展,计算机技术的逐渐普及,设备的安全性以及可靠性逐渐的引起了越来越多的人的重视,因此计算机服务器系统的容错技术十分重要。当系统的内部出现故障的时候,通过容错技术能够消除故障产生的影响并且使系统最终仍然能够给出正确的结果。按照时间进行故障的划分,故障可以分为以下几种类型:永久性的故障、间歇性的故障以及偶然性的故障。随着计算机的硬件技术的不断发展,容错计算机的系统开销逐渐的降低,同时纠错的速度变得越来越快。而软件方面的容错,对于硬件不会提出过高的要求。 2容错技术概述 容错指的是计算机系统的一个或者多个关键的部件发生故障或者将要发生故障的时候,仍然能够保持正常的工作

冗余、容错、容灾、备份定义与区别

1冗余: 指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间。通常指通过多重备份来增加系统的可靠性 2容错: 容错是用冗余的资源使计算机具有容忍故障的能力,即在产生故障的情况下,仍有能力将指定的算法继续完成。 2.1冗余与容错的区别: 容错主要依靠冗余设计来实现,它以增加资源的办法换取可靠性。由于资源的不同,冗余技术分为硬件冗余、软件冗余、时间冗余和信息冗余。 硬件冗余是通过硬件的重复使用来获得容错能力。 软件冗余的基本思想是用多个不同软件执行同一功能,利用软件设计差异来实现容错。 信息冗余是利用在数据中外加的一部分信息位来检测或纠正信息在运算或传输中的错误而达到容错。在通信和计算机系统中,常用的可靠性编码包括:奇偶校验码、循环冗余码CRC、汉明码等。 时间冗余是通过消耗时间资源来实现容错,其基本思想是重复运算以检测故障。按照重复运算是在指令级还是程序级分为指令复执程序复算。指令复执当指令执行的结果送到目的地址中,如果这时有错误恢复请求信号,则重新执行该指令。 3容灾(Disaster Tolerance) 就是在上述的灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断地运行。 3.1数据容灾 数据容灾是指建立一个异地的数据系统,为了保护数据安全和提高数据的持续可用性,企业要从RAID保护、冗余结构、数据备份、故障预警等多方面考虑,

将数据库的必要文件复制到存储设备的过程,备份是系统中需要考虑的最重要的事项,虽然他们在系统的整个规划。 3.2容灾与容错的区别 容错可以通过硬件冗余、错误检查和热交换再加上特殊的软件来实现,而容灾必须通过系统冗余、灾难检测和系统迁移等技术来实现。当设备故障不能通过容错机制解决而导致系统宕机时,这种故障的解决就属于容灾的范畴。 4灾难恢复(Disaster Recovery): 指的是在灾难发生后,将系统恢复到正常运作的能力。 4.1灾难恢复与容灾的区别: 容灾强调的是在灾难发生时,保证系统业务持续不间断地运行的能力,而灾难恢复强调的灾难之后,系统的恢复能力。现在的容灾系统都包含着灾难恢复的功能。 容灾系统在企业中给与数据安全系数相当高的保障,但是容灾系统到底是什么,他们是什么意思?恐怕连正在使用容灾备份的网络管理人员都不能解释。 4.2容灾和备份的目的不同 4.2.1容灾系统的目的 在于保证系统数据和服务的“在线性”,即当系统发生故障时,仍然能够正

(完整word版)系统容错和安全机制

网络系统的容错和安全设计 第一章网络系统的容错设计 一. 网络容错概述 采用用友网络财务软件NC(基金Web版)Web系统后,基金管理公司及托管行的所有数据都存放在数据库服务器中,服务器的宕机,会给企业带来巨大的损失;这就要求一旦生产用服务器产生任何形式的宕机或失效,网络上备用的服务器能够立即接管宕机的服务器使整个系统不至于崩溃,从而保证整个企业的业务连续运作。保证系统高可用性,应从以下几方面着手设计: 1、数据镜像 数据镜像是一种有效、高性能的高可用性解决方案,它不需要昂贵的RAID磁盘子系统,也无需考虑SCSI接口对缆线长度的限制。可扩展的磁盘镜像运行在两台相互独立又有备份逻辑的服务器之间。通过不断检测主系统磁盘或文件(源)的状态,而实时地将改动的信息镜像到目标机器的相应磁盘上或文件中。 为了保证数据的完整性,扩展镜像限制了用户对目标磁盘或文件的写操作。通过使用可扩展的磁盘镜像,源系统的任何数据更新将通过LANs和W ANs镜像到用户指定的目标系统上,当源系统发生数据丢失或硬盘损坏时在目标系统上将保留一份镜像数据。有些可扩展的磁盘镜像软件可以实现一对一、一对多、多对一及多对多的数据镜像而不需要任何附加的硬件设备。 2、故障切换 从系统确信不能收到来自主系统的”alive”心跳信号后,就开始启动从系统上的自动恢复功能,将主系统上的需要保护的资源自动转移到从系统上,并开始向客户提供服务。一个比较好的机制在于如果从系统感觉不到主系统的心跳后,试图通过其他途径做进一步地检测(例如检测其他客户机是否不能获得主系统的服务)。 故障切换的时间是指从系统自确信主系统“死掉”后,到完全接管主系统并向客户提供服务止所经历的时间,时间越短,热备份程度越高。当从服务器发生故障时,不应对主系统有任何影响。 3、失效切换 源要转移到从系统上去,这就不但要求系统中的核心数据能转移过来,还要求将其他资源转移过来。与客户关系比较密切的资源主要是:LAN局部网名,IP地址、应用程序、以及应用程序所依赖的数据。 4、自动恢复 要求在主服务器失效后,修复好后,IP地址、局部网名字、数据应用与服务应该方便地恢复到主服务器上

相关主题
文本预览
相关文档 最新文档