当前位置:文档之家› 容错服务器技术vs双机冗余

容错服务器技术vs双机冗余

容错服务器技术vs双机冗余
容错服务器技术vs双机冗余

容错之"错" 容错服务器技术vs双机冗余

1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。

容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。

实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。

单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9

的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。

产品技术篇之一“没有错误”的容错服务器技术

单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。

容错与同步技术

美国容错公司技术顾问高峰在接受记者采访时表示,容错服务器的技术并不难理解,计算机自诞生之日起,其系统结构并没有发生任何改变,仍然是冯诺依曼教授所提出的由运算器(CA)、控制器(CC)、存储器M和输入/输出装置所组成,而容错服务器的思路就是把所

有这些部件全部采用冗余硬件设计。两个部件共运行同一个任务,以此来提高系统的运行可靠性。

这种思路和方法在其他服务器产品中也有采用,据富士通公司首席技术官周一平介绍,富士通PRIMEQUEST服务器就采用了这种方法,该服务器采用英特尔安腾2处理器,富士通把很多大型机和Unix小型机的技术进行了迁移。例如把处理器、内存和PCI总线进行冗余设计,使系统具有高的可靠性。

高峰表示,这种冗余硬件的设计并不难理解,但是最为困难的是如何保证计算和数据在硬件中的同步,这是Stratus核心的专利技术。在Stratus容错服务器中,它被称为同步(Lockstep)技术,在惠普的NonStop服务器中被称为锁步技术。

安腾还是x86

容错服务器另外一个需要关注的焦点是处理器。据陈武胜介绍,目前惠普的NonStop 服务器分为两个系列:NonStop S和Integrity NonStop,其产品的差别在于所采用处理器芯片不同,NonStop S所采用的是MIPS芯片,是收购原美国天腾公司的产品,而Integrity NonStop所采用的是英特尔安腾2处理器。

陈武胜表示,除了处理器的差别之外,新的Integrity NonStop具有很多新的设计,例如采用3部件的冗余设计,此外系统总线也有很大改进,因此其可靠性才能够达到7个9的水平。他指出,目前安腾2芯片已经内置了Lockstep同步技术,在芯片级提供了系统容错设计的能力。而此前处理器芯片不具备这样的能力,就需要通过外部结构设计来解决同步的问题。据了解,Integrity NonStop可以进一步分为NS1000、NS14000和NS16000,分为入门级、中高端和最高端服务器产品,其中最高端的NS16000服务器,其每个服务器的节点采用2~16个安腾2处理器。这些处理器节点通过惠普公司独特的ServerNet进行连接,可以提供多达4080个处理器计算能力。

在Stratus公司的产品中,更加强调容错的能力。据高峰介绍,ftServer已经是该公司第四代产品系列,此前先后经历过Motorola M68000、Intel I860芯片、HP PARISC等不同处理器,以及VOS专有操作系统等阶段。目前第四代产品采用基于x86结构的Intel 处理器,其W系列最高的6600可以实现基于容错的4路双核处理器的计算。高峰表示,Stratus将会在今年发布基于8路的容错服务器产品。

高峰表示,容错服务器选择哪种处理器的关键还是要根据应用的需求。安腾处理器采用了全新的64位计算架构,需要配合主机级的NonStop操作系统。与之相比,x86架构应用比较普遍,用户软件无须要进行二次开发。Stratus公司之所以采用Linux、Windows等通用的平台代替专用的VOS操作系统,就是为了降低容错服务器的应用成本。

“无解”的软件故障

容错服务器通过硬件部件的冗余设计,以及同步技术的保证,可以有效解决因为硬件原因所造成的系统故障,但是并不能解决软件故障。

高峰表示,虽然在理论上存在着两个相同部件同时损坏的情况,但是随着硬件水平的提高,这种概率是比较低的。高峰表示,容错硬件的设计一方面可以防止硬件的单点故障,同时也可以防止硬件所造成的计算错误,并对此做出校正。从技术的角度来看,所有软件在硬件看来就是0和1,但是在某些情况下,硬件会产生不稳定,造成非0非1的中间状态,就会产生计算的错误,这种错误并不一定导致系统宕机,其错误不易被察觉。

在容错服务器中,由于采用冗余部件同时运行同一应用任务,这样当两个系统产生不一样计算结果的时候,系统就会察觉,并通过技术手段对于计算错误进行校验,从而提高应用的准确性。但是如果是软件本身的问题,无论是操作系统还是应用软件,那么容错服务器没有办法对于这种错误进行修整。因为对于容错服务器而言,硬件所能够辨别的就是0和1,至于0和1所蕴含的软件逻辑,硬件无从辨别。高峰表示,软件的问题只能够通过软件的方法加以解决。有些用户对此存在一些误解,认为容错服务器不会宕机,实际上容错服务器只能够解决硬件的故障。

关于容错服务器应用,记者也采访了NEC技术经理黄后生,他表示,选择容错服务器的意义在于为关键业务应用提供可靠的硬件平台。黄后生表示,用户为追求系统可靠性,往往会选择小型机,但这会增加成本,同时也对企业的技术人员提出了比较高的要求。但是选择容错服务器没有这样的要求,可以使用他们比较熟悉的Windows平台或者Linux平台。

黄后生表示,目前NEC的Express5800/ft服务器在原理上与Stratus非常类似,两家公司在技术上有着战略合作,共同开发有关容错服务器的相关技术。目前NEC是Stratus公司的投资股东,持有Stratus公司部分股票。在全球服务器市场上,NEC位列前5强,具有丰富应用和推广的经验,以及雄厚的市场推广能力。在技术支持和服务方面,NEC已经建立了非常好的渠道,这些优势都有助于容错服务器在中国的应用和推广。

产品技术篇之二基于“心跳”的双机冗余服务器方案

相对于容错服务器,双机冗余服务器解决方案比较简单,目前服务器厂商都可以提供。它所采用的是两台配置完全一样的服务器系统,当一台机器出现故障的时候,另外一台机器接替其工作,保证系统的稳定工作。

双机热备的两种模式

双机热备有两种实现模式,一种是比较标准的,两台服务器通过一个共享的存储设备(磁盘阵列或存储区域网SAN),并且安装双机软件,实现双机热备,称为共享方式。另一种方式是通过纯软件的方式,一般称为纯软件方式或镜像方式(Mirror)。

基于存储共享的双机热备是最标准的方案。对于这种方式,采用两台或者多台服务器,使用共享存储设备,两台服务器之间可以采用互备、主从、并行等不同的工作方式。在工作过程中,两台服务器将以一个虚拟的IP地址对外提供服务,依工作方式的不同,其服务请求将发送给其中一台服务器承担。当一台服务器出现故障时,另一台服务器根据心跳侦测的情况做出判断,并进行切换,接管服务。对于用户而言,这一过程是全自动的。这种模式好

处在于两台服务器所使用数据相同,但是也有用户担心,共享存储设备会成为系统单一故障点。为此,存储厂商也针对存储设备推出了双冗余的方案。

纯软件双机冗余方案是一个更加经济的方案,其没有集中式存储设备,其数据保存在服务器各自的硬盘上,通过支持镜像的双机软件,将数据实时复制到另一台服务器上。纯软件方案其数据同步运行在两台服务器上,如果一台服务器出现故障,可以及时切换到另一台服务器上。采用纯软件方式避免了磁盘阵列的单点故障;节约投资,不需购买昂贵的磁盘阵列;不受距离的限制;可以灵活地部署服务器。

软件水平是关键

无论采用哪一个厂商的双机冗余服务器解决方案,所采用的双机或集群软件是其中的关键,软件定了,方案的容错水平也就定了。

目前市场上在Windows平台下比较常见的双机软件有DataWare、Lander Cluster和LifeKeeper;在Linux平台下有DataWare、ROSE HA、PCL HA、LifeKeeper和Lander Cluster 等。此外,在SCO Unix和Sun Solaris平台下常用的软件有Lander Cluster和PCL HA。

为了对这些软件的性能有所了解,记者采访了DataWare的生产厂商,来自台湾的ProWere公司,其在北京的办事处豪威科技首席代表白广凌和蔡雪涛工程师介绍了有关情况。白广凌表示这些软件在功能上都差不多,如自动侦测功能。它在两台服务器之间提供异常情况互相监控,如果其中一台主机发生故障,则故障机制立刻执行,如果不能在故障主机解决,所有资源将自动切换到另一台主机。双机软件一般提供两种模式:Active / Standby 模式和Active / Active 模式,前者一台作业主机承担所有的工作负载,另一台主机处于备援状态;而后者则是两台主机共同分担工作负载,如果其中一台主机故障,另一台主机将自动承担所有的工作负载。

蔡雪涛指出,双机软件的关键在于切换,最为忌讳的情况就是误切换。如果双机都认为对方发生了故障,就会产生两台主机相互争夺资源的情况,就将导致严重的后果。蔡雪涛表示,双机冗余服务器解决方案不能够替代数据备份,以纯软件方式为例,如果数据有错误,那么其另一台机器上的镜像肯定也是错误的,因此双机冗余服务器解决方案不能解决类似的错误。采用数据集中存储的方式,无论是NAS还是SAN,两台服务器所使用的是同一个数据。但是存储设备存在单一故障的风险,为此,ProWere推出了针对NAS存储的双冗余解决方案。

蔡雪涛表示,不同的双机软件在细节上还是有一些差异,最主要的是故障侦测的机制。两台服务器之间一般通过“心跳”线进行侦测,“心跳”线的连接有串口、SCSI和网络连接三种方式。在一般情况下,应该至少采用两种连接方式,以增加侦测的准确性。

目前双机应用的范围比较广泛,无论在银行、电信、政府、电力、石油、新闻出版、生产制造等行业,凡涉及关键业务应用的领域,双机冗余都是一个重要的解决方案。但是双机冗余服务器方案同样不能够解决软件的故障。蔡雪涛指出,以常见的数据库故障为例,有些时候数据库莫名其妙打不开了,在这种情况下,只有重新安装数据库,没有其他好的办法。

蔡雪涛提醒用户,双机冗余不能够替代备份,数据备份和灾难恢复系统是应对故障最好的办法。

案例应用篇电力SIS系统的选择

厂级监控信息系统(SIS系统)是目前电厂信息化建设的重要系统。据北京京能热电股份有限公司(京能热电)副总工程师李东介绍,SIS位于电厂管理信息(MIS)系统与各种分散控制(DCS)系统之上,以经济运行和提高发电企业整体效益为目的,采用先进、适用、有效的专业计算方法,实现整个电厂范围内的信息共享,对厂级生产过程进行实时信息监控和调度,提高机组运行的可靠性。

SIS系统为管理层决策提供了真实、可靠的实时运行数据。与此同时,与职工息息相关的绩效考核等工作,也需要SIS系统提供支持。据了解,京能热电从去年下半年开始实施SIS系统,其首要的任务就是选择硬件支撑平台。李东表示,SIS系统涉及大量复杂过程的实时信息数据操作,因此硬件平台应该选用高性能、高可用性、升级便捷和维护方便的企业级数据库服务器,同时应该兼顾开放式的体系结构和分布式系统设计。

经过对现有硬件平台的分析比较,京能热电最终选择了Stratus ftServer W 系列3300 服务器。据李东介绍,该服务器采用部件级冗余的工业标准容错服务器,其可靠性设计达到99.999%以上,其中电源、CPU、内存、I/O控制组件均采用冗余配置。通过该服务器的CPU/MEM集成锁步(Lock-Step)技术,其冗余部件在同一时钟周期做同样的指令,动态数据得到保护。

与双机冗余服务器方案进行比较,京能热电方面认为,容错服务器具有更高的可靠性和系统可用性,在此,李东特别提到了I/O部件的冗余,他们也配对工作,能够在发生故障时进行接管,切换时间在毫秒级。切换过程不需要使用任何软件和编写脚本程序。

从配置来看,该服务器采用双路Intel Xeon 3.2GHz 处理器,二级缓存为1MB,其内存配置为2GB DDR。该服务器采用Windows Server 2003简体中文企业版操作系统,配置相应的服务器管理软件,在硬盘方面采用工业标准热插拔内置硬盘,并作RAID 1保护,实际数据容量大于300GB,最大可达到480GB。该服务器集成一对双口10/100/1000自适应RJ45以太网卡,四个网口可两两配对,互为冗余,每对网口可配置成同一IP地址,随时进行故障切换。据了解,该服务器所有部件均可以模块化方式进行热插拔,即CPU、内存、电源、风扇、硬盘、网卡、所有I/O设备、甚至主机板出现故障时,均可不停机进行更换,能把硬件故障导致的平均非计划停机时间控制在每年5分钟之内。

李东表示,之所以选用Stratus公司的ftServer系列产品,有一个非常重要的原因,即目前国内市场上所采用的SIS系统软件基本上基于Windows平台,因此基于x86平台的ftServer就成为当然之选。如果是选用惠普公司的Integrity NonStop服务器,其应用软件运行在NonStop OS之上,有别于Windows操作系统,将涉及到应用软件的修改。李东也就双机冗余方案进行了对比,经过他们测算,如果采用双机冗余方案,需要购买两套操作系统、两套数据库产品,那么其总体的投资与容错服务器方案相当,而系统的可用性方面,容错服

务器显然更具有优势。对此,Stratus公司高峰表示,目前国内的采购,软件和硬件大多分开招标,这非常不利于用户计算总体成本,对于容错服务器产品销售也有一定的影响。

李东表示,目前国内行业用户对于软件的正版化问题已经足够重视,这非常有利于容错服务器的应用推广,从他们的应用实践看,容错服务器是一个不错的选择。

编看编想微软最应该使用容错服务器

在产品的表达上有很多的遗憾,例如视讯会议的厂商,后悔把他们的产品称为会议,因为这种产品并不是仅仅解决一个开会的问题。对此,Polycom中国区总经理李刚表示,如果当初把“视讯会议”译为“视频通信”,那么他们现在的工作会好做许多。类似的还有VoIP,谈论VoIP产品,一定要说明你是什么VoIP。因为VoIP有很多种,小到电话卡,大到IP Centrix,有IP PBX,也有纯IP的VoIP解决方案,这种概念的不确定性,增加了事物的复杂性,给应用推广带来了难题。

对于容错服务器而言,我想Stratus公司的创始人Bill Fost先生也一定在后悔把他们的产品称为容错服务器,在这个世界上有一种双机冗余服务器解决方案也可以称为容错服务器。不知道Bill Fost是否知道中国有一个李逵,还有一个人叫李鬼,如果单纯从外表看,相信Bill Fost一定分不清,哪个是李逵?哪个是李鬼?我想,对于大多数用户而言,一定也说不清楚容错服务器和双机冗余有多大的区别。

如果我是Bill Fost,我就会把服务器送给微软,让他们开发人员用容错服务器检验软件,很简单,如果服务器宕机了,没有什么说不清楚的,一定是软件的错误。其实这一点,比尔·盖茨自己也十分清楚,没有没有错误的软件,在软件工程开发中有一个关门的时间,时间一过,任凭有天大的问题也不可进行修改了,要修改可以,发补丁包好了。不如此,无法保证软件的进度。但是软件厂商之所以敢把有问题的软件投放市场,还在于他们有一个挡箭牌,即重启一下机器,问题就会神秘消失了,谁敢说一定是软件的问题?但是,使用容错服务器,这几乎是板上钉钉的事情!

话可以这么说,但我毕竟是一个编辑,不能太偏颇。实际上,双机冗余也是一个不错的选择!相对那些非关键的业务,但也是比较重要的业务而言,双机冗余有自己的适用范围。(Z101)

针对安全信息系统来说换成容错服务器有以下几点问题需要明晰:

1、采用stratus公司的机器使用的是X86结构CPU可以使用以前的应用软件和普通windows

操作系统,而使用HP公司的Integrity NonStop 系列容错服务器则使用的是最新安腾架构的64位服务器操作系统特定并且以前的应用软件不能使用。

2、无论使用哪家公司的产品,容错服务器仅仅是在硬件上做到冗余仍然没办法解决软件故

障的问题。

3、双机冗余不能够替代备份,数据备份和灾难恢复系统是应对故障最好的办法

4、双机冗余或者容错服务器的使用仍然存在存储设备的单点故障隐患

容错方案和双机热备方案的对比 2

为什么选择容错 Stratus容错服务器与双机热备方案比较

一、容错技术和集群的比较: 1、可靠性比较:

容错服务器的可靠性可达到99.999%以上,其设计原理是“容错原则---容忍错误发生,当出现任意单点故障时,不会对系统造成任何影响,系统仍然连续工作”。而集群方案的可靠性只能在99.9%~99.99%之间,其设计原理是“避错原则----当系统出现故障时,如何补救错误、避免错误进一步扩大”。 2、拓扑结构比较: 计算机业界对可靠性的定义 容错服务器独立服务器 阵的独立服务器 系统 消除单点心 系统结构复杂 环节过多,外部连接 故障发生点多 系统结构简单 如同单机,内部连接 故障发生点少 无单点故障的集群方案 无单点故障的容错方案

3、软硬件架构: 在系统架构中,容错服务器结构简单,且是单软件映像。 1、 工作原理比较: 硬软件结构复杂 依赖集群软件 对所有软件和硬件要求苛刻 切换机制只能覆盖部分实际应用情况 硬软件结构简单 纯硬件容错结构 对所有软件无特殊要求 时钟同步,无需切换

容错方案在出现任何单点故障的情况之下系统工作状态均不会中断,且是零切换时间,进而完整的保护了静态数据及动态数据。 2、维护管理及实施比较: 由于容错服务器的冗余全部是依靠硬件完成的,避免了对软件及人为因素的依赖,因此,其实施及维护非常简单、方便。 3、集群和容错软硬件可靠性实测比较: System Application Fault-Tolerant Cluster Conventional 容错方案的软硬件可靠性是最高的;集群方案虽然略微提高了硬件的可靠性,但却牺牲了软件本身的可靠性。

RoseMirrorHA镜像服务器双机热备解决方案具体配置

RoseMirrorHA镜像服务器双机热备解决方案及 具体配置

一、双机热备拓扑图以及工作原理

双机热备工作示意图 二、双机热备方案介绍 在高可用性方案中,操作系统和应用程序是安装在两台服务器的本地系统盘上的,而整个网络系统的数据是通过磁盘阵列集中管理和数据备份的。数据的集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备来读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。 双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者是备用系统无法收到主机系统的“心跳”信号,则系统的高可用性管理软件(双机软件

RoseHA)认为主机系统发生故障,立即令主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。 双机备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍:?双机热备模式即目前通常所说的active/standby 方式,active服务器处于工作状态;而standby服务器处于监控准备状态。当active服务器出现故障的时候,通过软件诊测或手工方式将standby机器激活,保证应用在短时间内完全恢复正常使用。这是目前最理想的一种模式。 ?双机互备模式,是两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性,但对服务器的性能要求比较高。服务器配置相对要好。 ?双机双工模式 : 是目前Cluster(集群)的一种形式,两台服务器均为活动状态,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份。WEB服务器或FTP服务器等用此种方式比较多。 双机热备有两种实现模式,一种是基于共享的存储设备的方式,另一种是没有共享的存储设备的方式,一般称为纯软件方式,低成本模式。 基于存储共享的双机热备是双机热备的最标准方案。这种方式采用两台服务器,使用共享的存储设备(磁盘阵列柜或存储区域网SAN)。两台服务器可以采用热备(主从)、互备、双工(并行)等不同的方式。在工作过程中,两台服务

容错关键技术

容错关键技术 一个容错系统包含四个要素:首先是故障检测,这是容错系统必不可少的环节,其他环节以此为基础;其次是对出现的故障所造成的影响进行评估并限制其进一步传播;最后是对确定为不可恢复的故障进行处理。 容错的基本步骤概括起来是故障检测→处理故障→系统恢复。 防止故障造成系统失效有两种基本技术:即是故障掩蔽技术和系统重组技术。 故障掩蔽是防止故障造成差错的各种技术,换句话说要将发生的故障隐蔽起来。这类技术不要求在容忍故障前检测故障,但要求做到故障包容。故障包容是指使故障的影响局部化,不希望一个故障全局地影响整个系统的性能。在故障效应达到模块的输出之前,通过隔离或校正来消除它们的影响,从而达到容错的目的。 掩蔽技术不改变系统的结构,即系统部件的逻辑关系相对固定,因此掩蔽技术又称静态冗余技术。当掩蔽冗余因模块中的故障而耗尽时,再发生故障就会在输出产生错误。 系统重组是防止差错导致系统失效的各种技术。系统重组技术首先做到故障检测,然后做到故障定位,最后做到系统恢复。 系统重组技术称动态冗余技术。 故障掩蔽技术及系统重组技术是达到容错的两种基本途径。而它们又建立在资源冗余的基础上的。资源冗余主要有两种基本形式:硬件冗余和软件冗余。 1、硬件冗余 实时系统中应用最广泛的冗余形式是硬件的物理重复。随着半导体元件体积的缩小及成本的下降,硬件冗余成为更实用的一种冗余方法。硬件冗余有两种形式:被动冗余和主动冗余。 被动硬件冗余又称静态硬件冗余,是指冗余结构并不随故障情况的变化的冗余的形式。被动硬件冗余应用了故障掩蔽的概念,将发生的故障隐蔽起来,防止故障造成差错。被动硬件冗余的基本机理是通过多数表决隐蔽发生的故障。这种冗余方法一般用于多机系统。 主动硬件冗余又称动态硬件冗余,是通过故障检测,故障定位及系统恢复来

服务器双机热备方案定稿版

服务器双机热备方案精 编W O R D版 IBM system office room 【A0816H-A0912AAAHH-GX8Q8-GNTHHJ8】

双机热备方案 双机热备针对的是服务器的临时故障所做的一种备份技术,通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。 1.集群技术 在了解双机热备之前,我们先了解什么是集群技术。 集群(Cluster)技术是指一组相互独立的计算机,利用高速通信网络组成一个计算机系统,每个群集节点(即集群中的每台计算机)都是运行其自己进程的一个独立服务器。这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统,协同起来向用户提供应用程序、系统资源和数据,并以单一系统的模式加以管理。一个客户端(Client)与集群相互作用时,集群像是一个独立的服务器。计算机集群技术的出发点是为了提供更高的可用性、可管理性、可伸缩性的计算机系统。一个集群包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域网相互通信。当一个节点发生故障时,它所运行的应用程序将由其他节点自动接管。 其中,只有两个节点的高可用集群又称为双机热备,即使用两台服务器互相备份。当一台服务器出现故障时,可由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续对外提供服务。可见,双机热备是集群技术中最简单的一种。 2. 双机热备适用对象 一般邮件服务器是要长年累月工作的,且为了工作上需要,其邮件备份工作就绝对少不了。有些企业为了避免服务器故障产生数据丢失等现象,都会采用RAID技术和数据备份

技术。但是数据备份只能解决系统出现问题后的恢复;而RAID技术,又只能解决硬盘的问题。我们知道,无论是硬件还是软件问题,都会造成邮件服务的中断,而RAID及数据备份技术恰恰就不能解决避免服务中断的问题。 要恢复服务器,再轻微的问题或者强悍的技术支持,服务器都要中断一段时间,对于一些需要随时实时在线的用户而言,丢失邮件就等于丢失金钱,损失可大可小,这类用户是很难忍受服务中断的。因此,就需要通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。 3. 实现方案 双机热备有两种实现模式,一种是基于共享的存储设备的方式,另一种是没有共享的存储设备的方式,一般称为纯软件方式。 1)基于共享的存储设备的方式 基于存储共享的双机热备是双机热备的最标准方案。对于这种方式,采用两台服务器(邮件系统同时运行在两台服务器上),使用共享的存储设备磁盘阵列(邮件系统的数据都存

HP服务器型号

1. HP ProLiant DL 服务器 2. HP ProLiant ML 服务器 3.HP ProLiant BL 刀片式服务器 (HP Blade System 刀片服务器系统) 其中DL服务器就是机柜式服务器,ML服务器是塔式服务器,BL既刀片 服务器. 惠普服务器的型号一般为DL(or ML or BL)字母+数字 如ML110 中ML为机型是塔式服务器 110为机器编号后面再开发的为 G2,再开发为G3如此类推,既第2代,第3代. 如DL 380 G4 中DL为机柜式服务器 380为机器编号 G4为基于DL380开发的第四代服务器. 惠普的每个产品都有相对应的商品编码:一般类似为 417453-AA1(此 为DL 380 G5 服务器的编码). 而根据主板平台即CPU的不同分为Intel平台和AMD平台,在命名上 的差别就体现在命名的最后一位。 Intel平台服务器使用尾数为0的命名方式,而AMD平台则尾数为5. 如ML110与ML115的区别就在于主板平台的不同。 同样DL160与DL165, DL180与DL185都有着这样的区别。 惠普服务器分类 1.HP ProLiant 系列服务器 » HP ProLiant DL 机架服务器 » HP ProLiant ML 塔式服务器 » HP Proliant BL 刀片服务器系统 2.HP Integrity 动能服务器 » HP Integrity入门级服务器 » HP Integrity中高端服务器 » HP Integrity高端服务器 » HP Integrity BL 刀片服务器 3.HP Integrity NonStop 容错服务器 » HP 9000服务器 » 电信级服务器 4.按操作系统分类 » x86 » HP-UX 11i » Intel® Itanium® 2 » Windows® » PA-RISC » Linux » Alpha » OpenVMS » NonStop OS » Tru64 UNIX 5.按处理器类型分类

数据中心双机备份系统解决方案

数据中心双机备份系统解决方案 [导读]与数据库联系密切的共享内存和异步 I/O 专门进行了调整,在此平台之上建立数据库的应用可以得到超乎寻常的性能。 应用摘要 对于企业用户来说,多种服务都是建立在数据库基础之上的,大型www 服务器和邮件服务器都必须通过与数据库的连接来提供更强大的服务,也便于提供高级信息内容管理解决方案,利于实现最有效的信息存储、管理和分享。通过使用数据库可以集中地存储、管理和使用信息内容、把数据整合到几个服务器上以便于及时地发布,同时也可以减少信息技术费用,减低复杂性。选择一个好的操作系统平台和数据库平台是ISP/ICP 能够提供高质量服务的关键。 应用领域 通用 方案内容 基于 Turbolinux 的TurboHA 双机容错解决方案: Turbolinux TDS Server 是面向建立数据库应用而开发的高性能网络操作系统平台,其设计的目标是提供一个高性能、高稳定性的操作系统平台,系统针对数据库平台进行了全面的优化,对核心系统进行了专门的定制开发,所有核心参数的设置都是基于运行数据库系统而进行考虑,使其与Turbolinux Server 6.0 无缝的连接在一起,充分发挥其优越的性能。 与数据库联系密切的共享内存和异步 I/O 专门进行了调整,在此平台之上建立数据库的应用可以得到超乎寻常的性能。TDS 全面捆绑了 Oracle 的数据库产品 Oracle 8i ,使数据库的安装不再成为困难,用户可以在进行操作系统安装时就可以同时进行数据库的安装,用户只需选择是否安装数据库就可以完成复杂的数据库安装工作,减少现场工程师的技术支持费用。整个操作系统和数据库捆绑在一起的费用非常低,而高性能的配置能提升整个系统的性能。 TurboHA 通过装在两个服务器中的双机热备份系统软件,使系统具有在线容错的能力,即当处于工作状态的服务器无法正常工作时,通过双机系统容错软件,使处于守候监护状态的另一台服务器迅速接管不正常服务器上的业务程序及数据资料,使得网络用户的业务交易正常运行,保证交易数据的完整一致性及交易业务的高可靠性。 TurboHA 采用容错软件与磁盘阵列结合的解决方案,达到监控所有的软硬件的资源操作,并且具有自动处理一些错误的功能。 TurboHA 能够管理两台Linux 服务器,并提供两种工作模式。 TurboHA 采用的双服务器采用TCP/IP 网络协议和用户连接。双机后台对于客户─服务器网络用户透明。 TurboHA 提供一个逻辑的IP Address,任一用户上网只需要用到这一地址;当后台有一台服务器出现故障时,另外一台服务器会自动将其网卡的 IP Address 替换为170.200.80.99; 这样,用户一端的网络不会因为一台服务器出现故障而断掉。对于数据库,当有一台服务器出现故障时,另外一台服务器会自动接管数据库engine ;同时激活数据库和应用程序,便用户数据库可以继续操作,对用户而言不受影响。 TurboHA 内部含有SCSI 侦测心跳及网络侦测心跳两条通讯线路,可靠安全。监控的对象资源包括数据库运行状态、应用程序。当系统确认需要切换时,TurboHA 在尽可能短的时间内完成安全切换,并对其切换过程提供动态监测、显示,同时为用户提出排除故障的操作提示。

重大关键技术

2016年省重点研发计划(重大关键技术) 指南 为深入贯彻创新、协调、绿色、开放、共享发展理念,围绕全省“十三五”发展规划要求,发布2016年省重点研发计划(重大关键技术)指南。 一、信息技术领域 围绕高性能电子功能材料、行业专用集成电路芯片、高端电子信息装备、基础软件、信息安全等5个重点技术方向开展关键技术研发,推进全省信息产业领域创新链与产业链的深度契合,实现全产业链关键环节重要产品的国产化替代,提升我省电子信息产业核心竞争力,保障信息安全。 1、高性能电子功能材料关键技术 研究内容:实现高端电子器件基础材料的技术突破。重点开展超细粉体技术、电子纤维微张力控制、新型后处理工艺及浸润剂配方、高压水枪开纤技术等高性能电子功能材料加工制备关键技术研究。 预期目标:电子功能材料性能达到或超过国外同类产品技术水平,满足超大规模集成电路、超薄覆铜板、陶瓷电容器、绝缘栅双极型晶体管等高性能电子元器件的质量与性能要求,实现电子功能材料的规模化生产和国产替代。

2、行业专用集成电路芯片关键技术 研究内容:实现专用集成电路设计、测试、封装等重点环节关键技术突破。重点开展软硬件逻辑模块复用、高安全性加密算法可重构IP核、Java虚拟机及Applet应用自主芯片等关键技术研发,实现存储器、无线射频、智能卡芯片、图像传感器、光电传感器等集成电路芯片自主设计目标。 预期目标:专用芯片及器件产品实现在通信、金融、社保、物流、特种设备管理、安全管控等行业中的规模化应用和国产替代。 3、高端电子信息装备关键技术 研究内容:掌握并实现高端信息装备核心技术突破。重点开展体系结构设计、异构众核内存计算和交换加速技术、高速IO存取、恒流充电式脉冲调制器和大功率扫描系统等关键技术研发,推动产业可持续发展。 预期目标:研制新一代高端容错服务器、高能工业电子加速器、微波成像雷达等高端电子信息整套装备并形成技术标准,实现在部分重要领域高端信息装备国产替代。 4、基础软件关键技术 研究内容:实现基础软件核心技术突破。实现云数据中心虚拟化、轻量多层容器管理、资源调度和应用敏捷迁移、自适应动态负载平衡、交互式处理、并行处理分析和大数据隐私保护等关键技术突破。重点开展新一代融合架构的云数

RoseMirrorHA镜像服务器双机热备解决方案及具体配置

RoseMirrorHA镜像服务器双机热备解决方

案及具体配置 . 一、双机热备拓扑图以及工作原理 专业资料Word .

双机热备工作示意图 二、双机热备方案介绍操作系统和应用程序是安装在两台服务器的本地系统盘在高可用性方案中,数据的集磁盘阵列集中管理和数据备份的。上的,而整个网络系统的数据是通过将所有站点的数据直接从中央存储设备来读取和中管理是通过双机热备份系统,用户的数极大地保护了数据的安全性和保密性。存储,并由专业人员进行管理,备机主动替代主机工在一台服务器出现故障时,据存放在外接共享磁盘阵列中,作,保证网络服务不间断。 心双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“,指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系”跳统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者是备用系统双机软件无法收到主机系统的“心跳”信号,则系统的高可用性管理软件(专业资料 Word .

RoseHA)认为主机系统发生故障,立即令主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。 双机备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍: 双机热备模式即目前通常所说的active/standby 方式,active服务器?处于工作状态;而standby服务器处于监控准备状态。当active服务器出现故障的时候,通过软件诊测或手工方式将standby机器激活,保证应用在短时间内完全恢复正常使用。这是目前最理想的一种模式。 双机互备模式,是两个相对独立的应用在两台机器同时运行,但彼此均?设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性,但对服务器的性能要求比较高。服务器配置相对要好。 双机双工模式: 是目前Cluster(集群)的一种形式,两台服务器均为?活动状态,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份。WEB服务器或FTP服务器等用此种方式比较多。 双机热备有两种实现模式,一种是基于共享的存储设备的方式,另一种是没有共享的存储设备的方式,一般称为纯软件方式,低成本模式。 基于存储共享的双机热备是双机热备的最标准方案。这种方式采用两台服务器,使用共享的存储设备(磁盘阵列柜或存储区域网SAN)。两台服务器可以采用热备(主从)、互备、双工(并行)等不同的方式。在工作过程中,两台服专业资料 Word .

冗余设计与容错设计

冗余设计与容错设计 1.冗余与容错的概念 提高产品可靠性的措施大体上可以分为两类:第一类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。而冗余是实现产品容 错的一种重要手段。

“容错(fault tolerance)”定义:系统或程序在出 现特定的故障情况下,能继续正确运行的能力。“冗余(redundancy)”定义:用多于一种的途径来完成一 个规定功能。“容错”反映了产品或系统在发生故障情 况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。严格地说,冗余属于容错设计范畴。 从原理上讲,冗余作为容错设计的重要手段,其实施流 程和原则也同样适用与其他容错设计活动。

2.冗余设计 2.1.目的 冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象 (a) 通过提高质量和基本可靠性等方法不能满足任务可靠性 要求的功能通道或产品组成单元; (b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元; (c)影响任务成败的可靠性关键项目和薄弱环节; (d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目; (e)其他在设计中需要采用冗余设计的功能通道或产品组 成单元。

服务器双机热备解决方案

最新服务器双机热备解 决方案 -CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

服务器双机热备解决方案

前言 数据信息是当今社会进步、发展的关键。面对日益庞大的计算机网络,用户的要求是网络能够可靠、高速、稳定地运行。当前大部分网络服务都是采用中心服务器的模式(只有一台服务器),服务器的高可靠性、高可用性是网络安全运行的关键,一旦服务器出现故障,所提供的服务就会被中断,影响正常工作,并可能丢失关键数据,从而造成严重后果。无论对企业的有形和无形资产都带来不必要的损失。如何在故障情况下尽快恢复使用并保证数据的安全,已经成为一个日渐突出的问题。服务器双机热备份技术正是解决由软硬件故障引起可靠性降低的有效措施,该技术较为成熟,成本相对较低,具有安装维护简单、稳定可靠、监测直观等优点,在网络保障中获得了广泛的应用。 一、双机热备阐述 什么是双机热备 所谓双机热备份,概况地说,就是用网络两台服务器连接起来,平时互相备份,共同执行同一服务。当一台服务器停机时,可以由双机中的另一台服务器自动将停机服务器的业务接管,从而在不需要人工干预的情况下,保证系统能持续提供服务。 什么时候需要双机热备呢 一般服务器要长年累月(7 X 24 小时)不间断工作,其备份工作就绝对少不了。所以,决定是否使用双机热备,应首先对系统的重要性,以及终端用户对服务中断的容忍程度进行考虑,然后再来决定是否使用双机热备。比如网络中的用户最多能容忍多长时间恢复服务如果服务不能很快恢复会造成什么样的后果等等。

二、双机热备拓扑图以及工作原理 双机热备工作示意图

HP服务器双机热备方案

H P服务器双机热备 方 案 书

1.方案设计 双机热备份方案它需要两台服务器进行群集,通常是同一型号的。至少两块网卡,分别用于两台服务器与局域网的连接。有两卡H B A 卡用于服务器主机集群与磁盘存储连接.整个双机热备份系统中,两台服务器的操作系统各自安装在两台服务器的本地存储系统中,只是需要共享的数据,如数据软件和数据文档等,就需要存放在共用的磁盘阵列中。 此方案提供了两台H P P r o L i a n t 服务器通过 R O S E H A 软件双机热备,将数据存储在H P M o d u l a r S m a r t A r r a y 2000存储阵列上, H P u l t r i u m (傲群) 460磁带机与核心交换机相连,进行数据备份,其设计如下: 1.1 系统结构拓朴图 磁盘阵列备份模式示意图 1.2解决方案 ? 2台核心业务服务器:H P P r o L i a n t 系列服务器 ? 磁盘阵列:M o d u l a r S m a r t A r r a y 2000s a ? 双机热备软件: R O S E -H A ? 备份磁带机:H P StorageWorks 1/8 G2 Tape Autoloader Hp 服务器 Hp 服务器

2.产品选型 2.1 HP DL380 G5(机架式) 特性: 机箱尺寸比较小巧,在机柜中可以同时放置多台服务器,从而获得更高的处理能力。同时DL系列服务器由于机箱尺寸比较小,所以在设计上已经将许多服务器特性包含进去,例如集成的阵列卡、冗余的网卡配置、远程的管理功能等。对于需要较大数据存储的应用,可以选择外置扩展存储来满足海量存储的需求。DL 系列服务器比较适合在企业的数据中心以及企业具有多种应用系统的环境下使用,对于关键性业务,集群系统DL系列服务器也是首选机型。 HP ML370 G5(塔式) 特性: 通过转换支架可转化成机架式的服务器,ML系列服务器具有较大的机箱尺寸,因此其内部扩展能力较强,可以安装的扩展板卡以及硬盘的数量都比较多,因此,当用户应用不断递增时,通过添加组件方式提升服务器的处理能力,从而可以有效的满足用户需求的增长,并保护了用户的投资。ML系列服务器具备有很好的可用性,可以支持多种冗余组件的扩充,避免因为某些组件的故障导致系统宕机。所以这个系列服务器适应范围极广,从低端入门级服务器一直到高端的企业级服务器都有,即可以满足小型企业文件存储与打印的需求,也可以为大型企业运行中心数据库应用。

对容错服务器的正确理解

被误读的NEC容错服务器 误读一:容错很好很昂贵 由于容错服务器采用的是硬件全冗余的技术,而且在两套硬件之间还通过独立芯片和软件保证故障时零时间切换,因而其价格要比同规格的PC服务器高出许多。 更为典型的一个用户反馈是:NEC容错服务器产品很好,可用性很高,但是不是像IBM的z系列和HP的NonStop系列动辄都是百万美元? 从上述两种态度可以看出中国用户对容错的应用定位尚属模糊。根据IDC 数据,广义概念上的容错市场约占整个服务器市场的4%,包括IBM的System z、HP的NonStop和NEC的Santa Clara、Express 5800/ft以及Stratus的ftServer 6200,前三者为传统大型主机,后二者为容错服务器。显而易见,这一市场面对的是属于中高端的窄众用户。 而了解上述用户特征后自然明白,容错所谓的昂贵其实纯属误读:如果只需要进行基础IT建设的成长型企业,完全可以采用普通的塔式和机架式服务器,而不必使用容错产品;如果是需要高可用性的中高端用户,那么容错服务器相对大型主机而言,其实相当便宜。以NEC的容错服务器Express 5800/ft为例,目前最低配置的成本甚至已经与同规格的双机热备方案相当。 误读二:虚拟化取代容错 随着用户对计算资源利用率、灵活调度的高度渴求,导致近几年来虚拟技术在PC服务器上快速增长,VMware、Citrix等技术供应商也迅速走红,由此也产生了这样一种观念:虚拟万能,即通过虚拟就能实现计算资源的灵活配置、调度并保证故障时的自动迁移。 虚拟化真是万灵丹吗?显然不是。从硬件架构的层次上看,虚拟层位于底层硬件之上,只能解决虚拟机及其应用的故障迁移。如果是底层硬件故障,诸如主板故障、电源故障、CPU损坏等,虚拟技术是无能为力的。 随着虚拟化技术的普及,容错服务器会变得越来越重要。因为当物理机宕掉的时候,它会影响运行在其上的虚拟机,所以越是依赖虚拟技术的用户越需要保证底层硬件的高可用。 误读三:容错使用很复杂 对于使用过大型主机和双机热备等高可用方案的用户来说,配置及管理系统绝对是一个技术上的考验。这也使得一些用户产生了“高可用等于高复杂”的观点。

stratus ftserver 2700 容错服务器 说明书

容错服务器ftServer2700/4700/640 0操作与维护指南

第一部分系统概览 系统特征 Stratus ftServer2700、4700和6400系统包含冗余的组件,他们同时处理相同的指令(锁步技术)。如果其中一个组件出现错误,它的冗余组件将会继续工作,消除系统停机时间和数据丢失。 Stratus故障安全软件为时钟同步技术增加了一个安全层,阻止许多因为停机或者断电所引起的软件错误。软件问题被捕获、分析,报告给Stratus,允许技术支持人员在软件问题出现之前准确定位出错处。Stratus 的强化的设备驱动更加的增强了在ftServer系统上的操作系统的可靠性。 Stratus ActiveService Network(ASN)提供可选的远程服务和Stratus Customer Assistance Center(CAC)的系统事件管理或者你的授权的Stratus服务代理商。 很多ftServer系统的组件是用户可更换单元(CRU),允许最少的培训或工具的现场人员进行简单移除和替换故障组件。 系统图释 每个ftServer2700,4700和6400系统都是安装在机架上的,包括底盘和两个CPU-I/O模块,前端面板由一个DVD驱动和USB口组装成,黑色的面板是由一个可选的连接到ASN网络的调制解调器组成,整个机器还包括一些外围组件。 ftServer2700,4700和6400系统分别为下列配置: ●ftServer2700系统:单路四核处理器 ●ftServer4700系统:双路四核处理器 ●ftServer6400系统:双路八核处理器 注意··················································· 在ftServer2700系统中,在second插槽中仍然有散热片以便气流通畅。 图1-1展示ftServer2700,4700和6400系统包含宝石切面外科的前置外观。在宝石切面外 壳的右上边有四个灯管,当外壳被安装的时候它们提供了系统状态等的显示信息。

RoseMirrorHA镜像服务器双机热备解决方案及具体配置

RoseMirrorHA镜像服务器双机热备解决方案 及具体配置

一、双机热备拓扑图以及工作原理

双机热备工作示意图 二、双机热备方案介绍 在高可用性方案中,操作系统和应用程序是安装在两台服务器的本地系统盘上的,而整个网络系统的数据是通过磁盘阵列集中管理和数据备份的。数据的集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备来读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。 双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者是备用系统无法收到主机系统的“心跳”信号,则系统的高可用性管理软件(双机软件RoseHA)认为主机系统发生故障,立即令主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。

双机备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍: ?双机热备模式即目前通常所说的active/standby 方式,active服务器处于工作状态;而standby服务器处于监控准备状态。当active服务器出现故障的时候,通过软件诊测或手工方式将standby机器激活,保证应用在短时间内完全恢复正常使用。这是目前最理想的一种模式。 ?双机互备模式,是两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性,但对服务器的性能要求比较高。服务器配置相对要好。 ?双机双工模式 : 是目前Cluster(集群)的一种形式,两台服务器均为活动状态,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份。WEB服务器或FTP服务器等用此种方式比较多。 双机热备有两种实现模式,一种是基于共享的存储设备的方式,另一种是没有共享的存储设备的方式,一般称为纯软件方式,低成本模式。 基于存储共享的双机热备是双机热备的最标准方案。这种方式采用两台服务器,使用共享的存储设备(磁盘阵列柜或存储区域网SAN)。两台服务器可以采用热备(主从)、互备、双工(并行)等不同的方式。在工作过程中,两台服务器将以一个虚拟的IP地址对外提供服务,依工作方式的不同,将服务请求发送给其中一台服务器承担。同时,服务器通过心跳线(目前往往采用建立私有网络的方式)侦测另一台服务器的工作状况。当一台服务器出现故障时,另一台服务器根据心跳侦测的情况做出判断,并进行切换,接管服务。对于用户而言,这一过程是全自动的,在很短时间内完成,从而对业务不会造成影响。由于使用共享的存储设备,因此两台服务器使用的实际上是一样的数据,由双机或集群软件对其进行管理。

容错服务器技术vs双机冗余

容错服务器技术vs双机冗余 2009-05-21 来自:网界网作者:宋家雨收藏 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术

2+2模式文件服务器双机备份方案

2+2模式文件系统双机备份方案 一、客户面临的问题 1、由于传统的群集解决方案多采用“2+1”的模式,这个为了在两台服务器之间 共享数据存储而存在的独立磁盘阵列往往就成为了核心系统的一个单点故障点,一旦磁盘阵列发生故障,则整个系统将发生停机,作为7×24营业的医院来说,这种意外的停机是无法忍受的; 2、很多用户往往有这样的误解——既然我的系统已经是“双机热备份”了,那 么,我的数据也不需要备份了。正因为有这样的误解存在,很多用户往往忽视了数据备份的重要性,整个系统只有磁盘阵列中的一份数据,等到由于磁盘阵列发生故障导致数据丢失的时候,才发现悔之晚矣! 3、目前国内的医院用户大多数还没有认识到“容灾”的必要性,系统建设的时 候,对数据和应用的容灾考虑得非常少,一旦发生火灾、地震等灾难性事故,整个系统将毁于一旦,数据将一去不复返,医院将遭受无法估量的巨大损失。 二、方案功能与优势 a)采用“2+2”群集模式(两台服务器+两台磁盘阵列),解决了传统“2+1” 群集模式(两台服务器+一台磁盘阵列)的单点故障问题; b)采用双磁盘阵列模式,大大提高了数据可用性; c)利用先进的SAN架构,提供了优秀的LAN-free备份功能以及良好的可 扩展性; d)通过结合光缆布线系统,实现了园区范围内的应用容灾功能。

三、IT系统架构图 在该方案中,IBM提供了全套的硬件系统,包括服务器,存储设备,光纤交换机和磁带库设备。 IBM x445是基于IBM EXA架构的服务器系统,单一结点的x445服务器具有高运算性能,高可靠性,高可扩展性的特点。X445的设计特点是其更适合于运行在SAN的环境中。两块本地硬盘可以安装操作系统和应用,数据可以安装在SAN存储环境中。整个方案的设计从服务器到存储网络都具有高可靠性的特征,由于采用基于Intel处理器的x445作为计算结点,使整个系统成为具有高性价比,高可靠性的解决方案。 四、促销方案 五、成功案例 作为重庆市规模最大的医院之一,重庆医科大学附属第一医院,同时也是增长最快的医院,在西南地区,乃至全国都具有相当的影响力。 医院在信息系统建设方面非常重视。随着全国医疗信息化的不断展开,重庆医科

双机热备份和单机容错技术的比较

目前主流应用的服务器容错技术有三类,它们分别是:服务器群集技术、双机热备份技术和单机容错技术。它们各自所对应的容错级别是从低到高的,也就是说服务器群集技术容错级别最低,而单机容错技术级别最高。由此可知它们各自应用的行业容错级别需求也是从低到高的。本文主要介绍后两种容错技术,先来看一下双机热备份容错技术。 一、双机热备份技术 双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜(也可没有,而是在各自的服务器中采取RAID卡)及相应的双机热备份软件组成,如图1所示。 图1(点击看大图) 在这个容错方案中,操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据是通过磁盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。 双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳” 信号,则系统的高可用性管理软件认为主机系统发生故障,主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。 双机热备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍。 双机热备模式即目前通常所说的active/standby 方式,active服务器处于

服务器双机热备方案

双机热备方案 双机热备针对的是服务器的临时故障所做的一种备份技术,通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。 1.集群技术 在了解双机热备之前,我们先了解什么是集群技术。 集群(Cluster)技术是指一组相互独立的计算机,利用高速通信网络组成一个计算机系统,每个群集节点(即集群中的每台计算机)都是运行其自己进程的一个独立服务器。这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统,协同起来向用户提供应用程序、系统资源和数据,并以单一系统的模式加以管理。一个客户端(Client)与集群相互作用时,集群像是一个独立的服务器。计算机集群技术的出发点是为了提供更高的可用性、可管理性、可伸缩性的计算机系统。一个集群包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域网相互通信。当一个节点发生故障时,它所运行的应用程序将由其他节点自动接管。 其中,只有两个节点的高可用集群又称为双机热备,即使用两台服务器互相备份。当一台服务器出现故障时,可由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续对外提供服务。可见,双机热备是集群技术中最简单的一种。 2. 双机热备适用对象 一般邮件服务器是要长年累月工作的,且为了工作上需要,其邮件备份工作就绝对少不了。有些企业为了避免服务器故障产生数据丢失等现象,都会采用RAID 技术和数据备份技术。但是数据备份只能解决系统出现问题后的恢复;而RAID

技术,又只能解决硬盘的问题。我们知道,无论是硬件还是软件问题,都会造成邮件服务的中断,而RAID及数据备份技术恰恰就不能解决避免服务中断的问题。 要恢复服务器,再轻微的问题或者强悍的技术支持,服务器都要中断一段时间,对于一些需要随时实时在线的用户而言,丢失邮件就等于丢失金钱,损失可大可小,这类用户是很难忍受服务中断的。因此,就需要通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。 3. 实现方案 双机热备有两种实现模式,一种是基于共享的存储设备的方式,另一种是没有共享的存储设备的方式,一般称为纯软件方式。 1)基于共享的存储设备的方式 基于存储共享的双机热备是双机热备的最标准方案。对于这种方式,采用两台服务器(邮件系统同时运行在两台服务器上),使用共享的存储设备磁盘阵列(邮件系统的数据都存放在该磁盘阵列中)。两台服务器可以采用互备、主从、并行等不同的方式。在工作过程中,两台服务器将以一个虚拟的IP地址对外提供服务,依工作方式的不同,将服务请求发送给其中一台服务器承担。同时,服务器

容错控制简介

1.2容错技术简介 容错控制及其系统组成 容错控制的发展及研究现状 1.2.1容错控制的概念和任务 容错概念最初来源于计算机系统设计领域,是指系统内部环节发生局部故障或失效情况下,计算机系统仍能继续正常运行的一种特性。后来人们逐渐把容错的概念引入到控制系统,这样人们虽然无法保证控制系统每个环节的绝对可靠,但是构成容错控制系统后,可以使系统中的各个故障因素对控制性能的影响被显著削弱,从而间接地提高了控制系统的可靠性。特别是控制系统的重要部件的可靠度未知时,容错技术更是在系统设计阶段保证系统可靠性的必要手段。 容错控制的指导思想是在基于一个控制系统迟早会发生故障的前提下,在设计控制系统初期时就将可能发生的故障对系统的稳定性及静态和动态性能影响考虑在内。最简单的情况,如果传感器或执行器发生故障,在故障后不改变控制律的情况下,如何来维持系统的稳定性就是控制器设计过程中值得注意的问题。在容错控制技术中,这种问题属于完整性控制的范畴。 在某种程度上,容错控制系统是指具有内部冗余(硬件冗余、解析冗余、功能冗余和参数冗余等)能力的控制系统,即在某些部件(执行器、传感器或元部件)发生故障的情况下,闭环系统仍然能保持稳定,并在原定性能指标或性能指标有所降低但可接受的条件下,安全地完成控制任务,并具有较理想的特性。动态系统的容错控制是伴随着基于解析冗余的故障诊断技术的发展而发展起来的。 1.2.2容错控制的现状研究 容错控制系统的基本结构为:传感器、故障检测与诊断子系统、执行器和控制器。其中,故障检测与诊断子系统能够对控制系统进行实时故障监测与辨识等;控制器则根据故障诊断信息作出相应的处理,实施新的容错控制策略,保证系统在故障状态下仍能获得良好的控制效果。在实际控制系统中,各个基本环节都有可能发生故障。 容错控制系统有多种分类方法,如按系统分为线性系统容错控制和非线性系统容错控制,确定性系统容错控制和随机系统容错控制等;按克服故障部件分类为执行器故障容错控制,传感器故障容错控制,控制器故障容错控制和部件故障容错控制等;按控制对象不同分为基于硬件冗余和解析冗余的容错控制分类。一般,为了全面反映容错控制系统的特性,常将上述各种分类方法组合运用。 1.硬件冗余方法 硬件冗余是指对系统的重要部件及易发生故障部件设置各种备份,当系统内某部件发生故障时,对故障部分进行隔离或自动更换,使系统正常工作不受故障元器件的影响,保证系统的容错性能。硬件冗余方法根据备份部件是否参与系统工作可分为静态硬件冗余和动态硬件冗余。 l)静态硬件冗余:并联多个相同的组件,当其中某几个发生故障时并不影响其它组件的正常工作。 2)动态硬件冗余:在系统中不接入备份组件,只有在原组件发生故障后,才把输入和输出端转接到备份组件上来,同时切断故障组件的输入和输出端,即运行模块的失效,备用模块代替运行模块工作。系统应该具有自动发现故障的能力与自动转接设备。 硬件冗余方法可以用于任何硬件环节失效的容错控制,建立起来的控制系统将具有较强

相关主题
文本预览
相关文档 最新文档