当前位置：文档之家› 容错服务器同集群技术的比较-海得控制

容错服务器同集群技术的比较-海得控制

容错服务器同集群技术的比较

上海海得控制系统股份有限公司系统事业部

?技术原理：

Stratus的容错服务器所采用专利的硬件Lockstep（锁步）技术，系统保持多CPU/内存单元在精确的同步状态——同一时钟周期执行相同的指令。Lockstep能够确保包括瞬时错误在内的任何错误都不会影响到系统运行，系统可以在任何CPU/内存单元，或IO单元发生错误的情况下不丢失动态数据或状态，也不需产生中断进行错误处理。因此容错服务器避免了一主一备的双机集群所产生的故障切换和恢复时间，以及该过程中和动态数据的丢失。集群的这种切换由于是建立在软件的基础上，随着数据库越来越大，应用的复杂性，切换时间可以从几分钟甚至几十分钟，切换时间内的实时数据将随之无法重新采集，对外服务停止。

?系统结构：

容错服务器采用的是部件级别的冗余，即主机内部有冗余的CPU部件和I/O部件，同时CPU部件和I/O部件交叉通讯（如图），用部件冗余的方式消除了系统内部包括CPU，内存、I/O控制设备以及硬盘（RAID1）甚至底板的单点故障。而集群方案仅仅是系统级别（即服务器级别）的冗余，而且严格意义上必须配置两个镜像的外置磁盘阵列柜，才能真正意义从物理结构上消除系统和存储的单点故障，但整个系统依然在连接两台服务器的心跳线上存在切换的单点故障。另外，这种物理上的系统级别冗余还必须依靠脚本程序的设计和集群的实施水平，容错服务器也避免了这种无法确定的人为因素。

?系统可靠性：

容错的可靠性级别完全符合业界对容错服务器99.999%可靠性指标的要求，这种服务器可靠性指标要求系统包括操作系统之内的年平均计划外停机时间必须小于5分钟，而Stratus多年来的实测证明， Windows平台下的容错服务器甚至达到99.9997%的可靠性，平均每年非计划外的停机时间小于3分钟。这种实测数据包括了操作系统和其他软件的因素，从某种程度上说明，Windows平台的容错服务器的可靠性甚至超过了任何UNIX操作系统平台下的服务器。而且从业界对集群技术的可靠性指标分析来讲，集群的可靠性指标通常只能达到99.9%--99.99%，即集群只能保证系统的每年平均计划外停机时间在8小时到53分钟，而且无法对单个集群系统进行可靠性预测。

?数据可靠性（内存动态数据）：

同集群技术相比，容错服务器简化了整个系统的结构，在数据容量要求不高的情况下（400*3GB 以内），避免了使用集群技术所必须的外置式共享存储柜，减少了系统的故障点。而且容错服务器在数据存储的设计上完全采用安全性最高的RAID 1镜像保护，在设计上只在数据写入硬盘之后，系统才认为完成一次真正的写操作，保证数据的完整性和安全性。而采用具有高容量缓存的硬RAID的技术，一旦RAID卡出现故障，没有写入硬盘、驻留在缓存中的数据存在丢失的可能。容错服务器独特的冗余硬

件结构不但保证磁盘静态数据的完整性，而且保证内存数据的完整性。从而保证数据的完整一致性。而集群一旦出现主机故障，其CPU、内存、缓存中的所有动态数据将无法复制到备机中，只能通过重新计算甚至花费大量时间来恢复。Stratus采用ftMemory功能能保存系统崩溃和重启动前指定区域的内存数据，保证动态数据的完整性。

?故障容忍范围：

计算机故障可以分为永久故障和瞬间故障，容错服务器无论对永久故障还是瞬间故障，都能利用内置的逻辑比较线路和原理，自动采取自我检测、故障定位和故障自动隔离来消除故障，而不停止对外的服务。普通服务器没有容忍故障的功能，无论是永久故障还是瞬间故障都会对其造成致命的崩溃，而采用集群的方式，也只能治标不治本，它是放弃了对故障的避免设计，而采取故障后恢复的设计。

?单软件映像：

容错服务器虽然是部件级冗余，系统内部有双重或者三重的冗余部件，但从软件角度上来看，它是单软件映像的，也就是说任何单机上开发的软件可以无缝移植到容错服务器上，而不需要进行任何代码修改和二次开发。对用户来讲，容错服务器就如同在单机上配置一样简单，用户开发管理非常方便，只需要把在单机上经过开发和测试的软件，移植到容错服务器上就可以。这种单软件映像，避免了集群系统上对软件做任何修改必须在两台服务器上作升级，也可能必须对集群软件进行脚本程序的重新编译，更重要的是必须经过多次不同模拟故障情况下的双机切换测试，而且这种故障模拟又是非常困难和难以周全的。因此，容错服务器单软件映像不但节省了系统的软件购买成本，而且相比集群技术，大大降低了软件开发、升级所需要的无法估计的高成本。容错服务器的单软件映像，不但简化系统的软件，提高软件的稳定性，而且使得系统的安装调试的时间大大降低，可以保证系统按时在最短的时间内投产；而一旦系统正常运行投入生产后，容错服务器又可以大大减少系统在软件升级或开发上所造成的计划停机时间。

?操作系统可靠性：

Stratus ftServer利用其独特的冗余结构和容错技术，改进和完善了Windows操作系统的可靠性和稳定性，包括驱动程序的强化，在线转存功能，所有部件热插拔驱动功能，快速重启动功能等等。

?热插拔功能：

容错计算机的重要部件是双份甚至三份冗余，并且是全双工同步运行，而且模块化设计。这使得容错计算机的所有部件均具备热插拔的功能，从而轻易实现容错计算机的在线恢复和在线升级等操作。换言之，我们对比普通服务器（即使在集群系统内的服务器也只是普通服务器），它们内部能够支持热插拔的部件只可能是冗余电源，硬盘，冗余风扇，有些可以在某些特定操作下对I/O板卡进行热插拔和热更换。但容错服务器的容错技术，保证系统任何部件出现故障，均可以在线热插拔和热更换：CPU、内存、电源、风扇、硬盘、I/O设备控制卡、网卡、主板上任何元器件甚至底板本身，均可在线更换和升级，而且一旦更换或增加完毕，操作系统会自动加载这些部件板，而所有这些操作对用户是完全透明的，用户完全可以通过更换模块来简单操作并且不需要经过专门的技术培训。值得特别提出的是，这种热插拔及在线升档是在运行系统的连续运行状态下进行的，对在用系统无任何影响。而集群结构的服务器通常在出现任何电源、风扇和硬盘以外的任何形式的硬件故障均需将应用短期中断或者进行把系统和应用从主机向备机切换，中断时间的长短视系统规模及结构的复

杂程度而定，可能从十几秒到几小时不等。而且一旦出现切换（大部分会导致发生切换），当故障机器修复后，集群技术设计原理又会使系统进行第二次切换----系统又必须从备机切换回到修复的主机上，这时所谓服务器的这些有限部件的热插拔功能并不能体现对系统任何益处。

容错服务器硬件冗余的优势

1、可维护性：

Stratus的容错系统将系统部件的区分为三种类型。客户可更换单元（CRU），分销商可更换单元（DRU）以及Stratus现场可更换单元（FRU）。这三种部件分别依掌握的技术而定。一台Stratus容错系统中大部分为CRU。如CPU/MEM,IO，DISK,网卡，电源等。绝大多数部件都有相对应的指示灯来明确提示用户当前工作状态。对有故障提示的部件，用户可在线自行更换的部件。而这些部件更换后的恢复也非常简单，多为自动加载（如CPU/MEM,IO），或少数仅需要简单的鼠标操作就能完成(如指定磁盘镜像)。容错服务器的这种联机更换和恢复功能，不但确保了系统的最大运行时间，也为用户带来了最好的系统可维护性。系统核心硬件的冗余能提高硬件系统的可靠性：

系统的可用性指标，即非计划停机时间是系统首要的价值所在。关键部件和关键时刻尽可能减少非计划停机时间往往是可靠性设计的重要设计原则。

世界上30大著名银行企业中,有25家使用的是容错服务器。随着容错推出支持windows操作系统的机器之后，越来越多的客户开始选择容错服务器。像秦岭终南山隧道这样亚洲第一、世界第二的大型隧道监控，并且运行效果非常好。

2、软件冗余的不完备性：

由于系统冗余涉及到系统的各类服务，如：通讯、采集等一系列的功能切换和处理。目前，尚无法证明或有完善的检测机制来保证软件切换的绝对成功。不论是集群还是容错都是为防止意外而设置的，而关键时刻的切换不成功将会导致巨大的损失。在2006年7月，上海银联的后台集群系统切换失败，使得当天全上海的银联系统陷入瘫痪7个小时，当天的交易损失非常巨大；同时，上海的复兴路隧道，采用的是集群方式，但由于软件编制的不完善，切换常常不成功，对业主的使用及维护造成了很大的麻烦及损失。

由于切换机制往往在发生故障时才起作用，而故障的状态不仅仅涉及到工程应用软件，而且包含了操作系统、数据库软件、b/s 结构等一系列的问题和实时数据的同步。由于软件系统（驱动、数据库、操作系统、应用软件、软件架构）的运行状态的随时变化和不确定性，因此，软件切换的成功与否也是不确定

的。

3、简化系统软件的复杂性：

软件系统的故障往往来源于其复杂性。由于设备的故障切换会导致通讯、数据库、应用软件、数据采集等系统的切换。由于软件故障的状态是不可模拟的，软件切换本身会要求系统中各类软件支持切换，和不同要求运行同步。同时，无法进行系统切换检测。而采用硬件容错机制后，软件的复杂性会降低，有利于系统运行稳定性的提高。

4、软件故障（bug）的处理和bug 造成的死机：

软件本的缺陷，意味着系统的隐患。软件无论装在一台或两台设备上，这种故障均有可能发生。软件子系统切换的时间较长，根据子系统大小，一般会在30s以上，但没有办法检测原因（集群结构：死机设备重新切换时内存的动态数据全部丢失）。而容错服务器在发生同样的情况时，其重新启动的时间也是30s 左右，却可以采用ftMemory功能能保存系统崩溃和重启动前指定区域的内存数据，保证动态数据的完整性保留原来的内存数据。同时,可以做到故障的追溯。

5、关于维护成本和后期服务：

容错服务器的使用使得系统冗余摒弃了对软件冗余的依赖性，最终用户对集成商的依赖也越来越少。使得后期的沟通、维护成本大为减少。由于其更高的可靠性，使得其使用寿命比集群方式更长，节省了后期的硬件开支。同时，容错服务器的销量在中国逐年快速增长，其在外高桥的保税仓库设有充足的备品备件，并有专门的服务合作伙伴及团队。是7*24小时的响应服务。

容错方案和双机热备方案的对比 2

为什么选择容错 Stratus容错服务器与双机热备方案比较

一、容错技术和集群的比较： 1、可靠性比较：

容错服务器的可靠性可达到99.999%以上，其设计原理是“容错原则---容忍错误发生，当出现任意单点故障时，不会对系统造成任何影响，系统仍然连续工作”。而集群方案的可靠性只能在99.9%~99.99%之间，其设计原理是“避错原则----当系统出现故障时，如何补救错误、避免错误进一步扩大”。 2、拓扑结构比较：计算机业界对可靠性的定义容错服务器独立服务器阵的独立服务器系统消除单点心系统结构复杂环节过多，外部连接故障发生点多系统结构简单如同单机，内部连接故障发生点少无单点故障的集群方案无单点故障的容错方案

3、软硬件架构：在系统架构中，容错服务器结构简单，且是单软件映像。 1、工作原理比较：硬软件结构复杂依赖集群软件对所有软件和硬件要求苛刻切换机制只能覆盖部分实际应用情况硬软件结构简单纯硬件容错结构对所有软件无特殊要求时钟同步，无需切换

容错方案在出现任何单点故障的情况之下系统工作状态均不会中断，且是零切换时间，进而完整的保护了静态数据及动态数据。 2、维护管理及实施比较：由于容错服务器的冗余全部是依靠硬件完成的，避免了对软件及人为因素的依赖，因此，其实施及维护非常简单、方便。 3、集群和容错软硬件可靠性实测比较： System Application Fault-Tolerant Cluster Conventional 容错方案的软硬件可靠性是最高的；集群方案虽然略微提高了硬件的可靠性，但却牺牲了软件本身的可靠性。

分布式集群技术

分布式集群技术1、Linux的介绍：Linux的发展历史、Linux和Windows的对比和优势、Linux的常见版本； 2、Linux的安装：VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程； 3、Linux的常用命令：常用命令的介绍、常用命令的使用和练习； 4、Linux编辑器：VI、VIM编辑器的介绍、常用快捷键； 5、Linux用户和组账户管理：用户的管理、组管理； 6、Linux系统文件权限管理：文件权限介绍、文件权限的操作； 7、Linux的RPM软件包管理：RPM包的介绍、RPM安装、卸载等操作 8、Linux网络：Linux网络的介绍、Linux网络的配置和维护、iptables原理和操作 9、Shell编程：Shell介绍、Shell脚本的编写 10、Linux上常见软件的安装：安装JDK、安装Tomcat、安装Eclipse 11、集群负载均衡和高可靠：Haproxy、Keepalived 12、CentOS7部分新特性介绍和使用 13、综合案例：构建互联网高并发分布式服务器集群 Hadoop离线计算1、Hadoop生态圈简介 2、Hadoop伪分布式环境搭建 3、Hadoop计算模型MapReduce例子说明 4、分布式文件系统HDFS：分布式文件系统HDFS简介、HDFS原理、HDFS上传下载数据过程和源码分析 5、分布式计算模型MapReduce：MapReduce算法原理、Shuffle过程和原理、MapReduce提交过程和源码分析、MapReduce执行过程和源码分析、MapReduce 本地debug和远程debug、MapReduce优化、MapReduce实战案例 6、分布式协调框架ZooKeeper：ZooKeepe基本概念和体系结构、ZooKeeper集群的安装、操作ZooKeeper、ZooKeeper编程API 7、Hadoop2.x集群搭建：Hadoop2.x集群结构体系介绍、Hadoop2.x集群搭建、NameNode的高可用性（HA）、HDFS Federation、ResourceManager 的高可用性（HA）、Hadoop集群常见问题和解决方法、Hadoop集群管理 8、分布式数据库Hbase：HBase定义、HBase与RDBMS的对比、数据模型、系统架构、HBase上的MapReduce、表的设计、集群的搭建过程讲解、集群的监控、集群的管理、HBase Shell以及演示、Java客户端以及代码演示 9、数据仓库Hive(使用sql进行计算的hadoop框架)：数据仓库基础知识、Hive定义、Hive体系结构简介、Hive集群、客户端简介、HiveQL定义、HiveQL与SQL 的比较、数据类型、外部表和分区表、表的操作与CLI客户端演示、数据导入与CLI 客户端演示、查询数据与CLI客户端演示、数据的连接与CLI客户端演示、用户自定义函数（UDF）的开发与演示 10、数据迁移工具Sqoop：配置Sqoop、使用Sqoop把数据从mysql导入到HDFS

存储、集群双机热备方案

存储集群双机热备方案

目录一、前言 (3) 1、公司简介 (3) 2、企业构想 (3) 3、背景资料 (4) 二、需求分析 (4) 三、方案设计 (5) 1．双机容错基本架构 (5) 2、软件容错原理 (6) 3、设计原则 (7) 4、拓扑结构图 (7) 四、方案介绍 (10) 方案一1对1数据库服务器应用 (10) 方案二CLUSTER数据库服务器应用 (11) 五、设备选型 (12) 方案1：双机热备+冷机备份 (12) 方案2：群集+负载均衡+冷机备份 (13) 六、售后服务 (15) 1、技术支持与服务 (15) 2、用户培训 (15)

一、前言 1.1、公司简介《公司名称》成立于2000年,专业从事网络安全设备营销。随着业务的迅速发展，经历了从计算机营销到综合系统集成的飞跃发展。从成立至今已完成数百个网络工程，为政府、银行、公安、交通、电信、电力等行业提供了IT相关系统集成项目项目和硬件安全产品，并取得销售思科、华为、安达通、IBM、HP、Microsoft等产品上海地区市场名列前茅的骄人业绩。《公司名称》致力于实现网络商务模式的转型。作为国内领先的联网和安全性解决方案供应商，《公司名称》对依赖网络获得战略性收益的客户一直给予密切关注。公司的客户来自全国各行各业，包括主要的网络运营商、企业、政府机构以及研究和教育机构等。《公司名称》推出的一系列互联网解决方案，提供所需的安全性和性能来支持国内大型、复杂、要求严格的关键网络，其中包括国内的20余家企事业和政府机关. 《公司名称》成立的唯一宗旨是--企业以诚信为本安全以创新为魂。今天，《公司名称》通过以下努力，帮助国内客户转变他们的网络经济模式，从而建立强大的竞争优势：（1）提出合理的解决方案，以抵御日益频繁复杂的攻击（2）利用网络应用和服务来取得市场竞争优势。（3）为客户和业务合作伙伴提供安全的定制方式来接入远程资源 1.2、企业构想《公司名称》的构想是建立一个新型公共安全网络，将互联网广泛的连接性和专用网络有保障的性能和安全性完美地结合起来。《公司名称》正与业界顶尖的合作伙伴协作，通过先进的技术和高科产品来实施这个构想。使我们和国内各大企业可通过一个新型公共网络来获得有保障的安全性能来支持高级应用。《公司名称》正在帮助客户改进关键网络的经济模式、安全性以及性能。凭借国际上要求最严格的网络所开发安全产品，《公司名称》正致力于使联网超越低价商品化连接性的境界。《公司名称》正推动国内各行业的网络转型，将今天的"尽力而为"网络改造成可靠、安全的高速网络，以满足今天和未来应用的需要。 1.3、背景资料随着计算机系统的日益庞大，应用的增多，客户要求计算机网络系统具有高可靠，高

集群系统管理

简介：本文首先对Linux高性能集群Cluster1350及其集群管理系统CSM (Cluster System Management)进行了简要的介绍，然后对CSM的体系结构进行了比较详细的剖析。一、集群一般来说，集群是指一组高性能计算机通过高速网络连接起来的，在工作中像一个统一的资源，所有节点使用单一界面的计算系统。集群技术的出现，使得使用多台PC或工作站就可获得同大型机相匹敌的计算能力，同时成本大大降低，从而在很多高性能计算领域内由集群完全取代大型机也将成为可能。广义上的集群的节点可以是任意类型的计算机，包括PC机、工作站、SMP等等，甚至是大型机。Linux集群是指一类以PC架构计算机为集群节点，以某一版本Linux操作系统为集群节点操作系统的集群。由于Linux本身具有开放源码、稳定、支持PC架构等诸多优势，以及操作系统及节点机价格的因素，Linux集群技术被认为是最具发展潜力的集群技术。回页首二、集群系统管理根据典型的集群体系结构，集群中涉及到的关键技术可以归属于四个层次：网络层、节点机及操作系统层、集群系统管理层、应用层。 ?网络层：网络互联结构、通信协议、信号技术等。 ?节点机及操作系统层：高性能PC或工作站、分层或基于微内核的操作系统等。 ?集群系统管理层：资源管理、资源调度、负载平衡、并行I/O、安全等。 ?应用层：并行程序开发环境、串行应用、并行应用等。集群技术是以上四个层次的技术有机结合，所有的相关技术虽然解决的问题不同，但都有其不可或缺的重要性。集群系统管理层是集群系统所特有的功能与技术的体现。在未来按需(On Demand)计算的时代，每个集群都应成为业务网格中的一个节点，所以自治性(自我保护、自我配置、自我优化、自我治疗)也将成为集群的一个重要特征。自治性的实现，各种应用的开发与运行，大部分直接依赖于集群的系统管理层，并且，系统管理层的完善程度，决定着集群系统的易用性、稳定性、可扩展性等诸多关键参数。正是集群管理系统将多台机器组织起来，使之可以被称为"集群"。回页首三、IBM Cluster1350，Linux高性能集群 Cluster1350是IBM公司目标定位于高性能计算市场的Linux集群，包括一套完整的解决方案，集成了众多IBM与非IBM的先进的软硬件技术，有其特有的技术优势与强大的服务支持。Cluster1350集群的体系结构如下图所示：

容错控制的研究现状

容错控制的研究现状容错控制研究的是当系统发生故障是的控制问题，因此必须首先明确故障的定义。故障可以定义为：“系统至少一个特性或参数出现较大偏差，超出了可以接受的范围，此时系统性能明显低于正常水平，难以完成系统预期的功能”[28]。而一直以来，对容错控制并没有一个明确的定义。这里给出一个比较容易理解的概念，即所谓容错控制是指当控制系统中的某些部件发生故障时，系统仍能按期望的性能指标或性能指标略有降低（但可接受）的情况下，还能安全地完成控制任务。容错控制的研究，使得提高复杂系统的安全性和可靠性成为可能。容错控制是一门新兴的交叉学科，其理论基础包括统计数学、现代控制理论、信号处理、模式识别、最优化方法、决策论等，与其息息相关的学科有故障检测与诊断、鲁棒控制、自适应控制、智能控制等。容错控制方法一般可以分成两大类，即被动容错控制(passive FTC)和主动容错控制(active FTC)。被动容错控制通常利用鲁棒控制技术使得整个闭环系统对某些确定的故障具有不敏感性，其设计不需要故障诊断，也不必进行控制重组，其一般具有固定形式的控制器结构和参数。但常常由于故障并不是经常发生的，其设计难免过于保守，并且其性能也不可能是最优的，而且一旦出现不可预知故障，系统的性能甚至稳定性都可能无法保障[29-31]。但它可以避免在主动容错控制当中由于需要检测诊断故障以及重组控制律造成的时间滞后，而这在时间要求严格的系统控制中是很重要的，因此被动容错控制在故障检测和估计阶段是必须的，它可以保证在系统切换至主动容错控制之前系统的稳定性[29-31]。主动容错控制可以对发生的故障进行主动处理，其利用获知的各种故障信息，在故障发生后重新调整控制器参数，甚至在某些情况下需要改变控制器结构。主动容错控制大多需要故障诊断（FDD）子系统，这正是其优于被动容错控制之处。Patton教授有一著名论断，即“离开了FDD单元，容错控制所能发挥的作用就会非常有限，只能对一些特殊类型的故障起到容错的作用”[20]。（1）被动容错控制被动容错控制基本思想就是在不改变控制器和系统结构的条件下，从鲁棒控制思想出发设计控制系统，使其对故障不敏感。其特点是不管故障发生不发生，它都采用不变的控制器保证闭环系统对特定的故障具有鲁棒性。因此被动容错控制不需要故障诊断单元，也就是说不需要任何实时的故障信息。从处理不同类型故障分，被动容错控制有可靠镇定、联立镇定和完整性三种类型。可靠镇定是针对控制器故障的容错控制。其研究思想始于Siljak 在1980 年[2]提出的使用多个补偿器并行镇定一个被控对象。之后一些学者又对该方法进行了深入研究[32-34]。文[32]针对单个被控对象证明了当采用两个补偿器时，能够可靠镇定的充要条件是被控对象是强可镇定的。但条件若不满足，补偿器就会出现不稳定的极点，闭环系统就不稳定；另一方面，即使条件满足并有解，如何设计这两个补偿器也是极其困难的。文[33]做了进一步研究，给出了两个动态补偿器的参数化设计方法，能够得到可靠镇定问题的解，从而部分解决了上

stratus ftserver 2700 容错服务器说明书

容错服务器ftServer2700/4700/640 0操作与维护指南

第一部分系统概览系统特征 Stratus ftServer2700、4700和6400系统包含冗余的组件，他们同时处理相同的指令（锁步技术）。如果其中一个组件出现错误，它的冗余组件将会继续工作，消除系统停机时间和数据丢失。 Stratus故障安全软件为时钟同步技术增加了一个安全层，阻止许多因为停机或者断电所引起的软件错误。软件问题被捕获、分析，报告给Stratus，允许技术支持人员在软件问题出现之前准确定位出错处。Stratus 的强化的设备驱动更加的增强了在ftServer系统上的操作系统的可靠性。 Stratus ActiveService Network(ASN)提供可选的远程服务和Stratus Customer Assistance Center(CAC)的系统事件管理或者你的授权的Stratus服务代理商。很多ftServer系统的组件是用户可更换单元（CRU），允许最少的培训或工具的现场人员进行简单移除和替换故障组件。系统图释每个ftServer2700,4700和6400系统都是安装在机架上的，包括底盘和两个CPU-I/O模块，前端面板由一个DVD驱动和USB口组装成，黑色的面板是由一个可选的连接到ASN网络的调制解调器组成，整个机器还包括一些外围组件。 ftServer2700,4700和6400系统分别为下列配置： ●ftServer2700系统：单路四核处理器 ●ftServer4700系统：双路四核处理器 ●ftServer6400系统：双路八核处理器注意··················································· 在ftServer2700系统中，在second插槽中仍然有散热片以便气流通畅。图1-1展示ftServer2700,4700和6400系统包含宝石切面外科的前置外观。在宝石切面外壳的右上边有四个灯管，当外壳被安装的时候它们提供了系统状态等的显示信息。

应用交换机集群管理技术简化网络设备管理

应用交换机集群管理技术简化网络设备管理摘要：计算机网络的规模也越来越大，对于网络管理员来说，集中管理就非常迫切。本文从网络管理角度介绍了交换机的连接、交换机集群技术、华为集群管理协议，并给出了集群管理技术的一个应用。关键词：集群管理技术；华为集群管理协议；邻居发现协议；邻居拓扑发现协议随着信息技术的发展和电子商务在企业的日益普及，计算机网络的规模也越来越大。对于网络管理员来说，现场配置已经很难实现。由于网络地址资源的紧张，使用远程 Telnet、SNMP 进行管理也有一定困难。因此，集中管理就非常迫切。 1交换机的连接交换机是目前计算机网络中的主要联网设备。为了使交换机满足用户对端口数量的要求，可以采用堆叠或级联方式来解决。 1.1级联交换机与交换机的基本连接方式是级联，即多个交换机间通过双绞线相连。相同类型端口之间级联使用交叉双绞线，不同类型端口之间级联使用直通双绞线。交换机的级联是在网络中增加接入层设备端口数量的最基本方法，但在网络管理的角度来看，没有什么变化。 1.2堆叠有堆叠接口的交换机之间可以通过专用的堆叠线连接

起来。堆叠是通过厂家提供的堆叠电缆在交换机专门的堆叠接口上连接的。一般堆叠的带宽是交换机商品速率的几倍，多台交换机的堆叠是靠提供背板总线带宽的堆叠模块之间相连来实现的。通常同一堆叠中的交换机要求必须是同品牌，堆叠的数量取决于交换机的品牌与型号。堆叠在一起的几台交换机在逻辑上是一台交换机，可视为一台交换机进行管理。 2交换机集群技术交换机集群，就是将多台互相连接的交换机作为一台逻辑设备进行管理。每个集群必须指定一个（而且只能指定个）管理设备。在建立集群时，首先需要确定一个管理设备，外部网络对集群内部各成员的访问、配置、管理、监控等都需要经过管理设备，管理设备是访问集群成员的出入口。管理设备识别并控制集群中的所有成员设备，不管这些成员设备分布在网络的什么地方，也不管它们是以何种方式相连的。同时在集群建立过程中，为了给用户提供可供参考的候选设备信息以及网络拓扑结构信息，管理设备将负责收集所有成员设备和候选设备的拓扑信息。 3华为集群管理协议华为公司自行研发的华为集群管理协议（Huawei Group Management Protocol，HGMP ）是二层协议，能提供拓扑发现功能，节省IP 地址，可以同时对多个交换机进行升级和配置，不受地理距离的限制等诸多优点。可以实现对交换机的集中管理，如交换机的注册、软件的升级、配置查询和设定、重启动等操作。主交换机称为管理设备，其它被管理的交换机称为成员设备。管理设备设置一个公网IP 地址，成员设备般不设置公网IP 地址，通过管理设备重定向来实现对成员设备的管理和维护。管理设备和成员设备组成了一个“集群”。一台交换机可以不与管理设备直接相连，而是通过其它方式与管理设备相连，就能实现管理所有成员设备的目的。目前HGMP 有v1、v2 两个版本。HGMP v1 的实现依靠

双机容错系统方案

双机容错系统方案 1.前言对现代企业来说，利用计算机系统来提供及时可靠的信息和服务是必不可少的，另一方面，计算机硬件和软件都不可避免地会发生故障，这些故障有可能给企业带来极大的损失，甚至整个服务的终止，网络的瘫痪。可见，对一些行业，如：金融（银行、信用合作社、证券公司）等，系统的容错性和不间断性尤其显得重要。因此，必须采取适当的措施来确保计算机系统的容错性和不间断性,以维护系统的高可用性和高安全性，提高企业形象，争取更多的客户，保证对客户的承诺，减少人工操作错误、达到系统可用性和可靠性为99.999%。 2.双机容错系统简介根据用户提出的系统高可用性和高安全性的需求，推出基于Cluster集群技术的双机容错解决方案，包括用于对双服务器实时监控的Lifekeeper容错软件和作为数据存储设备的系列磁盘阵列柜。通过软硬件两部分的紧密配合，提供给客户一套具有单点故障容错能力，且性价比优越的用户应用系统运行平台。 3.Cluster集群技术 Cluster集群技术可如下定义：一组相互独立的服务器在网络中表现为单一的系统，并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。 Cluster大多数模式下，集群中所有的计算机拥有一个共同的名称，集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败，并可透明的向Cluster中加入组件。一个Cluster包含多台（至少二台）拥有共享数据储存空间的服务器。任何一台服务器运行一个应用时，应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。 Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时，这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时，应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时，客户将能很快连接到新的应用服务上。 4.工作拓扑图

对容错服务器的正确理解

被误读的NEC容错服务器误读一：容错很好很昂贵由于容错服务器采用的是硬件全冗余的技术，而且在两套硬件之间还通过独立芯片和软件保证故障时零时间切换，因而其价格要比同规格的PC服务器高出许多。更为典型的一个用户反馈是：NEC容错服务器产品很好，可用性很高，但是不是像IBM的z系列和HP的NonStop系列动辄都是百万美元? 从上述两种态度可以看出中国用户对容错的应用定位尚属模糊。根据IDC 数据，广义概念上的容错市场约占整个服务器市场的4%，包括IBM的System z、HP的NonStop和NEC的Santa Clara、Express 5800/ft以及Stratus的ftServer 6200，前三者为传统大型主机，后二者为容错服务器。显而易见，这一市场面对的是属于中高端的窄众用户。而了解上述用户特征后自然明白，容错所谓的昂贵其实纯属误读：如果只需要进行基础IT建设的成长型企业，完全可以采用普通的塔式和机架式服务器，而不必使用容错产品;如果是需要高可用性的中高端用户，那么容错服务器相对大型主机而言，其实相当便宜。以NEC的容错服务器Express 5800/ft为例，目前最低配置的成本甚至已经与同规格的双机热备方案相当。误读二：虚拟化取代容错随着用户对计算资源利用率、灵活调度的高度渴求，导致近几年来虚拟技术在PC服务器上快速增长，VMware、Citrix等技术供应商也迅速走红，由此也产生了这样一种观念：虚拟万能，即通过虚拟就能实现计算资源的灵活配置、调度并保证故障时的自动迁移。虚拟化真是万灵丹吗?显然不是。从硬件架构的层次上看，虚拟层位于底层硬件之上，只能解决虚拟机及其应用的故障迁移。如果是底层硬件故障，诸如主板故障、电源故障、CPU损坏等，虚拟技术是无能为力的。随着虚拟化技术的普及，容错服务器会变得越来越重要。因为当物理机宕掉的时候，它会影响运行在其上的虚拟机，所以越是依赖虚拟技术的用户越需要保证底层硬件的高可用。误读三：容错使用很复杂对于使用过大型主机和双机热备等高可用方案的用户来说，配置及管理系统绝对是一个技术上的考验。这也使得一些用户产生了“高可用等于高复杂”的观点。

ftServer容错服务器日常维护手册

ftServer容错服务器日常维护手册 2009-9-9 上海海得 1. ftServer 系统启动和关闭每个ftServer 服务器都有两个电源按钮（每个CPU-IO 机箱都有一个电源按钮），在系统插上电源线后，系统中仅有一个电源按钮亮灯，且处于活动(Active)状态，这个按钮被称为主用按钮(Primary), 可用于当前系统的启动。另外的那个电源按钮被称为备用按钮(Standby)。（在一定条件下，主用按钮和备用按钮会做切换。）ftServer 服务器需要连接两路电源，我们建议至少其中的一路使用UPS输出的电源，以防因电源故障造成的系统停机；ftServer 服务器背部有连接显示器的端口，还有3 个USB口供连接键盘和鼠标使用。如果我们需要启动系统，只要先打开显示器电源，然后按一下ftServer 的主用按钮即可；在正常情况下，如果需要关闭系统，必须在Windows系统中操作：开始——关机——确定, Windows会处理当前文件操作，并关闭系统。在系统运行时，如果我们长时间按下主用电源按钮，可以强行关闭系统操作（这可能会导致系统或应用数据被破坏，用户应承担相应的风险） 2. ftServer 上的各种LED指示灯 ftServer 服务器上有各种LED 指示灯，它们显示了当前的系统或部件的运行情况; 分别说明如下： CPU-IO机箱状态指示灯每个CPU-IO 机箱均有两组状态指示灯，分别位于机箱前部的左侧(机架式)或下方(塔式)和机箱后部的左下侧(机架式)或左上侧(塔式)。每组指示灯中有一个绿灯代表电源指示灯；有一个红灯代表故障鉴别灯；有一个白/橙双色灯代表单双运行状态灯；（见下图）观察这些指示灯，可以大致判断该CPU-IO机箱的当前运行情况。 (机箱前部) (机箱后部)

基于EPON+EoC系统的接入网集群管理技术规范

目录目录.................................................................................................................................................... I 基于PON+EOC系统的接入网集群管理技术规范 (1) 1、范围 (1) 2、规范性引用文件 (1) 3、缩略语、术语和定义 (2) 3.1缩略语 (2) 3.2术语和定义 (3) 4、BCMP接入网集群管理体系结构 (5) 5、接入网集群管理协议 (6) 5.1BCMP协议概述 (6) 5.2BCMP协议报文总体格式 (9) 5.3BCMP C LIENT注册及应答 (13) 5.3.1功能描述 (13) 5.3.2 主要流程 (13) 5.3.3报文格式 (15) 5.4BCMP C LIENT心跳上报 (19) 5.4.1功能描述 (19) 5.4.2 主要流程 (20)

5.4.3 报文格式 (20) 5.5BCMP C LIENT管理参数更改 (23) 5.5.1功能描述 (23) 5.5.2 主要流程 (24) 5.5.3 报文格式 (25)

基于PON+EoC系统的接入网集群管理技术规范 1、范围本标准规定了基于PON+EoC系统的接入网集群管理协议，包括接入网集群管理的体系结构、拓扑收集与集群访问的实现机制、设备管理（如带内管理VLAN、带内管理IP地址自动配置）等。本标准所述的接入网集群管理协议适用于在一个连通的PON+EoC接入网内，在运营商本地区域的多个PON+EoC接入网可形成一个统一管理域。 2、规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件，其随后所有的修改单（不包括勘误的内容）或修订版均不适用于本标准，然而，鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件，其最新版本适用于本标准。 YD/T 1475-2006 接入网技术要求——基于以太网方式的无源光网络（EPON） YD/T 1664-2007 基于以太网方式的无源光网络（EPON）网络管理接口技术要求 IETF RFC1071 计算因特网校验和 IEEE 802.1Q 虚拟桥接局域网 IEEE 802.3 CSMA/CD接入方式和物理层规范

容错控制理论及其应用

第26卷　第6期2000年11月自　动　化　学　报A CT A A U T OM A T ICA SI NI CA V o l.26,N o.6N ov.,20001)国家自然科学基金、“八六三”计划与教育部资助项目.收稿日期　1999-03-08 收修改稿日期　1999-10-11 综述容错控制理论及其应用 1)周东华 (清华大学自动化系　北京　100084)　Ding X (Lausitz 大学电气工程系　德国) (E-mail:ZDH @m ail.au.tsin https://www.doczj.com/doc/ac857523.html,) 摘　要　介绍了经典容错控制的主要研究成果及近年来发展起来的鲁棒容错控制和非线性系统的故障诊断与容错控制,并给出了容错控制的一些典型应用成果.最后,指出了该领域亟待解决的一些热点与难点问题. 关键词　动态系统,容错控制,故障诊断,集成,鲁棒性. THEORY AND APPLICATIONS OF FAULT TOLERANT C ONTROL ZHOU Donghua (Dep t .of A utomation ,Tsing hua Univer sity ,Beij in g 100084) DING X (De p t .of E E ,L ausitz Univ .,Ger ma ny ) Abstract A survey of fault tolerant cont rol for dynamic syst ems is present ed .T he main result s in classical fault tolerant cont rol are f irstly int roduced.T hen,empha- sis is put on t he robust fault tolerant control as well as the fault diagnosis and f ault tolerant control of nonlinear systems developed in recent years.Some typical appli- cation result s of fault t olerant cont rol are discussed ,and finally ,some open ques- tions are pointed out . Key words Dynamic syst ems,fault t olerant cont rol,fault diagnosis,int egrat ion, robust ness . 1　引言现代系统正朝着大规模、复杂化的方向发展,这类系统一旦发生事故就有可能造成

分布式与集群的区别

1、Linux集群主要分成三大类( 高可用集群，负载均衡集群，科学计算集群)（下面只介绍负载均衡集群）负载均衡集群(Load Balance Cluster) 负载均衡系统：集群中所有的节点都处于活动状态，它们分摊系统的工作负载。一般Web服务器集群、数据库集群和应用服务器集群都属于这种类型。负载均衡集群一般用于相应网络请求的网页服务器，数据库服务器。这种集群可以在接到请求时，检查接受请求较少，不繁忙的服务器，并把请求转到这些服务器上。从检查其他服务器状态这一点上看，负载均衡和容错集群很接近，不同之处是数量上更多。 2、负载均衡系统：负载均衡又有DNS负载均衡（比较常用）、IP负载均衡、反向代理负载均衡等，也就是在集群中有服务器A、B、C，它们都是互不影响，互不相干的，任何一台的机器宕了，都不会影响其他机器的运行，当用户来一个请求，有负载均衡器的算法决定由哪台机器来处理，假如你的算法是采用round算法，有用户a、b、c，那么分别由服务器A、B、C来处理； 3、分布式是指将不同的业务分布在不同的地方。而集群指的是将几台服务器集中在一起，实现同一业务。分布式中的每一个节点，都可以做集群。而集群并不一定就是分布式的。举例：就比如新浪网，访问的人多了，他可以做一个群集，前面放一个响应服务器，后面几台服务器完成同一业务，如果有业务访问的时候，响应服务器看哪台服务器的负载不是很重，就将给哪一台去完成。而分布式，从窄意上理解，也跟集群差不多，但是它的组织比较松散，不像集群，有一个组织性，一台服务器垮了，其它的服务器可以顶上来。分布式的每一个节点，都完成不同的业务，一个节点垮了，哪这个业务就不可访问了。

双机热备份和单机容错技术的比较

目前主流应用的服务器容错技术有三类，它们分别是：服务器群集技术、双机热备份技术和单机容错技术。它们各自所对应的容错级别是从低到高的，也就是说服务器群集技术容错级别最低，而单机容错技术级别最高。由此可知它们各自应用的行业容错级别需求也是从低到高的。本文主要介绍后两种容错技术，先来看一下双机热备份容错技术。一、双机热备份技术双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜（也可没有，而是在各自的服务器中采取RAID卡）及相应的双机热备份软件组成，如图1所示。图1（点击看大图）在这个容错方案中，操作系统和应用程序安装在两台服务器的本地系统盘上，整个网络系统的数据是通过磁盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统，将所有站点的数据直接从中央存储设备读取和存储，并由专业人员进行管理，极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中，在一台服务器出现故障时，备机主动替代主机工作，保证网络服务不间断。双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”，指的是主从系统之间相互按照一定的时间间隔发送通讯信号，表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障，或者备用系统无法收到主机系统的“心跳” 信号，则系统的高可用性管理软件认为主机系统发生故障，主机停止工作，并将系统资源转移到备用系统上，备用系统将替代主机发挥作用，以保证网络服务运行不间断。双机热备份方案中，根据两台服务器的工作方式可以有三种不同的工作模式，即：双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍。双机热备模式即目前通常所说的active/standby 方式，active服务器处于

容错服务器的简单理解

美国stratus公司:容错服务器的简单理【IT168 资讯】美国stratus容错公司出品的容错服务器是一种可以实现零时间停机的服务器，在一些关键性领域里应用非常广泛，例如：电信、机场、银行、冶金行业、安全、医院的HIS系统、电视台、公安、电力行业、大的零售业，等一切要求高可用性的行业，这类用户以前在没有办法的情况下选用的是高可用性集群，英文原文为High Availability Cluster, 简称双机HA Cluster，是指以减少服务中断(宕机)时间为目的的服务器集群技术，简称双机，这种方式实现起来非常复杂，后期维护成本也很高，对技术人员的依赖也非常严重，而且因为cluster不能实现0时间停机(消除单点故障的集群可用性是99.99%)，所以他的设计目标是减少停机时间而不是避免停机时间，而容错服务器设计上就是避免停机,高可用性的时间是99.9998%，如果2个方案价格相当，您选择减少停机还是选择避免停机的服务器呢? 容错的优势容错服务器的几点优势简单说说!(主要是和双机的区别说一下) 1:国际著名检测组织IDC公布:容错服务器的高可用性是99.9998%,而消除单点故障的集群是99.99%,IBM的大型机为99.995% 2:设计上容错的目标是避免停机,而集群是减少停机(当我们有避免停机的方案,我们为什么还要选择减少停机的方案呢?) 3:容错能有效的保护动态数据不丢失,而双机只能保证写入硬盘的数据; 4:容错能支持热插拔任意的硬件,包括主板,CPU等关键性硬件, 5:布置非常简单,只需要装单套系统,数据库也只需要一套,免去双机软件和研发代码的麻烦,从而大大的减少工程师的工作量,也大大的减少了软件成本. 6:速度比同配置的双机要快20%以上. 7:后期维护成本几乎为零,而双机的话需要工程师的支持,或许由于系统补丁的升级需要额外的研发双机代码来保证系统的切换成功; 8:容错是没有切换时间的,而双机由于硬件宕机后会发生停顿的情况,还有就是双机切换工作是有可能不成功的. 9.容错的windows系统因为有容错揪错芯片,所以容错的windows系统比传统的windows系统稳定,也许您用很多年都不需要重起windows,因为它永远和刚开机一样快,容错因此承诺容错的windows比IBM的AIX还稳定.因为您用上了容错就不知道什么叫停机. 上面说了很多与双机对比的优势,下面我们通过案例来实际了解容错到底有多好:

容错控制简介

1.2容错技术简介容错控制及其系统组成容错控制的发展及研究现状 1.2.1容错控制的概念和任务容错概念最初来源于计算机系统设计领域，是指系统内部环节发生局部故障或失效情况下，计算机系统仍能继续正常运行的一种特性。后来人们逐渐把容错的概念引入到控制系统，这样人们虽然无法保证控制系统每个环节的绝对可靠，但是构成容错控制系统后，可以使系统中的各个故障因素对控制性能的影响被显著削弱，从而间接地提高了控制系统的可靠性。特别是控制系统的重要部件的可靠度未知时，容错技术更是在系统设计阶段保证系统可靠性的必要手段。容错控制的指导思想是在基于一个控制系统迟早会发生故障的前提下，在设计控制系统初期时就将可能发生的故障对系统的稳定性及静态和动态性能影响考虑在内。最简单的情况，如果传感器或执行器发生故障，在故障后不改变控制律的情况下，如何来维持系统的稳定性就是控制器设计过程中值得注意的问题。在容错控制技术中，这种问题属于完整性控制的范畴。在某种程度上，容错控制系统是指具有内部冗余（硬件冗余、解析冗余、功能冗余和参数冗余等）能力的控制系统，即在某些部件（执行器、传感器或元部件）发生故障的情况下，闭环系统仍然能保持稳定，并在原定性能指标或性能指标有所降低但可接受的条件下，安全地完成控制任务，并具有较理想的特性。动态系统的容错控制是伴随着基于解析冗余的故障诊断技术的发展而发展起来的。 1.2.2容错控制的现状研究容错控制系统的基本结构为：传感器、故障检测与诊断子系统、执行器和控制器。其中，故障检测与诊断子系统能够对控制系统进行实时故障监测与辨识等；控制器则根据故障诊断信息作出相应的处理，实施新的容错控制策略，保证系统在故障状态下仍能获得良好的控制效果。在实际控制系统中,各个基本环节都有可能发生故障。容错控制系统有多种分类方法,如按系统分为线性系统容错控制和非线性系统容错控制，确定性系统容错控制和随机系统容错控制等；按克服故障部件分类为执行器故障容错控制，传感器故障容错控制,控制器故障容错控制和部件故障容错控制等；按控制对象不同分为基于硬件冗余和解析冗余的容错控制分类。一般，为了全面反映容错控制系统的特性，常将上述各种分类方法组合运用。 1.硬件冗余方法硬件冗余是指对系统的重要部件及易发生故障部件设置各种备份,当系统内某部件发生故障时,对故障部分进行隔离或自动更换,使系统正常工作不受故障元器件的影响，保证系统的容错性能。硬件冗余方法根据备份部件是否参与系统工作可分为静态硬件冗余和动态硬件冗余。 l)静态硬件冗余:并联多个相同的组件,当其中某几个发生故障时并不影响其它组件的正常工作。 2)动态硬件冗余:在系统中不接入备份组件,只有在原组件发生故障后,才把输入和输出端转接到备份组件上来,同时切断故障组件的输入和输出端,即运行模块的失效，备用模块代替运行模块工作。系统应该具有自动发现故障的能力与自动转接设备。硬件冗余方法可以用于任何硬件环节失效的容错控制,建立起来的控制系统将具有较强

容错服务器技术vs双机冗余

容错服务器技术vs双机冗余 2009-05-21 来自：网界网作者：宋家雨收藏单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。 1980年，当Bill Fost先生苦思冥想在为新公司取个什么名字的时候，无意间看到了飞机外层层叠叠的云层，由此“Stratus”诞生了。但是Bill Fost没有想到，1990当他们注册北京办事处的时候，竟然可以使用“美国容错计算机公司”，这种用技术术语命名公司的现象，此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”，进而了解容错技术，但是相信，这几年数量有限与很多技术领先型公司相类似，“酒香不怕巷子深”是其风格，市场上的低调在一定程度上制约了发展。容错的含义比较宽泛，这种不确定性容易引发歧义，增加理解上的难度。从概念上来说，容错是指服务器对于错误的容纳能力，是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标，有几种技术上的实现方法，目前国内谈论最多的是三种：服务器群集技术、双机冗余服务器方案和单机容错技术。实际上，服务器群集和双机冗余的技术比较类似，双机冗余是最简单的集群，是其一个特例，也可以把服务器集群技术视为双机冗余的延伸，可以理解为一种多机容错的方案。在一般的讨论之中，集群技术是为了解决计算性能不足的问题，通过多台服务器的集群计算，为高性能计算领域应用提供所需要的高性能。采用集群技术，通过多台服务器之间的负载均衡，可以解决服务器单点故障所引发的系统不稳定，提高系统的可靠性，因此集群具有更好的容错能力，但是在实际的应用中，集群技术多用于高性能计算。单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料，双机冗余系统的可靠性可以达到99.9%，也就是3个9的能力，而Stratus公司的方案，其可靠性可以达到5个9。在记者的采访中，惠普公司企业服务器产品经理陈武胜表示，其NonStop服务器作为目前惠普公司最高档的服务器，其可靠性可以达到7个9的水平。在记者看来，双机冗余与单机容错有很多的差异，绝不是3个9和5个9的区别。为了了解这些区别，记者分别采访了有关软硬件厂商，并结合实际的应用案例，帮助读者了解有关容错服务器的技术。产品技术篇之一“没有错误”的容错服务器技术单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓，但是在我的采访中，有关服务器厂商都不愿意采用这个称谓，他们更愿意采用容错服务器，因为单机只是一个表现形式，并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。容错与同步技术

服务器集群技术方案

服务器集群技术方案集群（Cluster）技术是发展高性能计算机的一项技术。它是一组相互独立的计算机，利用高速通信网络组成一个单一的计算机系统，并以单一系统的模式加以管理。其出发点是提供高可靠性、可扩充性和抗灾难性。一个集群包含多台拥有共享数据存储空间的服务器，各服务器通过内部局域网相互通信。当一台服务器发生故障时，它所运行的应用程序将由其它服务器自动接管。在大多数模式下，集群中所有的计算机拥有一个共同的名称，集群内的任一系统上运行的服务都可被所有的网络客户使用。采用集群系统通常是为了提高系统的稳定性和网络中心的数据处理能力及服务能力。当前主流的集群方式包括以下几种： 1.服务器主备集群方式服务器主-备方式由一台服务器在正常运行状态提供对外服务，其它集群节点作为备份机，备份机在正常状态下不接受外部的应用请求，实时对生产机进行检测，当生产机停机时才会接管应用服务，因此设备利用率最高可达50%。主备方式集群如下图所示，节点2为正常提供服务的服务器，运行多个应用（pkgA,pkgB..）,节点1平时只监控节点2的状态，不对外提供服务，当节点2出现故障时，节点1将把两个应用接管过来，并对外提供服务。图表错误!文档中没有指定样式的文字。-1主备方式集群 2.服务器互备份集群方式多台服务器组成集群，每台服务器运行独立的应用，同时作为其它服务器的备份机，当主应用中断，服务将被其它集群节点所接管，接管服务的节点将运行

自身应用和故障服务器的应用，这种方式各集群节点的硬件资源均可被应用于对外服务。互备方式集群如下图所示，节点1和节点2分别运行1个或多个不同的应用,但只对外提供本地的主应用，两个节点之间互相进行监控，集群中任何一个节点出现故障后，另一个节点把故障节点的主应用接管过来，所有应用服务由一台服务器完成。图表错误!文档中没有指定样式的文字。-2互备份方式集群这种方式的主要缺点在于：由于需要重新启动数据库核心进程，无法保证数据库系统连续不间断地运行在系统切换的过程中，客户端与服务器之间的数据库连接会中断，需要重新进行数据库的连接和登录工作由于数据库系统只能在一台服务器上运行，另一台服务器无法分担系统的负载，实际上造成了客户投资的浪费。在有些系统中，为了解决双机负载分担的问题，将应用系统人为分割为两个数据库系统，分别在两台服务器上运行。这种方式在一定程度上解决了负载分担的问题，但给系统管理、统计分析等业务处理带来了很多额外的复杂性 3.服务器并行集群方式集群有多台服务器构成，同时提供相同的应用，可以实现多台服务器之间的负载均衡，提供大访问量的应用需求，如Web访问及数据库等应用，服务器并行集群方式一般由应用系统自身（如OracleRAC、中间件负载均衡等）或外部专用服务器负载均衡设备实现。

文档之家