当前位置:文档之家› 基于国产高端容错主机的信息系统改造方法初探_连国华

基于国产高端容错主机的信息系统改造方法初探_连国华

基于国产高端容错主机的信息系统改造方法初探_连国华
基于国产高端容错主机的信息系统改造方法初探_连国华

容错方案和双机热备方案的对比 2

为什么选择容错 Stratus容错服务器与双机热备方案比较

一、容错技术和集群的比较: 1、可靠性比较:

容错服务器的可靠性可达到99.999%以上,其设计原理是“容错原则---容忍错误发生,当出现任意单点故障时,不会对系统造成任何影响,系统仍然连续工作”。而集群方案的可靠性只能在99.9%~99.99%之间,其设计原理是“避错原则----当系统出现故障时,如何补救错误、避免错误进一步扩大”。 2、拓扑结构比较: 计算机业界对可靠性的定义 容错服务器独立服务器 阵的独立服务器 系统 消除单点心 系统结构复杂 环节过多,外部连接 故障发生点多 系统结构简单 如同单机,内部连接 故障发生点少 无单点故障的集群方案 无单点故障的容错方案

3、软硬件架构: 在系统架构中,容错服务器结构简单,且是单软件映像。 1、 工作原理比较: 硬软件结构复杂 依赖集群软件 对所有软件和硬件要求苛刻 切换机制只能覆盖部分实际应用情况 硬软件结构简单 纯硬件容错结构 对所有软件无特殊要求 时钟同步,无需切换

容错方案在出现任何单点故障的情况之下系统工作状态均不会中断,且是零切换时间,进而完整的保护了静态数据及动态数据。 2、维护管理及实施比较: 由于容错服务器的冗余全部是依靠硬件完成的,避免了对软件及人为因素的依赖,因此,其实施及维护非常简单、方便。 3、集群和容错软硬件可靠性实测比较: System Application Fault-Tolerant Cluster Conventional 容错方案的软硬件可靠性是最高的;集群方案虽然略微提高了硬件的可靠性,但却牺牲了软件本身的可靠性。

Stratus (美国容错)ftServer -“最可靠的 计算机系统”

Stratus ftServer –世界上最可靠的计算机系统 一.Sales points ftServer采用Stratus Technologies,Inc(美国容错技术公司)30年的可靠性设计技术,在Intel的IA架构上推出的具有无可匹敌的稳定性的计算机运行平台。同时得益于Intel Xeon 多核芯片技术的强大处理能力,保障用户对运算能力需求。 容错— Fault Tolerance 设计方案(永不停顿方案) 在计算机系统的设备或某一部件出现故障的情况下,计算机系统仍能保持程序的正确运行,并给出正确结果。可靠性达到99.999或以上。 高可用性-High Availability 设计方案(故障恢复方案) 采用内部冗余的计算机或部件,通过硬件组合软件的方法,在运行模块(服务器主机)出现问题时,通过另外备用的模块或机器来恢复原来的程序运行。可靠性达到99.9或99.99。 “真正”容错服务器– ftServer 1)通过芯片和高效的容错技术设计,在一个或多个不同设备产生故障的情况下,系统运行稳如泰山; 2)像单机一样的使用和管理环境,极大降低IT部署,操作和维护难度; 3)全部在线维护故障设备,系统不会停止运行。 二.ftServer 体系结构(DMR双模设计)

三.Stratus (美国容错)ftServer的技术特点及优势 1) Stratus ftServer 采用全冗余的部件级别容错技术设计,使得整台服务器的任何部件不会出现单点故障。 2) ftServer采用Stratus独有的时钟同步(lock step)专利技术,让整台服务器时刻在双工状态下运行,为你提供业界具有最高可靠性的计算机运行平台。 3) ftServer的独特技术设计,使得整套系统变成一个像单机一样的平台,操作系统和应用软件的使用就像单机,安装,维护,使用简单;应用部署快捷,简便。 4) ftServer提供整套系统所有主要部件的联机更换。 包括CPU, 内存,I/O控制器,主板,磁盘,网卡,电源等。更换部件自动 回复同步,无需太多人工干预;应用系统不会产生任何切换,动态运算数据 和静态磁盘数据完整保护,绝无丢失。 5) ftServer提供状态指示灯和图形化的状态管理,机器运行状态一目了然。 6) ftServer可以提供联机的实时故障自动报告,并可提供随时的强有力的远程服务支持,让你使用更加放心。 7) ftServer采用开放式平台设计架构,支持Windows,Redhat Linux, VMWare等主要操作系统应用平台,应用程序方案简单,不需要为在操作系统之上复杂的高可用设计方案付出额外的软件和维护成本。 8) Stratus ftServer是为用户的生产、IT运行环境中提供安全为稳定运行环境的理想选择。

容错关键技术

容错关键技术 一个容错系统包含四个要素:首先是故障检测,这是容错系统必不可少的环节,其他环节以此为基础;其次是对出现的故障所造成的影响进行评估并限制其进一步传播;最后是对确定为不可恢复的故障进行处理。 容错的基本步骤概括起来是故障检测→处理故障→系统恢复。 防止故障造成系统失效有两种基本技术:即是故障掩蔽技术和系统重组技术。 故障掩蔽是防止故障造成差错的各种技术,换句话说要将发生的故障隐蔽起来。这类技术不要求在容忍故障前检测故障,但要求做到故障包容。故障包容是指使故障的影响局部化,不希望一个故障全局地影响整个系统的性能。在故障效应达到模块的输出之前,通过隔离或校正来消除它们的影响,从而达到容错的目的。 掩蔽技术不改变系统的结构,即系统部件的逻辑关系相对固定,因此掩蔽技术又称静态冗余技术。当掩蔽冗余因模块中的故障而耗尽时,再发生故障就会在输出产生错误。 系统重组是防止差错导致系统失效的各种技术。系统重组技术首先做到故障检测,然后做到故障定位,最后做到系统恢复。 系统重组技术称动态冗余技术。 故障掩蔽技术及系统重组技术是达到容错的两种基本途径。而它们又建立在资源冗余的基础上的。资源冗余主要有两种基本形式:硬件冗余和软件冗余。 1、硬件冗余 实时系统中应用最广泛的冗余形式是硬件的物理重复。随着半导体元件体积的缩小及成本的下降,硬件冗余成为更实用的一种冗余方法。硬件冗余有两种形式:被动冗余和主动冗余。 被动硬件冗余又称静态硬件冗余,是指冗余结构并不随故障情况的变化的冗余的形式。被动硬件冗余应用了故障掩蔽的概念,将发生的故障隐蔽起来,防止故障造成差错。被动硬件冗余的基本机理是通过多数表决隐蔽发生的故障。这种冗余方法一般用于多机系统。 主动硬件冗余又称动态硬件冗余,是通过故障检测,故障定位及系统恢复来

HP服务器型号

1. HP ProLiant DL 服务器 2. HP ProLiant ML 服务器 3.HP ProLiant BL 刀片式服务器 (HP Blade System 刀片服务器系统) 其中DL服务器就是机柜式服务器,ML服务器是塔式服务器,BL既刀片 服务器. 惠普服务器的型号一般为DL(or ML or BL)字母+数字 如ML110 中ML为机型是塔式服务器 110为机器编号后面再开发的为 G2,再开发为G3如此类推,既第2代,第3代. 如DL 380 G4 中DL为机柜式服务器 380为机器编号 G4为基于DL380开发的第四代服务器. 惠普的每个产品都有相对应的商品编码:一般类似为 417453-AA1(此 为DL 380 G5 服务器的编码). 而根据主板平台即CPU的不同分为Intel平台和AMD平台,在命名上 的差别就体现在命名的最后一位。 Intel平台服务器使用尾数为0的命名方式,而AMD平台则尾数为5. 如ML110与ML115的区别就在于主板平台的不同。 同样DL160与DL165, DL180与DL185都有着这样的区别。 惠普服务器分类 1.HP ProLiant 系列服务器 » HP ProLiant DL 机架服务器 » HP ProLiant ML 塔式服务器 » HP Proliant BL 刀片服务器系统 2.HP Integrity 动能服务器 » HP Integrity入门级服务器 » HP Integrity中高端服务器 » HP Integrity高端服务器 » HP Integrity BL 刀片服务器 3.HP Integrity NonStop 容错服务器 » HP 9000服务器 » 电信级服务器 4.按操作系统分类 » x86 » HP-UX 11i » Intel® Itanium® 2 » Windows® » PA-RISC » Linux » Alpha » OpenVMS » NonStop OS » Tru64 UNIX 5.按处理器类型分类

冗余设计与容错设计

冗余设计与容错设计 1.冗余与容错的概念 提高产品可靠性的措施大体上可以分为两类:第一类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。而冗余是实现产品容 错的一种重要手段。

“容错(fault tolerance)”定义:系统或程序在出 现特定的故障情况下,能继续正确运行的能力。“冗余(redundancy)”定义:用多于一种的途径来完成一 个规定功能。“容错”反映了产品或系统在发生故障情 况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。严格地说,冗余属于容错设计范畴。 从原理上讲,冗余作为容错设计的重要手段,其实施流 程和原则也同样适用与其他容错设计活动。

2.冗余设计 2.1.目的 冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象 (a) 通过提高质量和基本可靠性等方法不能满足任务可靠性 要求的功能通道或产品组成单元; (b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元; (c)影响任务成败的可靠性关键项目和薄弱环节; (d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目; (e)其他在设计中需要采用冗余设计的功能通道或产品组 成单元。

重大关键技术

2016年省重点研发计划(重大关键技术) 指南 为深入贯彻创新、协调、绿色、开放、共享发展理念,围绕全省“十三五”发展规划要求,发布2016年省重点研发计划(重大关键技术)指南。 一、信息技术领域 围绕高性能电子功能材料、行业专用集成电路芯片、高端电子信息装备、基础软件、信息安全等5个重点技术方向开展关键技术研发,推进全省信息产业领域创新链与产业链的深度契合,实现全产业链关键环节重要产品的国产化替代,提升我省电子信息产业核心竞争力,保障信息安全。 1、高性能电子功能材料关键技术 研究内容:实现高端电子器件基础材料的技术突破。重点开展超细粉体技术、电子纤维微张力控制、新型后处理工艺及浸润剂配方、高压水枪开纤技术等高性能电子功能材料加工制备关键技术研究。 预期目标:电子功能材料性能达到或超过国外同类产品技术水平,满足超大规模集成电路、超薄覆铜板、陶瓷电容器、绝缘栅双极型晶体管等高性能电子元器件的质量与性能要求,实现电子功能材料的规模化生产和国产替代。

2、行业专用集成电路芯片关键技术 研究内容:实现专用集成电路设计、测试、封装等重点环节关键技术突破。重点开展软硬件逻辑模块复用、高安全性加密算法可重构IP核、Java虚拟机及Applet应用自主芯片等关键技术研发,实现存储器、无线射频、智能卡芯片、图像传感器、光电传感器等集成电路芯片自主设计目标。 预期目标:专用芯片及器件产品实现在通信、金融、社保、物流、特种设备管理、安全管控等行业中的规模化应用和国产替代。 3、高端电子信息装备关键技术 研究内容:掌握并实现高端信息装备核心技术突破。重点开展体系结构设计、异构众核内存计算和交换加速技术、高速IO存取、恒流充电式脉冲调制器和大功率扫描系统等关键技术研发,推动产业可持续发展。 预期目标:研制新一代高端容错服务器、高能工业电子加速器、微波成像雷达等高端电子信息整套装备并形成技术标准,实现在部分重要领域高端信息装备国产替代。 4、基础软件关键技术 研究内容:实现基础软件核心技术突破。实现云数据中心虚拟化、轻量多层容器管理、资源调度和应用敏捷迁移、自适应动态负载平衡、交互式处理、并行处理分析和大数据隐私保护等关键技术突破。重点开展新一代融合架构的云数

计算机容错技术课后习题

第1章绪论 1、为什么说可靠度高的系统其安全度必然高,但安全度高的系统其可靠度不一定高? 答:可靠度:设在时刻t0系统正常运行,则系统在整个时间区间[t0 ,t]内正常运行的条件概率,称为系统在时刻t的~,记为R(t)。 安全度:设在时刻t0系统正常运行,则系统在时刻t的安全度S(t)指系统在[t0 ,t]内正常运行的条件概率加上系统在时刻t处于失效安全状态的条件概率,即S(t) = R(t) +FS(t)。 由二者的定义可以看出,当R(t)的值越大,即可靠度越高,且FS(t)值一定时,S(t) = R(t) +FS(t)的值必定会越大,即安全度会很高;反之,安全度高的系统是由R(t)和FS(t)两项参数共同决定的,R(t)的值可以是一个定值,而FS(t)的值可以取一个较高值时,可以满足高可靠度的要求。 2、可靠度高的系统是否可用度一定高?可用度高的系统是否可靠度一定高,为什么? 答:设在时刻t0系统正常运行,则系统在整个时间区间[t0 ,t]内正常运行的条件概率,称为系统在时刻t的可靠度,记为R(t)。系统在时刻t的可用度:指系统在该时刻正确执行其功能的概率,记为A(t),瞬时可用度。系统处于稳定状态时,其可用度不再随时间变化,称为稳态可用度,记为Ass。 可靠度高的系统,可用度一定高,而可用度高的系统,可靠度不一定高。 注意:可用度与可靠度的区别,可用度只考虑时刻t系统正确执行功能的概率,并不关心时刻t以前系统是否发生过时效。而可靠度则要考虑在整个时间区间【t0,t】内系统正常运行的概率。 3、系统可维度是如何影响系统的可用度的,试用公式予以说明。 答:系统的可维度M(t)是指系统失效后,在时间间隔t=Tf内被修复的概率。可用度A=T0/(T0+Tf),T0:正常运行时间,系统完成功能的时间。Tf:故障时间,故障修理时间之和。 4、实现冗余有哪几种方式? 答:(1)硬件冗余:应用附加硬件来实现故障检测及容错:典型的列子如双机比较系统,三模表决系统等。 (2)软件冗余:应用附加软件来实现故障检测及容错。典型例子如故障诊断程

关于计算机服务器系统的容错技术

关于计算机服务器系统的容错技术 摘要随着时代的发展,信息技术的进步,计算机已经逐渐的成为了各行各业中不可取代的一部分,我国对于计算机技术的应用也十分的广泛。其中,计算机服务器系统是计算机中十分重要的一个技术,能够为国防、医疗以及金融等各个行业为计算机系统提供不间断的服务,如果它出现问题那么会造成十分严重的损失,因此应该对于计算机服务器系统的容错技术进行足够的重视并且对其进行进一步的发展。本文主要对其进行了详细的阐述。 关键词计算机服务器系统容错技术 中图分类号:TP302.8 文献标识码:A 1容错必要性 随着计算机技术的普及,通过计算机系统来进行信息的传输并提供服务逐渐应用的越来越广泛,但是计算机的软硬件都有可能会发生故障,这些故障如果没有及时的进行解决很容易造成巨大的损失,甚至会造成整个服务的终止网络也会因此而瘫痪,因此产生难以估量的损失。因此,系统的容错性以及不间断的性质显得尤为重要,为了能够更好地保证系统安全、可靠地运行,必须要采取一定的措施来保证计算机系统能够在出现故障的时候已然可以正常的使用。经过人

们地长时间的研究,总结出来了两种方法,一种叫做避错,就是使用正确的设计并且进行相应的质量控制尽可能的避免系统产生错误,防止将错误引进系统之中,但是在实际的运行中难免会产生一些意料之外的事情,因此这种方法在实施起来有着很大的难度。另外一种就是容错,在系统中出现了某些硬件或者软件的错误的时候,系统能够执行规定的一组程序,或者说这种程序不会因为系统的故障而被中断或者在中途被修改,且其执行的结果也不包含系统中的故障引起的差错。 随着科技的不断发展,计算机技术的逐渐普及,设备的安全性以及可靠性逐渐的引起了越来越多的人的重视,因此计算机服务器系统的容错技术十分重要。当系统的内部出现故障的时候,通过容错技术能够消除故障产生的影响并且使系统最终仍然能够给出正确的结果。按照时间进行故障的划分,故障可以分为以下几种类型:永久性的故障、间歇性的故障以及偶然性的故障。随着计算机的硬件技术的不断发展,容错计算机的系统开销逐渐的降低,同时纠错的速度变得越来越快。而软件方面的容错,对于硬件不会提出过高的要求。 2容错技术概述 容错指的是计算机系统的一个或者多个关键的部件发生故障或者将要发生故障的时候,仍然能够保持正常的工作

容错与冗余技术(DOC)

容错与冗余技术 容错控制的研究虽然面临着空前的挑战,但近些年来,相关研究领域,如鲁棒控制理论,模糊控制,神经网络控制研究的不断深入和发展,也给容错控制的研究带来了良好的机遇,提供了充分的条件。 而计算机控制技术、人工智能等技术的飞速发展,使得容错控制技术在实际工程中应用的可能性变得越来越大。 1.1 容错概念的提出 提高系统的可靠性一般有两种办法:1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。2、以冗余资源为代价来换取可靠性。 利用前一种方法来提高系统的可靠性是有限的,要想进一步的提高必须采用容错技术。 容错控制技术在国外发展的比较早,是由冯·诺依曼提出的。随着八十年代微型计算机的迅速发展和广泛应用,容错技术也得到了飞速的发展,容错技术被应用到各个环境中。 我国的容错技术现在发展的也很迅速,一些重要的工作场合如航天、电厂等现在都采用了容错技术。 所谓容错:就是容许错误,是指设备的一个或多个关键部分法生故障时,能够自动地进行检测与诊断,并采取相应措施,保证设备维持其规定功能,或牺牲性能来保证设备在可接受范围内继续工作。 错误一般分为两类:第一类是先天性的固有错,如元器件生产过程中造成的错、线路与程序在设计过程中产生的错。这一类的错误

需对其拆除、更换或修正,是不能容忍的。第二类的错后天性的错,它是由于设备在运行中产生了缺陷所导致的故障。这种故障有瞬时性、间歇性和永久性的区别。 容错技术是提高系统可靠性的重要途径。常采用的容错方法有硬件容错、软件容错、信息容错和时间容错。 1.1.1 智能容错的定义 智能容错IFT(Intelligent Fault-Tolerance):就是设备在运行过程中一个或多个关键部件发生故障或即将发生故障之前,利用人工智能理论和方法,通过采取有效措施,对故障自动进行补偿、抑制、消除、修复,以保证设备继续安全、高效、可靠运行,或以牺牲性能损失为代价,保证设备在规定的时间内完成其预定功能。 智能容错技术的构成方法可以采用以下三步来实现: (1)建立系统的设计目标; (2)设计智能容错处理机构; (3)根据设计目标对所作的设计进行评价,如果满足目标则设计成功,否则将返回第二步进行重新设计,直到满足设计目标要求。 硬件智能容错HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技术。其基本思想是对设备的关键部件配备多重相似或相同部件,一旦检测和诊断出设备发生故障就可以立刻切换到备份部件,以达到故障容错的目的。图1 所示为二冗余结构原理图:

对容错服务器的正确理解

被误读的NEC容错服务器 误读一:容错很好很昂贵 由于容错服务器采用的是硬件全冗余的技术,而且在两套硬件之间还通过独立芯片和软件保证故障时零时间切换,因而其价格要比同规格的PC服务器高出许多。 更为典型的一个用户反馈是:NEC容错服务器产品很好,可用性很高,但是不是像IBM的z系列和HP的NonStop系列动辄都是百万美元? 从上述两种态度可以看出中国用户对容错的应用定位尚属模糊。根据IDC 数据,广义概念上的容错市场约占整个服务器市场的4%,包括IBM的System z、HP的NonStop和NEC的Santa Clara、Express 5800/ft以及Stratus的ftServer 6200,前三者为传统大型主机,后二者为容错服务器。显而易见,这一市场面对的是属于中高端的窄众用户。 而了解上述用户特征后自然明白,容错所谓的昂贵其实纯属误读:如果只需要进行基础IT建设的成长型企业,完全可以采用普通的塔式和机架式服务器,而不必使用容错产品;如果是需要高可用性的中高端用户,那么容错服务器相对大型主机而言,其实相当便宜。以NEC的容错服务器Express 5800/ft为例,目前最低配置的成本甚至已经与同规格的双机热备方案相当。 误读二:虚拟化取代容错 随着用户对计算资源利用率、灵活调度的高度渴求,导致近几年来虚拟技术在PC服务器上快速增长,VMware、Citrix等技术供应商也迅速走红,由此也产生了这样一种观念:虚拟万能,即通过虚拟就能实现计算资源的灵活配置、调度并保证故障时的自动迁移。 虚拟化真是万灵丹吗?显然不是。从硬件架构的层次上看,虚拟层位于底层硬件之上,只能解决虚拟机及其应用的故障迁移。如果是底层硬件故障,诸如主板故障、电源故障、CPU损坏等,虚拟技术是无能为力的。 随着虚拟化技术的普及,容错服务器会变得越来越重要。因为当物理机宕掉的时候,它会影响运行在其上的虚拟机,所以越是依赖虚拟技术的用户越需要保证底层硬件的高可用。 误读三:容错使用很复杂 对于使用过大型主机和双机热备等高可用方案的用户来说,配置及管理系统绝对是一个技术上的考验。这也使得一些用户产生了“高可用等于高复杂”的观点。

stratus ftserver 2700 容错服务器 说明书

容错服务器ftServer2700/4700/640 0操作与维护指南

第一部分系统概览 系统特征 Stratus ftServer2700、4700和6400系统包含冗余的组件,他们同时处理相同的指令(锁步技术)。如果其中一个组件出现错误,它的冗余组件将会继续工作,消除系统停机时间和数据丢失。 Stratus故障安全软件为时钟同步技术增加了一个安全层,阻止许多因为停机或者断电所引起的软件错误。软件问题被捕获、分析,报告给Stratus,允许技术支持人员在软件问题出现之前准确定位出错处。Stratus 的强化的设备驱动更加的增强了在ftServer系统上的操作系统的可靠性。 Stratus ActiveService Network(ASN)提供可选的远程服务和Stratus Customer Assistance Center(CAC)的系统事件管理或者你的授权的Stratus服务代理商。 很多ftServer系统的组件是用户可更换单元(CRU),允许最少的培训或工具的现场人员进行简单移除和替换故障组件。 系统图释 每个ftServer2700,4700和6400系统都是安装在机架上的,包括底盘和两个CPU-I/O模块,前端面板由一个DVD驱动和USB口组装成,黑色的面板是由一个可选的连接到ASN网络的调制解调器组成,整个机器还包括一些外围组件。 ftServer2700,4700和6400系统分别为下列配置: ●ftServer2700系统:单路四核处理器 ●ftServer4700系统:双路四核处理器 ●ftServer6400系统:双路八核处理器 注意··················································· 在ftServer2700系统中,在second插槽中仍然有散热片以便气流通畅。 图1-1展示ftServer2700,4700和6400系统包含宝石切面外科的前置外观。在宝石切面外 壳的右上边有四个灯管,当外壳被安装的时候它们提供了系统状态等的显示信息。

计算机冗余容错

计算机冗余容错 fault-tolerant computer rongCUO llSUQn』l 容错计算机(fault-tol~t computer)在硬件发生故障或软件产生错误时仍能继续运行并完成其既定任务的计算机系统。容错计算机的主要设计目标是为了提高计算机系统的可靠性、可用性和可信性等性能。提高计算 ·600· 容机可靠性的方法可以分为两大类:一类是排错技术,主要是通过使用可靠性高的元器件,严格的老化筛选等方法达到尽量减少发生故障的可能性; 另一类是容错技术,主要是运用元余技术来抵消由于故障而引起的影响。所谓冗余技术,简单地说,是在正常系统运行所需的基础上加上一定数量的信息、时间或后备硬件、后备软件的方法。冗余技术是容错计算机中容错技术的基础。冗余大致上可以分为下列几种类型: (l)硬件冗余以检测或屏蔽故障为目的而添加一定硬件设备的方法; (2)软件冗余为了检测或屏蔽软件中的错误而添加一些在正常运行时不需要的软件的方法; (3)信息冗余在实现正常功能所需的信息以外,再附加一些信息的方法,例如纠错码就是信息冗余的一种形式; (4)时间冗余使用附加一定的时间来完成系统的功能,这些附加的时间主要是用在故障检测或故障屏蔽上。 最常用的硬件冗余是硬件的重复。硬件冗余一般可以分为3种类型:静态冗余(也称为被动冗余)、动态冗余(也称为主动冗余)和混合冗余。静态冗余将已发生的故障屏蔽起来,使不影响运行的结果。被动冗余主要是依靠表决机制来屏蔽发生的故障,因而这种方法不需要故障检测也不必进行系统的重新配置等就可以获得容错的效果。被动冗余技术中使用最广的是三模元余TM[R。TMR的基本概念是使用3套完全相同的硬件系统执行相同的任务,然后由1个多数表决器对这3套系统的输出进行表决以确定整个系统的输出。多数表决器的表决原则是三中取二。也就是说三模冗余系统可以容许有1个模块发生故障而不至于影响到整个系统运行的正确性。三模冗余的关键是多数表决器本身的可靠性问题。提高多数表决器可靠性的方法有多种,其中最常用的方法是多数表决器本身也使用三模冗余,即利用3个独立的多数表决器,每个多数表决器分别接受来自3个模块的输出作为它的输人,然后再分别输出。这种系统通常被称为带三重多数表决器的三模冗余系统。除了三模冗余系统外,还有多于三模的冗余,称为N模冗余。主动冗余技术与被动冗余技术相反,它是通过故障检测、故障定位及故障恢复等手段达到容错的目的。因而在主动冗余技术中不是去防止故障引发的错误,而是暴露由故障引发的错误,从而去纠正错误。主动冗余技术中

容错服务器技术vs双机冗余

容错服务器技术vs双机冗余 2009-05-21 来自:网界网作者:宋家雨收藏 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术

双机热备份和单机容错技术的比较

目前主流应用的服务器容错技术有三类,它们分别是:服务器群集技术、双机热备份技术和单机容错技术。它们各自所对应的容错级别是从低到高的,也就是说服务器群集技术容错级别最低,而单机容错技术级别最高。由此可知它们各自应用的行业容错级别需求也是从低到高的。本文主要介绍后两种容错技术,先来看一下双机热备份容错技术。 一、双机热备份技术 双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜(也可没有,而是在各自的服务器中采取RAID卡)及相应的双机热备份软件组成,如图1所示。 图1(点击看大图) 在这个容错方案中,操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据是通过磁盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。 双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳” 信号,则系统的高可用性管理软件认为主机系统发生故障,主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。 双机热备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍。 双机热备模式即目前通常所说的active/standby 方式,active服务器处于

容错控制简介

1.2容错技术简介 容错控制及其系统组成 容错控制的发展及研究现状 1.2.1容错控制的概念和任务 容错概念最初来源于计算机系统设计领域,是指系统内部环节发生局部故障或失效情况下,计算机系统仍能继续正常运行的一种特性。后来人们逐渐把容错的概念引入到控制系统,这样人们虽然无法保证控制系统每个环节的绝对可靠,但是构成容错控制系统后,可以使系统中的各个故障因素对控制性能的影响被显著削弱,从而间接地提高了控制系统的可靠性。特别是控制系统的重要部件的可靠度未知时,容错技术更是在系统设计阶段保证系统可靠性的必要手段。 容错控制的指导思想是在基于一个控制系统迟早会发生故障的前提下,在设计控制系统初期时就将可能发生的故障对系统的稳定性及静态和动态性能影响考虑在内。最简单的情况,如果传感器或执行器发生故障,在故障后不改变控制律的情况下,如何来维持系统的稳定性就是控制器设计过程中值得注意的问题。在容错控制技术中,这种问题属于完整性控制的范畴。 在某种程度上,容错控制系统是指具有内部冗余(硬件冗余、解析冗余、功能冗余和参数冗余等)能力的控制系统,即在某些部件(执行器、传感器或元部件)发生故障的情况下,闭环系统仍然能保持稳定,并在原定性能指标或性能指标有所降低但可接受的条件下,安全地完成控制任务,并具有较理想的特性。动态系统的容错控制是伴随着基于解析冗余的故障诊断技术的发展而发展起来的。 1.2.2容错控制的现状研究 容错控制系统的基本结构为:传感器、故障检测与诊断子系统、执行器和控制器。其中,故障检测与诊断子系统能够对控制系统进行实时故障监测与辨识等;控制器则根据故障诊断信息作出相应的处理,实施新的容错控制策略,保证系统在故障状态下仍能获得良好的控制效果。在实际控制系统中,各个基本环节都有可能发生故障。 容错控制系统有多种分类方法,如按系统分为线性系统容错控制和非线性系统容错控制,确定性系统容错控制和随机系统容错控制等;按克服故障部件分类为执行器故障容错控制,传感器故障容错控制,控制器故障容错控制和部件故障容错控制等;按控制对象不同分为基于硬件冗余和解析冗余的容错控制分类。一般,为了全面反映容错控制系统的特性,常将上述各种分类方法组合运用。 1.硬件冗余方法 硬件冗余是指对系统的重要部件及易发生故障部件设置各种备份,当系统内某部件发生故障时,对故障部分进行隔离或自动更换,使系统正常工作不受故障元器件的影响,保证系统的容错性能。硬件冗余方法根据备份部件是否参与系统工作可分为静态硬件冗余和动态硬件冗余。 l)静态硬件冗余:并联多个相同的组件,当其中某几个发生故障时并不影响其它组件的正常工作。 2)动态硬件冗余:在系统中不接入备份组件,只有在原组件发生故障后,才把输入和输出端转接到备份组件上来,同时切断故障组件的输入和输出端,即运行模块的失效,备用模块代替运行模块工作。系统应该具有自动发现故障的能力与自动转接设备。 硬件冗余方法可以用于任何硬件环节失效的容错控制,建立起来的控制系统将具有较强

计算机数据库以及系统容错性处理

龙源期刊网 https://www.doczj.com/doc/7917616560.html, 计算机数据库以及系统容错性处理 作者:洪雄 来源:《科教导刊·电子版》2018年第07期 摘要计算机在现在的生活中是非常普遍存在的事物,也是我们的生活工作所必需的,计算机是一个多种先进技术结合的产物,计算机中的很多应用对于其他领域来说,会有很大的借鉴意义。计算机的图形处理技术是一种很复杂的技术应用,在数据计算领域的应用,是此技术的一种有效利用,同时对于数据计算来说,也是一种有益的借鉴来源,二者在一定程度上,可以说是有效的结合使用,相互促进,相互提高。本文通过对计算机交互式的图形技术的分析,引出可视化技术在数据的挖掘中所起到的重要作用,进而阐述交互式技术在计算机的图形处理中的重要作用。 关键词计算机算法数据计算可视化 中图分类号:TP302 文献标识码:A 0引言 几年来,计算机的图形处理技术越来越频繁的被人们应用于其他的领域,也是现在这个科学技术非常发达的社会的一种形势所在。现代一种相对比较常见的数据的可视化技术,指的就是运用计算机的图形学和图像处理的技术,把数据转化为可以被识别的图像或者图形,进而可以在显示器的屏幕上显示出来,被看见的使用者所理解和接受,同时还要进行交互处理的技术。这样一种技术涉及的技术和领域比较广泛,计算机的图形学、图像处理技术、计算机设计、计算机视觉技术、人机交互技术等,多个领域的结合才是一种比较实用的技术。今年以来,随着网络科学技术和网上电子商务技术的发展,在以往科学计算可视化的基础之上,出现了信息可视化的概念,并且逐渐在吸引人们的眼球,成为科学技术领域研究的焦点问题。我们都知道,“可视化”就是使之可见,可以被看见,就是可视化的最基本的含义,那么,数据在挖掘过程中,很多活动都可以被认为是可视化,利用可视化的技术进行信息的传递、知识的发现等。 1计算机服务器系统容错系统的概述 我们所说的计算机故障,指的是由于计算机不见的物理实现、操作错误或者是设计错误等原因引起的计算机系统硬件或者是软件错误的状态。故障的诊断、检测和恢复技术主要是作为计算机容错技术的重要组成部分,如果计算机系统要进行故障恢复的操作,首先就要进行检测、诊断的技术来对故障所处的位置进行定位。作为恢复的前提,我们还应该在恢复技术的作用下使得计算机系统能够恢复到无故障时候的状态并且开始正常工作。当前运用的计算机容错技术最基本的方法是冗余技术,而硬件冗余、软件冗余、信息冗余以及时间冗余技术是作为冗余技术的四个主要组成部分。

冗余与双机热备

冗余与双机热备 冗余: 指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间 Redundan,自动备援,即当某一设备发生损坏时,它可以自动作为后备式设备替代该设备。 冗余系统配件主要有: 电源:高端服务器产品中普遍采用双电源系统,这两个电源是负载均衡的,即在系统工作时它们都为系统提供电力,当一个电源出现故障时,另一个电源就承担所有的负载。有些服务器系统实现了DC的冗余,另一些服务器产品如 Micron公司的NetFRAME 9000实现了AC、DC的全冗余。 存储子系统:存储子系统是整个服务器系统中最容易发生故障的地方。以下几种方法可以实现该子系统的冗余。磁盘镜像:将相同的数据分别写入两个磁盘中。磁盘双联:为镜像磁盘增加了一个I/O控制器,就形成了磁盘双联,使总线争用情况得到改善; RAID:廉价冗余磁盘阵列(Redundant array of inexpensive disks)的缩写。顾名思义,它由几个磁盘组成,通过一个控制器协调运动机制使单个数据流依次写入这几个磁盘中。RAID3系统由5个磁盘构成,其中4 个磁盘存储数据,1个磁盘存储校验信息。如果一个磁盘发生故障,可以在线更换故障盘,并通过另3个磁盘和校验盘重新创建新盘上的数据。RAID5将校验信息分布在5个磁盘上,这样可更换任一磁盘,其余与RAID3相同。 I/O卡:对服务器来说,主要指网卡和硬盘控制卡的冗余。网卡冗余是在服务器中插上双网卡。冗余网卡技术原为大型机及中型机上的技术,现在也逐渐被PC服务器所拥有。PC服务器如 Micron公司的NetFRAME9200最多实现4个网卡的冗余,这4个网卡各承担25%的网络流量。康柏公司的所有 ProSignia/Proliant服务器都具有容错冗余双网卡。 PCI总线:代表Micron公司最高技术水平的产品NetFRAME 9200采用三重对等PCI 技术,优化PCI总线的带宽,提升硬盘、网卡等高速设备的数据传输速度。 CPU:系统中主处理器并不会经常出现故障,但对称多处理器(SMP)能让多个CPU 分担工作以提供某种程度的容错。 双机热备: 所谓双机热备就是使用互为备份的两台服务器共同执行同一服务,其中一台主机为工作机(Primary Server),另一台主机为备份机(Standby Server)。在系统正常情况下,工作机为应用系统提供服务,备份机监视工作机的运行情况(工作机同时也在检测备份机是否正常),当工作机出现异常,不能支持应用系统运

容错服务器的简单理解

美国stratus公司:容错服务器的简单理 【IT168 资讯】美国stratus容错公司出品的容错服务器是一种可以实现零时间停机的服务器,在一些关键性领域里应用非常广泛,例如:电信、机场、银行、冶金行业、安全、医院的HIS系统、电视台、公安、电力行业、大的零售业,等一切要求高可用性的行业, 这类用户以前在没有办法的情况下选用的是高可用性集群,英文原文为High Availability Cluster, 简称双机HA Cluster,是指以减少服务中断(宕机)时间为目的的服务器集群技术,简称双机,这种方式实现起来非常复杂,后期维护成本也很高,对技术人员的依赖也非常严重,而且因为cluster不能实现0时间停机(消除单点故障的集群可用性是99.99%),所以他的设计目标是减少停机时间而不是避免停机时间,而容错服务器设计上就是避免停机,高可用性的时间是99.9998%,如果2个方案价格相当,您选择减少停机还是选择避免停机的服务器呢? 容错的优势 容错服务器的几点优势简单说说!(主要是和双机的区别说一下) 1:国际著名检测组织IDC公布:容错服务器的高可用性是99.9998%,而消除单点故障的集群是99.99%,IBM的大型机为99.995% 2:设计上容错的目标是避免停机,而集群是减少停机(当我们有避免停机的方案,我们为什么还要选择减少停机的方案呢?) 3:容错能有效的保护动态数据不丢失,而双机只能保证写入硬盘的数据; 4:容错能支持热插拔任意的硬件,包括主板,CPU等关键性硬件, 5:布置非常简单,只需要装单套系统,数据库也只需要一套,免去双机软件和研发代码的麻烦,从而大大的减少工程师的工作量,也大大的减少了软件成本. 6:速度比同配置的双机要快20%以上. 7:后期维护成本几乎为零,而双机的话需要工程师的支持,或许由于系统补丁的升级需要额外的研发双机代码来保证系统的切换成功; 8:容错是没有切换时间的,而双机由于硬件宕机后会发生停顿的情况,还有就是双机切换工作是有可能不成功的. 9.容错的windows系统因为有容错揪错芯片,所以容错的windows系统比传统的windows系统稳定,也许您用很多年都不需要重起windows,因为它永远和刚开机一样快,容错因此承诺容错的windows比IBM的AIX还稳定.因为您用上了容错就不知道什么叫停机. 上面说了很多与双机对比的优势,下面我们通过案例来实际了解容错到底有多好:

ftServer容错服务器日常维护手册

ftServer容错服务器日常维护手册 2009-9-9 上海海得 1. ftServer 系统启动和关闭 每个ftServer 服务器都有两个电源按钮(每个CPU-IO 机箱都有一个电源按钮),在系统插上电源线后,系统中仅有一个电源按钮亮灯,且处于活动(Active)状态,这个按钮被称为主用按钮(Primary), 可用于当前系统的启动。另外的那个电源按钮被称为备用按钮(Standby)。(在一定条件下,主用按钮和备用按钮会做切换。)ftServer 服务器需要连接两路电源,我们建议至少其中的一路使用UPS输出的电源,以防因电源故障造成的系统停机;ftServer 服务器背部有连接显示器的端口,还有3 个USB口供连接键盘和鼠标使用。 如果我们需要启动系统,只要先打开显示器电源,然后按一下ftServer 的主用按钮即可;在正常情况下,如果需要关闭系统,必须在Windows系统中操作:开始——关机——确定, Windows会处理当前文件操作,并关闭系统。 在系统运行时,如果我们长时间按下主用电源按钮,可以强行关闭系统操作(这可能会导致系统或应用数据被破坏,用户应承担相应的风险) 2. ftServer 上的各种LED指示灯 ftServer 服务器上有各种LED 指示灯,它们显示了当前的系统或部件的运行情况; 分别说明如下: CPU-IO机箱状态指示灯 每个CPU-IO 机箱均有两组状态指示灯,分别位于机箱前部的左侧(机架式)或下方(塔式)和机箱后部的左下侧(机架式)或左上侧(塔式)。每组指示灯中有一个绿灯代表电源指示灯;有一个红灯代表故障鉴别灯;有一个白/橙双色灯代表单双运行状态灯;(见下图)观察这些指示灯,可以大致判断该CPU-IO机箱的当前运行情况。 (机箱前部) (机箱后部)

相关主题
文本预览
相关文档 最新文档