当前位置:文档之家› stratus ftserver 2700 容错服务器 说明书

stratus ftserver 2700 容错服务器 说明书

stratus ftserver 2700 容错服务器 说明书
stratus ftserver 2700 容错服务器 说明书

容错服务器ftServer2700/4700/640 0操作与维护指南

第一部分系统概览

系统特征

Stratus ftServer2700、4700和6400系统包含冗余的组件,他们同时处理相同的指令(锁步技术)。如果其中一个组件出现错误,它的冗余组件将会继续工作,消除系统停机时间和数据丢失。

Stratus故障安全软件为时钟同步技术增加了一个安全层,阻止许多因为停机或者断电所引起的软件错误。软件问题被捕获、分析,报告给Stratus,允许技术支持人员在软件问题出现之前准确定位出错处。Stratus 的强化的设备驱动更加的增强了在ftServer系统上的操作系统的可靠性。

Stratus ActiveService Network(ASN)提供可选的远程服务和Stratus Customer Assistance

Center(CAC)的系统事件管理或者你的授权的Stratus服务代理商。

很多ftServer系统的组件是用户可更换单元(CRU),允许最少的培训或工具的现场人员进行简单移除和替换故障组件。

系统图释

每个ftServer2700,4700和6400系统都是安装在机架上的,包括底盘和两个CPU-I/O模块,前端面板由一个DVD驱动和USB口组装成,黑色的面板是由一个可选的连接到ASN网络的调制解调器组成,整个机器还包括一些外围组件。

ftServer2700,4700和6400系统分别为下列配置:

●ftServer2700系统:单路四核处理器

●ftServer4700系统:双路四核处理器

●ftServer6400系统:双路八核处理器

注意···················································

在ftServer2700系统中,在second插槽中仍然有散热片以便气流通畅。

图1-1展示ftServer2700,4700和6400系统包含宝石切面外科的前置外观。在宝石切面外

壳的右上边有四个灯管,当外壳被安装的时候它们提供了系统状态等的显示信息。

CPU-I?O模块:前端

每一个ftServer2700,4700和6400系统包含最小的两个CPU-I/O模块。每一个CPU-I/O模块包括安装在同一块主板上的一个CPU和一个I/O组成部分。这些组成部分按照下列编号方式:

·上面模块:CPU element-0和I/O element-10

·下面模块:CPU element-1和I/O element-11

图1-2显示一个系统中的两个CPU-I/O模块没有安装宝石切面外壳的前置部分的外观。

两个CPU-I/O模块都是由一个安装在系统前置面板底部的电源按钮(图1-2的10号)控制。

其中一个I/O模块是主模块(primary或active),另外一个是从模块(secondary)。主I/O模块控制显示、USB口、COM口、DVD驱动器和调制解调器(如果连接的话)。PRIMARY系统LED灯(查看图3-2和表3-2)指示的那个模块是主I/O模块(主CPU可能是在同一个主I/O模块中,也可能是在另外一个从I/O模块中)。

注意···················································

为了简便起见,在某些情况下本手册使用主(primary或active)模块来标示CPU-I/O模块,主I/O模块位于其中。

CPU-I/O模块:背面

如图1-3所示CPU-I/O模块背面图,请查看“系统组件描述”来概要了解这些组件。

内部组件

如图1-4显示ftServer2700系统CPU-I/O模块的内部图示。

图1-5所示双路CPU的ftServer系统的内部CPU-I/O模块视图

系统组件描述

本章节介绍了ftServer2700,4700和6400系统主要的CRU和接口。要查看更多的LED灯和按钮的介绍请查看本文档后面部分。

CPU-I/O模块

ftServer2700,4700和6400系统由两个模块组成。根据系统模型和可选组件的选择,每个模块包含一个或者两个处理器。

CPU-I/O模块风扇

每个CPU-I/O模块由4个风扇冷却,风扇是用户可更换组件(CRU)。

DIMM

每个CPU-I/O模块支持4GB、8GB、16GB用户可更换的DIMM(2700不支持16DB内存配置),双路处理器支持最大512GB容量的内存,单路处理器系统每个模块支持最大支持32GB容量的内存。

双路处理器每个系统支持最大32条DIMM

单路处理器每个系统支持最大16条DIMM

内部磁盘驱动器

每个模块支持多达8块146GB、300GB和1TB容量的SAS2.5寸可热插拔磁盘。没有插入磁盘的接口必须用磁盘托架封闭。

前置面板和DVD驱动器

每个系统包括一个前端面板,面板包含一个USB2.0的DVD驱动器、一个电源按钮、系统状态LED 灯,和一个USB2.0接口。

注意···················································

只有在初始化软件安装和维护的过程中,运行ftSSS for VMware

vSphere的ftServer系统才支持DVD驱动器和其他USB存储设备。

NMI按钮

按住主CPU-I/O模块NMI按钮4-8秒就会关闭系统并且生成一个临时文件。

系统底板

系统底板将两个CPU-I/O模块连接在一起。它有三个USB接口、一个VGA接口,和调制解调器的插口。

调制解调器

连接到系统底板的调制解调器和Stratus ActiveService Network(ASN)提供了双向的通信连接。调制解调器不支持热插拔,在移除调制解调器之前你必须使用软件命令来关闭它。

USB接口

4个外部的USB2.0接口,3个位于系统后部,1个位于系统前端面板,这些USB接口是用户可配置且支持键盘和鼠标。

PCI适配器接口

ftServer2700系统每个CPU-I/O模块有两个用户可配置的接口。ftServer4700和6400系统每个CPU-I/O模块有四个用户可配置的接口。PCI适配器接口1和接口2只支持low-profile PCI适配器,ftServer 4700和6400系统的接口3和接口4支持可选的PCIe类型接口,且支持全高度(full-height)和低高度(low-profile)PCI适配器。

PCI接口支持全高度(full-height)和低高度(low-profile)PCI适配器的以下特点:

●接口1和接口2(母板上的)—低高度(low-profile)PCIe适配器只有:最大规格6.6in.(167.75mm)

长,2.536in.(64.41mm)高

●接口3和借口4(PCIe竖板下部的接口)—全高度(full-height)适配器:最大规格6.6in.(167.64mm)

长,2.71in.(68.9mm)高

想要获得更多的关于PCI适配器信息请参阅Stratus ftServer Systems:PCI Adapter Guide(R461)

以太网接口

每一个CPU-I/O模块包含两个嵌入的10、100、1000Mbps以太网接口。

虚拟专家模块(VTM)接口

VTM通过VTM接口连接到因特网。本地系统或远程管理系统可以通过VTM授权的管理员用户来管理和诊断ftServer系统。VTM一般是结合BMC共同在一个单独的硬件组件工作。

电源供电模块(PDU)

PDU为系统和外围组件分布和管理电源。

外围组件

查阅Stratus ftServer Systems:Peripherals Site Planning Guide(R582)来获得更多外围组件的详细信息,如显示单元、键盘、磁带机和存储系统。

系统CRU

表1-1按字母顺序列出ftServer2600,4500,和6300系统的用户可给更换单元。

表1-1CRU

CRU

宝石切面外壳调制解调器

CPU-I/O模块盖子PCI适配器

CPU-I/O模块PCI竖版

CPU-I/O模块风扇压力壳

DIMM内存PDU

DVD驱动器PSU风扇

内部磁盘驱动器系统背板

前置面板

查阅ftScalable Storage:Operation and Maintenance Guide(R600)获得更多关于在ftScalable Storage system中移除和替换CRU的信息。

第二部分硬件排错信息

排错相关信息

如果与Stratus有服务联系,您无需自己对ftServer2700,4700,和6400系统的复杂问题排错和主要部件维修。ftServer System Software系统软件监视所有硬件的故障。如果是瞬时故障,受影响的硬件会自动重启。如果故障是永久的,软件会将受影响的部件移除并点亮整个部件的LED状态灯。

故障会通过主动服务网络(ASN)自动报告给用户服务中心(CAC)或者你授权的服务代理。故障也会记录在系统事件日志中。

当ASN通告CAC或服务代理这个问题,他们会通知你这个问题并对其排错。如果受影响部件是可替换部件,CAC或服务代理会指导你来更正错误。如果事件日志指示一个部件错处,按照以下步骤处理:

1,定位出错部分。如果它的单路工作LED灯是亮着的,在和CAC或者服务代理第一次检查钱不要移除出错部件,查阅“LED状态灯和系统按钮”章节来获得更多信息。

2,如果CAC或者服务代理没有联系你,通知他们可能出错的部件。他们会验证评估错误。

要获得更多的CAC或服务代理的联系方式,请访问https://www.doczj.com/doc/306175853.html,/support/cac.

如果部件是CRU,按照“安装和替换组件”章节操作。如果不是,CAC或服务代理会派遣一位认证工程师到你的站点来进行排错,如果需要,会为你更换出错部件。

3,如果CAC或服务代理指导你更换CRU部件,查阅“安装和替换组件”章节来进行操作。

系统管理员文档

你的ftServer Windows系统包含ftServer StrataDOC(Windows版本)文档光盘,包括Stratus ftServer System Administrator’s Guide for the Windows Operating System(R014W)和在线帮助ftSMC,这些资料描述了软件应用方法指导。

你的ftServer Windows系统包含ftServer StrataDOC(Linux版本)文档光盘,包括Stratus ftServer System Administrator’s Guide for the LinuxOperating System(R003L)和在线帮助ftSMC,这些资料描述了软件应用方法指导。

你的ftServer Windows系统包含ftServer StrataDOC(VMware版本)文档光盘,包括Stratus ftServer System Administrator’s Guide for the VMware vSphere(R002E)和在线帮助ftSMC,这些资料描述了软件应用方法指导。

LED状态灯和系统按钮

LED状态灯位于每个模块的前部和后部。一些LED灯指示每个模块的全部状态,其他的LED灯指示了模块中独立的组件的状态。

系统ID按钮和NMI按钮也出现在每个模块的前部。

Stratus2700,4700,和6400系统支持三大类的LED状态灯:

●系统前置面板LED灯总结了系统的状态类,他们指明在线或不在线的电源、系统单工或双工

运行,和出现的系统错误;他们也包括系统ID灯。

●在宝石切面外壳后面、每个CPU-I/O模块的前部的一排LED灯,详细信息请参阅“CPU-I/O模

块LED状态灯”章节。这些LED灯指示更多的不同的系统状态。如要观察这些LED灯,请拆掉面板外的宝石切面外壳。

●在每个CPU-I/O模块后部的LED状态灯都指示系统电源、数据交换及速率,还提供系统认证。

在PCI适配器上的LED灯也在CPU-I/O模块的背部可以看到。参看Stratus ftServer Systems:PCI Adapter Guide(R461)获取更多关于PCI适配器上LED灯的信息。

在任何时候,LED都会处于以下三种状态的一种:

●Off(未点亮)

●On(常亮)

●Blinking(闪烁)

你可以通过分析LED灯颜色和状态的组合来找到特定组件的运行状况。例如你可以发现:

●如果系统组件是duplex运行模式,这种情况表示该组件和其搭配组件能正常的工作,如果你

从服务中移除双工组件,系统依然会持续运行:双工模式是可以安全的移除模块的。

●如果系统组件是simplex运行模式,在这种模式下其搭配组件错误或被移除,该组件的功能将

会消除,系统将会当机。

系统前置面板LED灯

每个ftServer2700,4700,和6400系统都有一个包含LED灯的系统前置面板,如图3-1.

系统前置面板LED灯概括了系统的所有状态且提供所有的最典型的状态信息来帮助你维护ftServer 2700,4700,和6400系统。其他的CPU-I/O模块的LED灯提供同样的细节信息。

表3-1对其进行了详细的描述。

表3-1LED灯详细介绍

LED状态描述

系统电源绿色常亮有一个或两个CPU-I/O模块都通电

绿色不亮两个CPU-I/O模块均未通电

系统错误黄色常闪

(最优先考虑)无法找到错误的组件,两个CPU-I/O模块都需要被替换

黄色常亮关键组件错误

黄色不亮系统关闭或者正常运行

系统容错绿色闪亮

(最高优先级)

主动更新在运行

系统正试图将CPU-I/O 模块切换到双工模式

绿色常亮系统双工运行

不亮系统单工运行

系统ID蓝色常亮系统ID命令正在运行

蓝色闪亮远程管理命令在认证系统

不亮

(最低优先级)

没有系统ID命令在运行

CPU-I/O模块LED状态灯

在ftServer2700,4700,和6400系统的前置面板上,每个模块都有一系列的LED灯,如图3-2。这些LED灯指示出发现模块某些组件出现的错误,以便于帮助你查找出问题和加速恢复的速度。

当系统检测出在出错状态的组件,这个组件相应的LED灯就会点亮。如果,例如一个组件的电压达到他的限制,这个组件的LED灯就会点亮,当恢复正常,他的LED灯就会灭掉。

在某些情况下,这些组件会自动的离线,他的LED状态灯会保持点亮直到这个组件被取代或者重新在线工作。

举个例子,如果CPU-I/O模块的一个处理器达到了温度限制,且没有回到正常值,那么系统会把它移除整个服务,它的TEMP LED灯会保持点亮。如果处理器冷却并低于温度限制,TEMP LED就会熄灭。紧接着会根据和连接到系统的模块配置和结果来试图重启。

当一个CPU-I/O模块离线,他的搭配模块继续工作在单工模式。如果搭档处理器也超过温度,一个有序的关机或(如果无法进行有序关机)一次意外的关机会自动运行。

当ftServer2700,4700,和6400系统运行在单工模式,且温度很高的情况下,所有的风扇将会在一个最高的转速下持续运转,除非达到临界值系统异常关机。

表3-2列出(从左到右)LED灯和他们的状态描述。(在图3-2中,最左边的放大镜图标不是LED灯,具体请查看“CPU-I/O模块上的按钮”章节)

注意···················································

1,SAFE TO PULL LED灯指示不管一个模块时候是容错,既双工状态,他都是可以安全的移除的。一个模块可安全的移除是指当所有系统组件都正常运行且使用组件对都有完全可操

作搭档组件。

2,4组内存错误LED灯在表3-2和表5-1有详细描述

表3-2CPU-I/O模块LED灯

LED标签或图标状态描述

电源不亮AC电源关闭(电源线移除)

绿色常亮DC电源打开

绿色闪亮AC电源打开和DC电源关闭,系统只处于电源

standby打开

SAFE TO PULL不亮CPU-I/O模块离线

绿色常亮CPU-I/O模块安全移除

绿色闪亮CPU-I/O模块不安全移除PRIMARY不亮该I/O不是此模块的活动I/O

绿色常亮该I/O是此模块的活动I/O

前后各一个系统ID

不亮没有使系统活动的请求

绿色常亮通过ID按钮激活认证系统

绿色闪亮来自ftSMC的远程请求(Windows系统)或

ftsmaint identify[start|stop]路径(Linux系统)

I/O不亮正常工作

黄色常亮发现错误

CPU不亮正常工作

绿色常亮发现错误

FAN不亮正常工作

黄色常亮风扇错误

MSB...LSB MSB和LSB:最重要的和最不重要的一点,这4个内存错误LED灯,

对应DIMM标签号。详细信息请参阅“内存错误LED灯”和表5-1.

PSU不亮正常工作

黄色常亮大量的电源供应错误

VLT不亮正常工作

黄色常亮DC电压错误

TEMP不亮正常工作

黄色常亮温度错误

↑甚至在模块DC电源关闭的情况下LED状态也是维持的。

内存错误LED灯

只有当CPU-I/O模块的CPU模组错误且无法服务,内存的LED灯才会点亮。四个LED灯在模块前部DIMM NUMBER标签的下方。LED灯点亮来指示一个数字(1-12)来表示出错的DIMM(查看表5-1来获得更多细节).LED灯组合成一个二进制标记,使用从左到右MSB到LSB的顺序。

注意···················································

关闭CPU-I/O模块电源之前请注意LED灯的状态。

当你关闭CPU-I/O模块的电源,内存错误LED灯也会熄灭。尽管CPU-I/O模块的电源被关闭,没有显示状态的LED灯。你依然可以通过查看Windows的系统时间日志或者Linux和VMware ESX系统的/var/opt/ft/log/ema.log.n文件来获得错误DIMM的编号。更换DIMM请查阅“更换和添加DIMM”章节获得更多的信息。

CPU-I/O模块上的按钮

每个CPU-I/O模块的前部都有两个按钮:ID按钮()和NMI按钮,如图3-2所示。

按一次系统ID按钮让三个系统ID LED灯闪亮:模块前后和前置面板的ID灯(图3-1).

当一个或者两个系统ID LED灯闪亮时前置面板ID LED灯蓝色闪亮。LED灯闪亮可以帮助你在一堆拥挤的机架上定位一个模块。

在Windows系统中,你可以通过在ftSMC中执行StartSlot Identification命令。要停止系统ID灯闪亮,你只需要再次按系统ID按钮或者执行StopSlot Identification命令即可。

在Linux和VMware ESX系统中,你可以通过执行ftsmaint identify start path命令。要停止系统ID 灯闪亮,你只需要再次按系统ID按钮或者执行ftsmaint identify stop path命令即可。

你也可以使用VTM口连接,点击Remote Control然后点击SID LED Switch来使系统ID灯闪亮。

注意···················································

开始和关闭系统ID灯闪亮的方法必须相同。

CPU-I/O模块后部的LED灯

在CPU-I/O模块的后部有一些LED灯(如图1-3)。电源LED灯常绿表示电源正在供电。参照表3-3.

表3-3电源LED

LED状态描述

绿色闪亮CPU-I/O模块有AC电源,备用电压可用

绿色常亮CPU-I/O模块接通电源,所有的DC电源可用

琥珀色闪亮或者琥珀色常亮CPU-I/O模块发现电源错误

系统ID LED灯认出CPU-I/O模块。点亮的时候为绿色。查看“CPU-I/O模块状态LED灯”章节获得更多信息。

PCI适配器LED灯指示PCI适配器的操作上的状态。查看ftServer Systems:PCI Adapter Guide(R461)获得更多细节。

磁盘驱动器LED状态灯

每个磁盘驱动器都有一个LED灯(如图3-3),他可能打开、关闭、绿色、绿色闪亮、黄色或黄色闪亮。表3-4描述磁盘LED状态灯信息。

表3-4磁盘LED状态灯状态描述关闭可安全移除,空闲或双工稳定常绿不可移除,系统在检测磁盘

稳定绿色闪亮可安全移除

绿色/黄色闪亮(源盘)

绿色闪亮

(从盘)不要移除,源盘正在给从盘同步数据。LED出现快速闪亮,在绿色和黄色间切换。

尽管移除从盘是安全的,但是重新插入硬盘时必须进行全盘的重新同步。同步过程中LED灯快速绿色闪亮。

稳定的黄色可安全移除。磁盘损坏。

操作:确认磁盘是否正确安装,重新插拔磁盘确认正确连接。如果

必要的话,更换新的磁盘。

黄色闪亮不可移除:磁盘处于单工作模式。

●如果磁盘是双镜像磁盘中的一个,从盘不可用。

操作:重新插拔从盘来重新进入双工作模式,并且验证从盘是否工

作正常。

●如果磁盘不是双镜像磁盘中的一个,该磁盘存在未镜像的卷。

或者,一个镜像过的卷存在,但是他的从盘的卷不可用。

操作:如果磁盘包含一个镜像过的卷,重新和其搭配盘做同步操作。

如果没有做镜像,可以考虑创建镜像达到容错状态。

●如果磁盘是镜像磁盘对的一部分或者包括做过镜像的卷,磁盘

或卷会重新同步

操作:等待处理过程完成

快速的断断续续的绿色闪亮磁盘处于双工作模式,数据被读写,且磁盘可以安全移除。

以太网和VTM接口LED状态灯

每个CPU-I/O模块包含:

●两个连接到嵌入的以太网控制器的工作在10、100、1000Mbps自适应的以太网接口,每个接

口有两个整合的LED灯用来显示以太网活动状态和连接速度。

●一个VTM接口有两个整合的LED灯,显示以太网活动状态和连接速度。

图3-4显示以太网和VTM接口LED灯。

表3-5描述以太网和VTM接口活动状态的LED灯

表3-5以太网和VTM接口活动状态的LED灯

LED状态描述和意思

活动LED灯关闭

无连接

活动LED灯稳定常亮

有连接但是没有工作

活动LED灯绿色闪亮

数据通过连接交换

表3-6描述了以太网和VTM接口连接速度的LED灯

表3-6以太网和VTM接口连接速度的LED灯

LED状态描述和意思

连接速度LED灯关闭

接口连接速度为10Mbps

连接速度LED灯稳定常亮

接口连接速度为100Mbps

连接速度LED稳定黄色

接口连接速度为1000Mbps(1Gbps)

LED稳定黄色闪烁,端口正处于管理软件命令中

调制解调器:LED状态灯

单个调制解调器被连接在系统后部的背板上。调制解调器有一个绿色电源LED灯和一个黄色指示灯。

如图3-5展示调制解调器的LED状态灯。表3-7详细描述了调制解调器的LED状态灯。

注意···················································

不要在接通电源的时候(稳定的绿色灯)移除调制解调器。

表3-7调制解调器:LED状态

LED状态描述和意义

绿色电源LED灯和黄色提示LED灯关闭

调制解调器电源关闭可以安全移除

绿色电源LED灯关闭且黄色LED灯打开。

错误被发现。调制解调器电源关闭可以安全移除

绿色电源LED灯打开且黄色LED灯关闭

调制解调器电源连接运行正常,通电的调制解调器是不是安全移

除的

绿色电源LED灯打开且黄色LED灯打开

调制解调器电源打开电视有错误,但是这也是不是安全移除的

绿色电源LED灯关闭且黄色LED灯闪亮

调制解调器在被认证,且不是安全移除的。

电源分配器LED状态灯

AA-P87600电源分配器(PDU)的LED灯(图3-6)反映了PDU

的状态。

注意···················································

在表中。MPS指的是主电源(main power source),TVS指的是暂时

电压抑制(transient voltage suppression)。

表3-8AA-P87600PDU状态灯

LED输入电源状态描述

TVS L-N

电源

TVS L-L

Main Power

off O-Off MPS,TVS操作

off I-On MPS,TVS操作

on O-Off MPS,TVS操作

on I-On MPS,TVS操作

on I-On MPS,TVS L-L

保险丝熔断

替换PDU.

on I-On MPS,TVS L-L

保险丝熔断

替换the PDU.

通常的磁盘驱动器问题及解决方法

表3-9罗列出内部SAS磁盘可能出现的问题,和一些解决方法。参阅管理员文档来获得更多的信息。

表3-9磁盘排错

问题解决方法

系统不能从磁盘启动确认BIOS中打开从磁盘启动选项

取出出错的系统磁盘,尝试着从系统镜像从盘启动系统。

不能读写数据有些文件可能含有病毒,为磁盘查杀病毒

某些文件可能被损坏,如果是Windows系统的系统文件可以

尝试从备份文件中修复受损文件,你有一个ASR备份,使

用ASR备份来修复系统文件。

磁盘驱动器错误或者磁盘LED灯稳定的黄色使用系统诊断工具来检查可能导致磁盘错误的问题。如果你不能解决这个问题,联系CAC或者你的服务代理。

系统无法识别磁盘确保磁盘正确的安装。对于外部扩展的USB磁盘驱动器,

确保USB数据线被插入到系统背板的USB连接器。你无法

直接将USB磁盘或者固态硬盘通过键盘上的USB连接器连

接到系统。

在VMware ESX系统中,确保你已经明确的打开USB存储

器来使用,如Stratus ftServer System Administrator's Guide

容错方案和双机热备方案的对比 2

为什么选择容错 Stratus容错服务器与双机热备方案比较

一、容错技术和集群的比较: 1、可靠性比较:

容错服务器的可靠性可达到99.999%以上,其设计原理是“容错原则---容忍错误发生,当出现任意单点故障时,不会对系统造成任何影响,系统仍然连续工作”。而集群方案的可靠性只能在99.9%~99.99%之间,其设计原理是“避错原则----当系统出现故障时,如何补救错误、避免错误进一步扩大”。 2、拓扑结构比较: 计算机业界对可靠性的定义 容错服务器独立服务器 阵的独立服务器 系统 消除单点心 系统结构复杂 环节过多,外部连接 故障发生点多 系统结构简单 如同单机,内部连接 故障发生点少 无单点故障的集群方案 无单点故障的容错方案

3、软硬件架构: 在系统架构中,容错服务器结构简单,且是单软件映像。 1、 工作原理比较: 硬软件结构复杂 依赖集群软件 对所有软件和硬件要求苛刻 切换机制只能覆盖部分实际应用情况 硬软件结构简单 纯硬件容错结构 对所有软件无特殊要求 时钟同步,无需切换

容错方案在出现任何单点故障的情况之下系统工作状态均不会中断,且是零切换时间,进而完整的保护了静态数据及动态数据。 2、维护管理及实施比较: 由于容错服务器的冗余全部是依靠硬件完成的,避免了对软件及人为因素的依赖,因此,其实施及维护非常简单、方便。 3、集群和容错软硬件可靠性实测比较: System Application Fault-Tolerant Cluster Conventional 容错方案的软硬件可靠性是最高的;集群方案虽然略微提高了硬件的可靠性,但却牺牲了软件本身的可靠性。

容错关键技术

容错关键技术 一个容错系统包含四个要素:首先是故障检测,这是容错系统必不可少的环节,其他环节以此为基础;其次是对出现的故障所造成的影响进行评估并限制其进一步传播;最后是对确定为不可恢复的故障进行处理。 容错的基本步骤概括起来是故障检测→处理故障→系统恢复。 防止故障造成系统失效有两种基本技术:即是故障掩蔽技术和系统重组技术。 故障掩蔽是防止故障造成差错的各种技术,换句话说要将发生的故障隐蔽起来。这类技术不要求在容忍故障前检测故障,但要求做到故障包容。故障包容是指使故障的影响局部化,不希望一个故障全局地影响整个系统的性能。在故障效应达到模块的输出之前,通过隔离或校正来消除它们的影响,从而达到容错的目的。 掩蔽技术不改变系统的结构,即系统部件的逻辑关系相对固定,因此掩蔽技术又称静态冗余技术。当掩蔽冗余因模块中的故障而耗尽时,再发生故障就会在输出产生错误。 系统重组是防止差错导致系统失效的各种技术。系统重组技术首先做到故障检测,然后做到故障定位,最后做到系统恢复。 系统重组技术称动态冗余技术。 故障掩蔽技术及系统重组技术是达到容错的两种基本途径。而它们又建立在资源冗余的基础上的。资源冗余主要有两种基本形式:硬件冗余和软件冗余。 1、硬件冗余 实时系统中应用最广泛的冗余形式是硬件的物理重复。随着半导体元件体积的缩小及成本的下降,硬件冗余成为更实用的一种冗余方法。硬件冗余有两种形式:被动冗余和主动冗余。 被动硬件冗余又称静态硬件冗余,是指冗余结构并不随故障情况的变化的冗余的形式。被动硬件冗余应用了故障掩蔽的概念,将发生的故障隐蔽起来,防止故障造成差错。被动硬件冗余的基本机理是通过多数表决隐蔽发生的故障。这种冗余方法一般用于多机系统。 主动硬件冗余又称动态硬件冗余,是通过故障检测,故障定位及系统恢复来

HP服务器型号

1. HP ProLiant DL 服务器 2. HP ProLiant ML 服务器 3.HP ProLiant BL 刀片式服务器 (HP Blade System 刀片服务器系统) 其中DL服务器就是机柜式服务器,ML服务器是塔式服务器,BL既刀片 服务器. 惠普服务器的型号一般为DL(or ML or BL)字母+数字 如ML110 中ML为机型是塔式服务器 110为机器编号后面再开发的为 G2,再开发为G3如此类推,既第2代,第3代. 如DL 380 G4 中DL为机柜式服务器 380为机器编号 G4为基于DL380开发的第四代服务器. 惠普的每个产品都有相对应的商品编码:一般类似为 417453-AA1(此 为DL 380 G5 服务器的编码). 而根据主板平台即CPU的不同分为Intel平台和AMD平台,在命名上 的差别就体现在命名的最后一位。 Intel平台服务器使用尾数为0的命名方式,而AMD平台则尾数为5. 如ML110与ML115的区别就在于主板平台的不同。 同样DL160与DL165, DL180与DL185都有着这样的区别。 惠普服务器分类 1.HP ProLiant 系列服务器 » HP ProLiant DL 机架服务器 » HP ProLiant ML 塔式服务器 » HP Proliant BL 刀片服务器系统 2.HP Integrity 动能服务器 » HP Integrity入门级服务器 » HP Integrity中高端服务器 » HP Integrity高端服务器 » HP Integrity BL 刀片服务器 3.HP Integrity NonStop 容错服务器 » HP 9000服务器 » 电信级服务器 4.按操作系统分类 » x86 » HP-UX 11i » Intel® Itanium® 2 » Windows® » PA-RISC » Linux » Alpha » OpenVMS » NonStop OS » Tru64 UNIX 5.按处理器类型分类

stratus ftserver 2700 容错服务器 说明书

容错服务器ftServer2700/4700/640 0操作与维护指南

第一部分系统概览 系统特征 Stratus ftServer2700、4700和6400系统包含冗余的组件,他们同时处理相同的指令(锁步技术)。如果其中一个组件出现错误,它的冗余组件将会继续工作,消除系统停机时间和数据丢失。 Stratus故障安全软件为时钟同步技术增加了一个安全层,阻止许多因为停机或者断电所引起的软件错误。软件问题被捕获、分析,报告给Stratus,允许技术支持人员在软件问题出现之前准确定位出错处。Stratus 的强化的设备驱动更加的增强了在ftServer系统上的操作系统的可靠性。 Stratus ActiveService Network(ASN)提供可选的远程服务和Stratus Customer Assistance Center(CAC)的系统事件管理或者你的授权的Stratus服务代理商。 很多ftServer系统的组件是用户可更换单元(CRU),允许最少的培训或工具的现场人员进行简单移除和替换故障组件。 系统图释 每个ftServer2700,4700和6400系统都是安装在机架上的,包括底盘和两个CPU-I/O模块,前端面板由一个DVD驱动和USB口组装成,黑色的面板是由一个可选的连接到ASN网络的调制解调器组成,整个机器还包括一些外围组件。 ftServer2700,4700和6400系统分别为下列配置: ●ftServer2700系统:单路四核处理器 ●ftServer4700系统:双路四核处理器 ●ftServer6400系统:双路八核处理器 注意··················································· 在ftServer2700系统中,在second插槽中仍然有散热片以便气流通畅。 图1-1展示ftServer2700,4700和6400系统包含宝石切面外科的前置外观。在宝石切面外 壳的右上边有四个灯管,当外壳被安装的时候它们提供了系统状态等的显示信息。

重大关键技术

2016年省重点研发计划(重大关键技术) 指南 为深入贯彻创新、协调、绿色、开放、共享发展理念,围绕全省“十三五”发展规划要求,发布2016年省重点研发计划(重大关键技术)指南。 一、信息技术领域 围绕高性能电子功能材料、行业专用集成电路芯片、高端电子信息装备、基础软件、信息安全等5个重点技术方向开展关键技术研发,推进全省信息产业领域创新链与产业链的深度契合,实现全产业链关键环节重要产品的国产化替代,提升我省电子信息产业核心竞争力,保障信息安全。 1、高性能电子功能材料关键技术 研究内容:实现高端电子器件基础材料的技术突破。重点开展超细粉体技术、电子纤维微张力控制、新型后处理工艺及浸润剂配方、高压水枪开纤技术等高性能电子功能材料加工制备关键技术研究。 预期目标:电子功能材料性能达到或超过国外同类产品技术水平,满足超大规模集成电路、超薄覆铜板、陶瓷电容器、绝缘栅双极型晶体管等高性能电子元器件的质量与性能要求,实现电子功能材料的规模化生产和国产替代。

2、行业专用集成电路芯片关键技术 研究内容:实现专用集成电路设计、测试、封装等重点环节关键技术突破。重点开展软硬件逻辑模块复用、高安全性加密算法可重构IP核、Java虚拟机及Applet应用自主芯片等关键技术研发,实现存储器、无线射频、智能卡芯片、图像传感器、光电传感器等集成电路芯片自主设计目标。 预期目标:专用芯片及器件产品实现在通信、金融、社保、物流、特种设备管理、安全管控等行业中的规模化应用和国产替代。 3、高端电子信息装备关键技术 研究内容:掌握并实现高端信息装备核心技术突破。重点开展体系结构设计、异构众核内存计算和交换加速技术、高速IO存取、恒流充电式脉冲调制器和大功率扫描系统等关键技术研发,推动产业可持续发展。 预期目标:研制新一代高端容错服务器、高能工业电子加速器、微波成像雷达等高端电子信息整套装备并形成技术标准,实现在部分重要领域高端信息装备国产替代。 4、基础软件关键技术 研究内容:实现基础软件核心技术突破。实现云数据中心虚拟化、轻量多层容器管理、资源调度和应用敏捷迁移、自适应动态负载平衡、交互式处理、并行处理分析和大数据隐私保护等关键技术突破。重点开展新一代融合架构的云数

双机容错系统方案

双机容错系统方案 1.前言 对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少的,另一方面,计算机硬件和软件都不可避免地会发生故障,这些故障有可能给企业带来极大的损失,甚至整个服务的终止,网络的瘫痪。可见,对一些行业,如:金融(银行、信用合作社、证券公司)等,系统的容错性和不间断性尤其显得重要。因此,必须采取适当的措施来确保计算机系统的容错性和不间断性,以维护系统的高可用性和高安全性,提高企业形象,争取更多的客户,保证对客户的承诺,减少人工操作错误、达到系统可用性和可靠性为99.999%。 2.双机容错系统简介 根据用户提出的系统高可用性和高安全性的需求,推出基于Cluster集群技术的双机容错解决方案,包括用于对双服务器实时监控的Lifekeeper容错软件和作为数据存储设备的系列磁盘阵列柜。通过软硬件两部分的紧密配合,提供给客户一套具有单点故障容错能力,且性价比优越的用户应用系统运行平台。 3.Cluster集群技术 Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。 Cluster大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败,并可透明的向Cluster中加入组件。 一个Cluster包含多台(至少二台)拥有共享数据储存空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。 Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。 4.工作拓扑图

冗余设计与容错设计

冗余设计与容错设计 1.冗余与容错的概念 提高产品可靠性的措施大体上可以分为两类:第一类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。而冗余是实现产品容 错的一种重要手段。

“容错(fault tolerance)”定义:系统或程序在出 现特定的故障情况下,能继续正确运行的能力。“冗余(redundancy)”定义:用多于一种的途径来完成一 个规定功能。“容错”反映了产品或系统在发生故障情 况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。严格地说,冗余属于容错设计范畴。 从原理上讲,冗余作为容错设计的重要手段,其实施流 程和原则也同样适用与其他容错设计活动。

2.冗余设计 2.1.目的 冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象 (a) 通过提高质量和基本可靠性等方法不能满足任务可靠性 要求的功能通道或产品组成单元; (b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元; (c)影响任务成败的可靠性关键项目和薄弱环节; (d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目; (e)其他在设计中需要采用冗余设计的功能通道或产品组 成单元。

ftServer容错服务器日常维护手册

ftServer容错服务器日常维护手册 2009-9-9 上海海得 1. ftServer 系统启动和关闭 每个ftServer 服务器都有两个电源按钮(每个CPU-IO 机箱都有一个电源按钮),在系统插上电源线后,系统中仅有一个电源按钮亮灯,且处于活动(Active)状态,这个按钮被称为主用按钮(Primary), 可用于当前系统的启动。另外的那个电源按钮被称为备用按钮(Standby)。(在一定条件下,主用按钮和备用按钮会做切换。)ftServer 服务器需要连接两路电源,我们建议至少其中的一路使用UPS输出的电源,以防因电源故障造成的系统停机;ftServer 服务器背部有连接显示器的端口,还有3 个USB口供连接键盘和鼠标使用。 如果我们需要启动系统,只要先打开显示器电源,然后按一下ftServer 的主用按钮即可;在正常情况下,如果需要关闭系统,必须在Windows系统中操作:开始——关机——确定, Windows会处理当前文件操作,并关闭系统。 在系统运行时,如果我们长时间按下主用电源按钮,可以强行关闭系统操作(这可能会导致系统或应用数据被破坏,用户应承担相应的风险) 2. ftServer 上的各种LED指示灯 ftServer 服务器上有各种LED 指示灯,它们显示了当前的系统或部件的运行情况; 分别说明如下: CPU-IO机箱状态指示灯 每个CPU-IO 机箱均有两组状态指示灯,分别位于机箱前部的左侧(机架式)或下方(塔式)和机箱后部的左下侧(机架式)或左上侧(塔式)。每组指示灯中有一个绿灯代表电源指示灯;有一个红灯代表故障鉴别灯;有一个白/橙双色灯代表单双运行状态灯;(见下图)观察这些指示灯,可以大致判断该CPU-IO机箱的当前运行情况。 (机箱前部) (机箱后部)

对容错服务器的正确理解

被误读的NEC容错服务器 误读一:容错很好很昂贵 由于容错服务器采用的是硬件全冗余的技术,而且在两套硬件之间还通过独立芯片和软件保证故障时零时间切换,因而其价格要比同规格的PC服务器高出许多。 更为典型的一个用户反馈是:NEC容错服务器产品很好,可用性很高,但是不是像IBM的z系列和HP的NonStop系列动辄都是百万美元? 从上述两种态度可以看出中国用户对容错的应用定位尚属模糊。根据IDC 数据,广义概念上的容错市场约占整个服务器市场的4%,包括IBM的System z、HP的NonStop和NEC的Santa Clara、Express 5800/ft以及Stratus的ftServer 6200,前三者为传统大型主机,后二者为容错服务器。显而易见,这一市场面对的是属于中高端的窄众用户。 而了解上述用户特征后自然明白,容错所谓的昂贵其实纯属误读:如果只需要进行基础IT建设的成长型企业,完全可以采用普通的塔式和机架式服务器,而不必使用容错产品;如果是需要高可用性的中高端用户,那么容错服务器相对大型主机而言,其实相当便宜。以NEC的容错服务器Express 5800/ft为例,目前最低配置的成本甚至已经与同规格的双机热备方案相当。 误读二:虚拟化取代容错 随着用户对计算资源利用率、灵活调度的高度渴求,导致近几年来虚拟技术在PC服务器上快速增长,VMware、Citrix等技术供应商也迅速走红,由此也产生了这样一种观念:虚拟万能,即通过虚拟就能实现计算资源的灵活配置、调度并保证故障时的自动迁移。 虚拟化真是万灵丹吗?显然不是。从硬件架构的层次上看,虚拟层位于底层硬件之上,只能解决虚拟机及其应用的故障迁移。如果是底层硬件故障,诸如主板故障、电源故障、CPU损坏等,虚拟技术是无能为力的。 随着虚拟化技术的普及,容错服务器会变得越来越重要。因为当物理机宕掉的时候,它会影响运行在其上的虚拟机,所以越是依赖虚拟技术的用户越需要保证底层硬件的高可用。 误读三:容错使用很复杂 对于使用过大型主机和双机热备等高可用方案的用户来说,配置及管理系统绝对是一个技术上的考验。这也使得一些用户产生了“高可用等于高复杂”的观点。

软件容错方法

容错方法: 1.Byzantine协议:有m个处理机(进程)出错的系统中要实现协同一致,至少需要2m+1 个正常处理机(进程)时才可能,也就是说至少需要的处理机(进程)总数是3m+1个。 2.微重启技术(Micro-reboot):针对大型分布式应用软件系统发生故障时的快速恢复技术。 微重启技术有别与传统的重启方式(宏重启),它采用递归恢复的方法,即将系统划分为多个故障隔离的组件子集,首先重启可能引起故障的最小子集但不影响系统其他部分的正常运行,如果不起作用,再依照故障传播路径递近地重启更大范围子集,直到故障最终解决或者需要其他恢复策略的执行。微重启可以有效避免系统因全面重启而造成的数据丢失和事务进程的中断,并且极大地缩短了因全面重启而引起的冗长恢复时间;通过快速地解决局部故障以避免整体宕机,从而提高了应用系统的可用性。 3.软件抗衰技术(Software Rejuvenation):在软件运行期间,系统可能出现资源逐渐耗尽或 运行错误逐步积累所导致的系统性能下降乃至挂起停机的现象,这种现象称为软件衰退(Software Aging)。软件抗衰是指为预防系统突然发生故障而预先采取的措施。它是一种前摄的容错技术,主要通过适时、适度地消除系统内部错误的运行状态来完成。主要措施有:周期性地暂停软件的运行,清除系统的内部状态,重新启动并恢复为干净的初始/中间状态。常见的内部状态清理手段有清除缓冲序列、内存垃圾收集、重新初始化内核表、清理文件系统等。最简单、常见的软件抗衰措施是计算机的重新引导。 4.回滚机制:可以周期性的对软件做检查点,检查点可以放在磁盘,远程内存,非易失性 的或者持久的内存中,也可以实时的对软件的操作以日志的方式进行记录。当软件出现错误时,可以根据检查点或者日志回滚到一个合适点并对先前出现的错误进行相应处理而不造成软件再次出错。 5.错误忽视技术(Failure-Oblivious Computing):在一次计算中,当错误发生在不相关的 计算中,错误忽视技术能够保证服务忽视这些错误而继续执行该计算。当内存错误发生在该计算中,错误忽视技术能够产生一个能够导致服务能处理的无效输入请求,从而服务中的错误处理模块能够进行处理。该方法的缺陷是只能处理内存相关的bug,能够产生高负载,以及由于对内存接口进行了潜在的不安全修改而可能产生程序的非预期行为。 6.编译器级容错技术:如复制指令错误探测(Error Detection by Duplicated Instructions,简 称EDDI),基本思想是编译器复制程序指令并将源指令与复制指令合并(为了提高容错性能,两种指令放在不同的寄存器和内存的不同位置)。在一定的同步点(store指令处和branch指令处),编译器插入检测指令来检查源指令与复制指令的执行结果是否一致。其优点是效率高,既可用于单机环境,又可用于分布式环境,而且可以根据不同环境加以定制。

容错服务器技术vs双机冗余

容错服务器技术vs双机冗余 2009-05-21 来自:网界网作者:宋家雨收藏 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术

双机热备份和单机容错技术的比较

目前主流应用的服务器容错技术有三类,它们分别是:服务器群集技术、双机热备份技术和单机容错技术。它们各自所对应的容错级别是从低到高的,也就是说服务器群集技术容错级别最低,而单机容错技术级别最高。由此可知它们各自应用的行业容错级别需求也是从低到高的。本文主要介绍后两种容错技术,先来看一下双机热备份容错技术。 一、双机热备份技术 双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜(也可没有,而是在各自的服务器中采取RAID卡)及相应的双机热备份软件组成,如图1所示。 图1(点击看大图) 在这个容错方案中,操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据是通过磁盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。 双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳” 信号,则系统的高可用性管理软件认为主机系统发生故障,主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。 双机热备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍。 双机热备模式即目前通常所说的active/standby 方式,active服务器处于

关键业务系统的容错或容灾措施

关键业务系统的容错或容灾措施 1.说明 为确保公司应用系统的正常高效运作,根据《计算机及网络信息系统管理规定》相关内容,特制定本措施。 2.服务器的容错与容灾 2.1每日检测UPS工作是否正常,定期对UPS进行断电测试,发现异常 及时联系供应商修复UPS。 2.2核心设备必须配置两条独立的电源供电,每日检查服务器的电源,对 供电异常的线路及时维修。 2..3每台服务器做Riad5确保数据完整,每日检查服务器的硬盘指示灯, 发现工作异常的硬盘须及时更换。 2.4为保证服务器系统正常运行,管理员需每日检查机房的温度与湿度, 若有系统,应及时调整相关设备调节温度与湿度。 2.5对于重要的服务器每日做全备份,每日检查备份日志,对备份过程中 出现的问题要及时处理。 2.6每半年做一次DRP恢复测试 2.7记录服务器的日常开关机 2.8定期检查服务器操作系统的更新,对于严重与重要的系统补丁要及时 安装,确保系统安全。 3.应用系统容错与容灾 3.1重要业务系统采用双机热备方案,以防止主服务器宕机后及时切换, 定期做系统切换测试。 3.2业务系统在开机后要确认应用的可用性。 3.3Web应用程序需部署在不同的服务器上,以便主服务器出现异常时用 户能够修改网址来继续使用系统,定期检查主备服务器的程序代码是否相同。 3.4数据库系统每日做完整备份,定期检验备份数据的完整性。

3.5应用程序源码根据备份策略每日备份。 3.6Exchange server 每月做全备份 3.7AD,DNS每日做全备份 3.8每日更新防毒软件病毒库,确保病毒库为最新,降低病毒对系统的危 害。 3.9定期更新防毒软件客户端病毒库。 4.线路容错与容灾 4.1每日定时检查网络通信质量,若出现网络不通、丢包、延时等现象, 要及时检查相关网络设备工作是否正常,对于需要更换的网络设备要及时更换。 4.2每日定时检查VPN隧道连接是否通畅,有无异常,对于异常情况及 时安排人员排查。

容错控制简介

1.2容错技术简介 容错控制及其系统组成 容错控制的发展及研究现状 1.2.1容错控制的概念和任务 容错概念最初来源于计算机系统设计领域,是指系统内部环节发生局部故障或失效情况下,计算机系统仍能继续正常运行的一种特性。后来人们逐渐把容错的概念引入到控制系统,这样人们虽然无法保证控制系统每个环节的绝对可靠,但是构成容错控制系统后,可以使系统中的各个故障因素对控制性能的影响被显著削弱,从而间接地提高了控制系统的可靠性。特别是控制系统的重要部件的可靠度未知时,容错技术更是在系统设计阶段保证系统可靠性的必要手段。 容错控制的指导思想是在基于一个控制系统迟早会发生故障的前提下,在设计控制系统初期时就将可能发生的故障对系统的稳定性及静态和动态性能影响考虑在内。最简单的情况,如果传感器或执行器发生故障,在故障后不改变控制律的情况下,如何来维持系统的稳定性就是控制器设计过程中值得注意的问题。在容错控制技术中,这种问题属于完整性控制的范畴。 在某种程度上,容错控制系统是指具有内部冗余(硬件冗余、解析冗余、功能冗余和参数冗余等)能力的控制系统,即在某些部件(执行器、传感器或元部件)发生故障的情况下,闭环系统仍然能保持稳定,并在原定性能指标或性能指标有所降低但可接受的条件下,安全地完成控制任务,并具有较理想的特性。动态系统的容错控制是伴随着基于解析冗余的故障诊断技术的发展而发展起来的。 1.2.2容错控制的现状研究 容错控制系统的基本结构为:传感器、故障检测与诊断子系统、执行器和控制器。其中,故障检测与诊断子系统能够对控制系统进行实时故障监测与辨识等;控制器则根据故障诊断信息作出相应的处理,实施新的容错控制策略,保证系统在故障状态下仍能获得良好的控制效果。在实际控制系统中,各个基本环节都有可能发生故障。 容错控制系统有多种分类方法,如按系统分为线性系统容错控制和非线性系统容错控制,确定性系统容错控制和随机系统容错控制等;按克服故障部件分类为执行器故障容错控制,传感器故障容错控制,控制器故障容错控制和部件故障容错控制等;按控制对象不同分为基于硬件冗余和解析冗余的容错控制分类。一般,为了全面反映容错控制系统的特性,常将上述各种分类方法组合运用。 1.硬件冗余方法 硬件冗余是指对系统的重要部件及易发生故障部件设置各种备份,当系统内某部件发生故障时,对故障部分进行隔离或自动更换,使系统正常工作不受故障元器件的影响,保证系统的容错性能。硬件冗余方法根据备份部件是否参与系统工作可分为静态硬件冗余和动态硬件冗余。 l)静态硬件冗余:并联多个相同的组件,当其中某几个发生故障时并不影响其它组件的正常工作。 2)动态硬件冗余:在系统中不接入备份组件,只有在原组件发生故障后,才把输入和输出端转接到备份组件上来,同时切断故障组件的输入和输出端,即运行模块的失效,备用模块代替运行模块工作。系统应该具有自动发现故障的能力与自动转接设备。 硬件冗余方法可以用于任何硬件环节失效的容错控制,建立起来的控制系统将具有较强

容错服务器的简单理解

美国stratus公司:容错服务器的简单理 【IT168 资讯】美国stratus容错公司出品的容错服务器是一种可以实现零时间停机的服务器,在一些关键性领域里应用非常广泛,例如:电信、机场、银行、冶金行业、安全、医院的HIS系统、电视台、公安、电力行业、大的零售业,等一切要求高可用性的行业, 这类用户以前在没有办法的情况下选用的是高可用性集群,英文原文为High Availability Cluster, 简称双机HA Cluster,是指以减少服务中断(宕机)时间为目的的服务器集群技术,简称双机,这种方式实现起来非常复杂,后期维护成本也很高,对技术人员的依赖也非常严重,而且因为cluster不能实现0时间停机(消除单点故障的集群可用性是99.99%),所以他的设计目标是减少停机时间而不是避免停机时间,而容错服务器设计上就是避免停机,高可用性的时间是99.9998%,如果2个方案价格相当,您选择减少停机还是选择避免停机的服务器呢? 容错的优势 容错服务器的几点优势简单说说!(主要是和双机的区别说一下) 1:国际著名检测组织IDC公布:容错服务器的高可用性是99.9998%,而消除单点故障的集群是99.99%,IBM的大型机为99.995% 2:设计上容错的目标是避免停机,而集群是减少停机(当我们有避免停机的方案,我们为什么还要选择减少停机的方案呢?) 3:容错能有效的保护动态数据不丢失,而双机只能保证写入硬盘的数据; 4:容错能支持热插拔任意的硬件,包括主板,CPU等关键性硬件, 5:布置非常简单,只需要装单套系统,数据库也只需要一套,免去双机软件和研发代码的麻烦,从而大大的减少工程师的工作量,也大大的减少了软件成本. 6:速度比同配置的双机要快20%以上. 7:后期维护成本几乎为零,而双机的话需要工程师的支持,或许由于系统补丁的升级需要额外的研发双机代码来保证系统的切换成功; 8:容错是没有切换时间的,而双机由于硬件宕机后会发生停顿的情况,还有就是双机切换工作是有可能不成功的. 9.容错的windows系统因为有容错揪错芯片,所以容错的windows系统比传统的windows系统稳定,也许您用很多年都不需要重起windows,因为它永远和刚开机一样快,容错因此承诺容错的windows比IBM的AIX还稳定.因为您用上了容错就不知道什么叫停机. 上面说了很多与双机对比的优势,下面我们通过案例来实际了解容错到底有多好:

关于计算机服务器系统的容错技术

关于计算机服务器系统的容错技术 摘要随着时代的发展,信息技术的进步,计算机已经逐渐的成为了各行各业中不可取代的一部分,我国对于计算机技术的应用也十分的广泛。其中,计算机服务器系统是计算机中十分重要的一个技术,能够为国防、医疗以及金融等各个行业为计算机系统提供不间断的服务,如果它出现问题那么会造成十分严重的损失,因此应该对于计算机服务器系统的容错技术进行足够的重视并且对其进行进一步的发展。本文主要对其进行了详细的阐述。 关键词计算机服务器系统容错技术 中图分类号:TP302.8 文献标识码:A 1容错必要性 随着计算机技术的普及,通过计算机系统来进行信息的传输并提供服务逐渐应用的越来越广泛,但是计算机的软硬件都有可能会发生故障,这些故障如果没有及时的进行解决很容易造成巨大的损失,甚至会造成整个服务的终止网络也会因此而瘫痪,因此产生难以估量的损失。因此,系统的容错性以及不间断的性质显得尤为重要,为了能够更好地保证系统安全、可靠地运行,必须要采取一定的措施来保证计算机系统能够在出现故障的时候已然可以正常的使用。经过人

们地长时间的研究,总结出来了两种方法,一种叫做避错,就是使用正确的设计并且进行相应的质量控制尽可能的避免系统产生错误,防止将错误引进系统之中,但是在实际的运行中难免会产生一些意料之外的事情,因此这种方法在实施起来有着很大的难度。另外一种就是容错,在系统中出现了某些硬件或者软件的错误的时候,系统能够执行规定的一组程序,或者说这种程序不会因为系统的故障而被中断或者在中途被修改,且其执行的结果也不包含系统中的故障引起的差错。 随着科技的不断发展,计算机技术的逐渐普及,设备的安全性以及可靠性逐渐的引起了越来越多的人的重视,因此计算机服务器系统的容错技术十分重要。当系统的内部出现故障的时候,通过容错技术能够消除故障产生的影响并且使系统最终仍然能够给出正确的结果。按照时间进行故障的划分,故障可以分为以下几种类型:永久性的故障、间歇性的故障以及偶然性的故障。随着计算机的硬件技术的不断发展,容错计算机的系统开销逐渐的降低,同时纠错的速度变得越来越快。而软件方面的容错,对于硬件不会提出过高的要求。 2容错技术概述 容错指的是计算机系统的一个或者多个关键的部件发生故障或者将要发生故障的时候,仍然能够保持正常的工作

容错与冗余技术(DOC)

容错与冗余技术 容错控制的研究虽然面临着空前的挑战,但近些年来,相关研究领域,如鲁棒控制理论,模糊控制,神经网络控制研究的不断深入和发展,也给容错控制的研究带来了良好的机遇,提供了充分的条件。 而计算机控制技术、人工智能等技术的飞速发展,使得容错控制技术在实际工程中应用的可能性变得越来越大。 1.1 容错概念的提出 提高系统的可靠性一般有两种办法:1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。2、以冗余资源为代价来换取可靠性。 利用前一种方法来提高系统的可靠性是有限的,要想进一步的提高必须采用容错技术。 容错控制技术在国外发展的比较早,是由冯·诺依曼提出的。随着八十年代微型计算机的迅速发展和广泛应用,容错技术也得到了飞速的发展,容错技术被应用到各个环境中。 我国的容错技术现在发展的也很迅速,一些重要的工作场合如航天、电厂等现在都采用了容错技术。 所谓容错:就是容许错误,是指设备的一个或多个关键部分法生故障时,能够自动地进行检测与诊断,并采取相应措施,保证设备维持其规定功能,或牺牲性能来保证设备在可接受范围内继续工作。 错误一般分为两类:第一类是先天性的固有错,如元器件生产过程中造成的错、线路与程序在设计过程中产生的错。这一类的错误

需对其拆除、更换或修正,是不能容忍的。第二类的错后天性的错,它是由于设备在运行中产生了缺陷所导致的故障。这种故障有瞬时性、间歇性和永久性的区别。 容错技术是提高系统可靠性的重要途径。常采用的容错方法有硬件容错、软件容错、信息容错和时间容错。 1.1.1 智能容错的定义 智能容错IFT(Intelligent Fault-Tolerance):就是设备在运行过程中一个或多个关键部件发生故障或即将发生故障之前,利用人工智能理论和方法,通过采取有效措施,对故障自动进行补偿、抑制、消除、修复,以保证设备继续安全、高效、可靠运行,或以牺牲性能损失为代价,保证设备在规定的时间内完成其预定功能。 智能容错技术的构成方法可以采用以下三步来实现: (1)建立系统的设计目标; (2)设计智能容错处理机构; (3)根据设计目标对所作的设计进行评价,如果满足目标则设计成功,否则将返回第二步进行重新设计,直到满足设计目标要求。 硬件智能容错HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技术。其基本思想是对设备的关键部件配备多重相似或相同部件,一旦检测和诊断出设备发生故障就可以立刻切换到备份部件,以达到故障容错的目的。图1 所示为二冗余结构原理图:

计算机冗余容错

计算机冗余容错 fault-tolerant computer rongCUO llSUQn』l 容错计算机(fault-tol~t computer)在硬件发生故障或软件产生错误时仍能继续运行并完成其既定任务的计算机系统。容错计算机的主要设计目标是为了提高计算机系统的可靠性、可用性和可信性等性能。提高计算 ·600· 容机可靠性的方法可以分为两大类:一类是排错技术,主要是通过使用可靠性高的元器件,严格的老化筛选等方法达到尽量减少发生故障的可能性; 另一类是容错技术,主要是运用元余技术来抵消由于故障而引起的影响。所谓冗余技术,简单地说,是在正常系统运行所需的基础上加上一定数量的信息、时间或后备硬件、后备软件的方法。冗余技术是容错计算机中容错技术的基础。冗余大致上可以分为下列几种类型: (l)硬件冗余以检测或屏蔽故障为目的而添加一定硬件设备的方法; (2)软件冗余为了检测或屏蔽软件中的错误而添加一些在正常运行时不需要的软件的方法; (3)信息冗余在实现正常功能所需的信息以外,再附加一些信息的方法,例如纠错码就是信息冗余的一种形式; (4)时间冗余使用附加一定的时间来完成系统的功能,这些附加的时间主要是用在故障检测或故障屏蔽上。 最常用的硬件冗余是硬件的重复。硬件冗余一般可以分为3种类型:静态冗余(也称为被动冗余)、动态冗余(也称为主动冗余)和混合冗余。静态冗余将已发生的故障屏蔽起来,使不影响运行的结果。被动冗余主要是依靠表决机制来屏蔽发生的故障,因而这种方法不需要故障检测也不必进行系统的重新配置等就可以获得容错的效果。被动冗余技术中使用最广的是三模元余TM[R。TMR的基本概念是使用3套完全相同的硬件系统执行相同的任务,然后由1个多数表决器对这3套系统的输出进行表决以确定整个系统的输出。多数表决器的表决原则是三中取二。也就是说三模冗余系统可以容许有1个模块发生故障而不至于影响到整个系统运行的正确性。三模冗余的关键是多数表决器本身的可靠性问题。提高多数表决器可靠性的方法有多种,其中最常用的方法是多数表决器本身也使用三模冗余,即利用3个独立的多数表决器,每个多数表决器分别接受来自3个模块的输出作为它的输人,然后再分别输出。这种系统通常被称为带三重多数表决器的三模冗余系统。除了三模冗余系统外,还有多于三模的冗余,称为N模冗余。主动冗余技术与被动冗余技术相反,它是通过故障检测、故障定位及故障恢复等手段达到容错的目的。因而在主动冗余技术中不是去防止故障引发的错误,而是暴露由故障引发的错误,从而去纠正错误。主动冗余技术中

容错服务器ftserver260045006300技术规格

容错ftServer设备清单及技术规格 容错服务器ftServer设备清单: 序 号 设备名称规格型号单位数量备注项目名称XXX 1.1 XX服务器 ftServer 6300 双路双模块冗余机架式服务器, 4U,Intel Nehalem-EP Xeon X5570 2.93 GHz Quad-Core Processor,8 MB L2 Cache,8 GB至96 GB DDR31066MHz DIMM内存,内置双口intel 10/100/1000 自适应网卡一对, 一对10/100M VTM 网络管理端口。最多可配置16块SAS 2.5”硬盘,可 选15 K (73 GB, 146 GB)或7.2 K (500 GB)不同规格 的硬盘。其中一对为系统盘,其他全部作为数据盘 (系统内置RAID1)。共有8个PCI-E/PCI-X插槽(四 个半高,四个全高),4 USB, 2 COM, 1 VGA 显示 器接口, 1个DVD-R/W光驱。 故障安全软件ftSSS 5.3 or above Windows Server 2003/2008 简体中文企业版 32/64-bit(1-2 CPU) 套 1.2 XX服务器 ftServer 4500 双路双模块冗余机架式服务器, 4U,Intel Nehalem-EP Xeon E5504 2.0GHz Quad-Core Processor,4 MB L2 Cache,8 GB至96 GB DDR3800MHz DIMM内存,内置双口intel 10/100/1000 自适应网卡一对, 一对10/100M VTM 网络管理端口。最多可配置16块SAS 2.5”硬盘,可 选15 K (73 GB, 146 GB)或7.2 K (500 GB)不同规格 的硬盘。其中一对为系统盘,其他全部作为数据盘 (系统内置RAID1)。共有8个PCI-E/PCI-X插槽(四 套

云计算

云计算 云计算[1](cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。[2] 对云计算的定义有多种说法。对于到底什么是云计算,至少可以找到100种解释。[3]现阶段广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。[4] 中文名 云计算 外文名 Cloud Computing 推出时间

10技术 11发展 12相关问题 13云计算草案形成 1背景编辑 云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。 云计算(Cloud Computing)是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、[5]网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、热备份冗余(High Available)等传统计算机和网络技术发展融合的产物。 2概念编辑 云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

相关主题
文本预览
相关文档 最新文档