当前位置:文档之家› 数据中心运维管理框架

数据中心运维管理框架

数据中心运维管理框架
数据中心运维管理框架

6.2数据中心运维管理框架

6.2.1.运维管理框架4Ps概述

所谓数据中心运维管理框架是指管理一个数据中心所使用的方法与手段的总称。那么,应该用什么样的方法与手段来管理数据中心呢?在此,信息技术基础架构库(InformationTechnologyInfrastructureLibrary,ITIL)给出了一个比较好的管理框架,即所谓的4Ps。数据中心运维管理框架如图6-3所示。

图6-3数据中心运维管理框架

1.人员

人员是数据中心运维管理的基础,也是数据中心运维管理的核心。一个好的数据中心运维管理框架,少不了合适的技术和管理人员。从前面数据中心运维管理概述中,可以看到数据中心所需要管理的对象,包括基础设施、IT设备、系统与数据、管理工具和人员等。只有具备相应知识背景与管理经验的人,才能有效地整合上述资源,为客户提供符合质量与合同要求的IT服务。因此,在考虑建设数据中心运维管理框架时,必须要考虑到:如何建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期;如何通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等。

2.流程

流程是数据中心运维管理质量的保证。作为客户IT服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。服务与产品有着许多的不同,其中最核心的不同在于服务本身是看不见、摸不着的,但又是能通过服务商与客户的互动为客户所感受到的。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”。

3.产品

产品是数据中心运维管理的加速器。数据中心运维管理涉及的对象庞杂,且重复性工作较多。若完全依靠人工去完成这些工作,一方面对人员的技能与数量有较高的要求,另一方面在工作质量的保证方面也存在风险。为此,越来越多的数据中心在开展运维管理工作时使用大量工具,目的是通过这些工具的部署取代一些监控、操作、配置文件、工作流管理等大量重复性工作,最终实现提升运维水平、降低运维风险、减少运维成本的目的。

4.服务商

服务商是数据中心运维管理的支持者。作为专业化的数据中心运维管理,有效地整合数据中心管理对象,并最终为用户提供专业化的服务才是数据中心服务提供者的核心价值所在。而且,数据中心运维管理中涉及了太多不同种类的设备,数据中心也不可能把所有的技术与管理工作独自承担。聘用一批既懂变压器、发电机、UPS,又了解空调、消防、防火设备,同时还精通IT相关软硬件的人员,对于任何一个企业或机构均是极大的成本支出。所以,数据中心需要与许多设备供应和服务提供商建立良好的战略合作关系。

6.2.2.运维管理的人员要求

如前所述,人员既是数据中心运维管理的基础,也是数据中心运维管理的核心。一个数据中心组建团队时应注意什么呢?以下重点就人员技能、人员分工与人员管理三个方面谈一下数据中心运维管理方面的人员要求。

1.人员技能

现在回到数据中心的运维对象来分析数据中心需要配备怎样的人员。数据中心人员技能构成如图6-4所示。

图6-4数据中心人员技能构成

基础设施操作和技术人员。这类人员的主要职责是保障与数据中心服务相关的基础设施的稳定运行。他们应掌握数据中心各类基础设施的原理、使用方式、维护方式,并具备简单故障诊断的能力。而且还能协助开展数据中心场地、设备性能的能力管理与可用性管理。由于数据中心业务的特殊性,这类人员需能支持7×24小时服务。

IT设备与IT系统的操作或技术人员。这两类人员的主要职责是保障客户IT服务相关的设备与系统的稳定运行,同时根据客户的要求完成IT系统的检查、后台操作、批作业处理、备份、恢复等相关工作。如果数据中心规模较大,将会按技能的不同将IT人员分成硬件类与系统类的两组人员。如果数据中心规模较小,通常会将这两组人员合并,统一负责数据中心所有IT设备与系统的操作与维护。

系统工具管理人员。这类人员与IT设备、系统管理人员最大的不同就是服务对象的区别。前面的IT设备、系统管理人员是围绕客户相关IT设备与系统提供服务,而系统工具管理人员则类似于内部的IT部,是为包括IT运维管理人员、IT系统技术操作人员、IT设备技术操作人员、基础设施技术操作人员在内的所有人员提供服务。而服务的手段主要是通过对现有技术管理工作进行分析,找出数据中心管理的诉求,并通过向外采购或自行开

发的方式以技术的手段去满足上述管理诉求。他们对于数据中心外部的供应商来说,承担了管理者与项目经理的角色,对于数据中心内部的技术管理人员来说,则承担着需求分析、技术支持的角色。

IT运维管理人员。这类人员主要的职责是通过建立有效的管理模式,组织上述所有人员,管理好所有的管理对象,按质按量地向客户提供数据中心业务服务。这些人员应具备数据中心管理基本知识,了解与之相关的国内外管理标准,具备相应的流程建设与实施能力、良好的客户沟通能力和较好的财务知识。

2.人员分工

数据中心在人员的分工上通常有两种做法:一种是职能支撑型的组织分工,另一种是流程驱动型的组织分工。

1)职能支撑型分工模式

职能支撑型分工模式主要是把具备同样技能与类似工作目标的人员整合在一个部门当中,他们承担起数据中心的部分职责,部门内的成员向部门领导汇报,部门领导向中心领导汇报,类似于管理学中的“直线-职能型”的组织分工。数据中心组织分工如图6-5所示。

图6-5职能支撑型的分工模式

该种分工的优点为:既保证了企业管理体系的集中统一,又可在各级负责人的领导下,充分发挥各专业管理机构的作用。其缺点是:职能部门之间的协作和配合性较差,职能部门的许多工作要直接向上层领导报告请示才能处理,不仅加重了上层领导的工作负担,也

造成办事效率低,组织内耗大等问题。这种组织适用于企业规模较小、业务系统相对稳定、项目工作不多、并为企业内部提供IT服务的数据中心。在这种情况下,数据中心的运维管理相对比较稳定,按此种方式组织的工作团队,可以较高效地开展工作。同样由于外部环境比较稳定的原因,许多工作的分工可以提前制定并加以明确,无需部门之间太多的沟通协调,从而避免了这种组织架构的最大缺陷之一——“跨部门合作”。

2)流程驱动型分工模式

流程驱动型分工模式特征为既有按职能划分的垂直领导系统,又有按客户(项目)划分的横向领导关系的结构。其中,垂直领导侧重于人员与能力培养的管理,横向领导侧重于与客户服务、项目工作相关的管理。这种分工模式从组织的角度去看,可以看到企业内存在不同的职能部门与人员,这些人员是如何支持到不同的项目虚拟团队当中,如图6-6所示。

这种分工模式的优点在于,可以改进“职能支撑型分工模式”横向联系差、缺乏弹性、客户/项目关注程度不高的问题。它的特点表现在围绕某项专门任务、或某个客户成立跨职能部门的专门机构上。例如,组成一个专门的客服团队去从事该客户服务相关的工作,在系统设计、系统集成、系统上线、系统运维各个不同阶段,由相关部门派人参加,力图做到条块结合,以协调有关部门的活动,保证任务的完成。这种组织结构形式是固定的,人员是相对不固定的,任务完成后就可以离开。人员的调动主要依靠相关工作流程,各部门人员在不同的流程中承担相应的角色职责,通过在流程中不同角色的工作来实现这种虚拟团队的合作。此外,由于这种分工模式基于多项目、多数据中心管理,故新增项目或数据中心不会对组织带来太大的影响。

这种分工模式的不足为:项目负责人/客服经理的责任大于权力,因为参加项目的人员都来自不同部门,隶属关系仍在原单位,只是为“会战”而来,所以项目负责人对他们管理困难,没有足够的激励手段与惩治手段,这种人员上的双重管理是矩阵结构的先天缺陷;由于项目组成人员来自各个职能部门,当任务完成以后,仍要回原单位,因而容易产生临时观念,对工作有一定影响。

这种分工模式适用于客户种类较多、服务要求不一致,数据中心较多的企业类型。但前提在于要在企业内部建设起较好的管理流程与人员激励机制,且垂直机构有较强的人员培养能力。

3.人员管理

考虑到人员管理对数据中心运维管理相当重要,因此需要针对企业用人的生命周期,结合一些安全的控制来建立对数据中心人员的管理体系。

6.2.3.运维管理的流程要求

数据中心建立的管理流程除应满足数据中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。为能让读者对数据中心运维管理流程可能涵盖的范围有一个较为全面、规范的了解,本节以基于ISO20000、ISO27001、ISO9001和ITIL等标准要求而建立的商业数据中心为例,介绍数据中心在运维管理流程建设方面的要求。

1.运维管理流程的范围

数据中心管理框架应包含以下七个管理领域:

(1)体系管理平台:以ISO9001质量管理体系框架搭建的管理平台作为管理接口。管理层通过这些流程制定管理方针目标,测量目标的执行,监督流程管理效果,执行PDCA(即Plan、Do、Check和Action)循环,以改进数据中心绩效,管理数据中心各类资料文件。

(2)资源管理域:包含数据中心内部人员、网络、设备、基础设施、环境等资源的管理流程,是数据中心统一管理的内部资源。

(3)服务管理域:包括与客户交互的相关流程文件,是数据中心与客户的管理接口。

(4)服务支持管理域:包括数据中心内部运作过程中的事件、问题、变更、发布处理流程等。

(5)服务交付管理域:数据中心财务管理、服务的策划和变更、可用性管理、容量管理、业务连续性管理等方面的管理内容。

(6)资源信息管理域:包括数据中心的信息资产管理、配置管理、输入/输出管理、风险评估等工作的管理。

(7)厂商管理域:包括服务商管理的相关流程,是服务商与数据中心管理的接口。

以上7个管理域所构成的管理体系框架内的流程,按照ISO9001标准的要求被划分为4阶文件。

第一阶文件是“手册”,包含体系管理平台部分的全部文件。用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审等工作。

第二阶文件是“指南”,该阶文件根据数据中心各部门的职责规定了某一具体业务的流程,并涵盖了除“体系管理平台”外其余6个管理域的文件。公司管理层可以通过这一阶文件规定各部门的工作范围及业务在各部门间的流转过程。

第三阶文件是“工作指引”,是数据中心各部门根据第二阶文件要求编写的具体部门的具体业务操作手册。同样涵盖了除“体系管理平台”外其余6个管理域的文件。该阶文件是数据中心各部门管理其内部工作的重要依据,也是员工执行管理体系的指导文件。

第四阶文件是“支持性文件”,包括支持业务流程运行的各类表单、技术文件。该阶文件记录数据中心各项业务流程运行的具体情况,还可作为体系运行结果的直接证据。

2.体系管理平台

体系管理平台用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审,持续的改进数据中心的各项流程制度。它是以ISO9001质量管理体系为基础搭建的管理整个数据中心运维管理体系的管理平台。主要作用有两项:

(1)为数据中心的管理层提供管理整个数据中心运维体系的界面。数据中心通过管理平台内的流程,进行方针、目标的制定、企业内部资源的分配、流程文件的修订发布、管理流程执行效果的审核、管理评审、运维数据的收集评审、执行持续改进运维体系的措施、调整管理体系框架等工作。

(2)为外部审核机构及客户了解数据中心的管理体系框架提供参考。

体系管理平台的文件主要包括8个,分别是:

(1)管理手册:描述管理体系的框架结构、执行范围、组织结构及各部门的主要职责。

(2)适用性说明:描述管理体系所遵循标准的适用条款及不适用条款的说明。

(3)文件管理手册:用于规定数据中心管理体系内的文件修订、发布、废止、文件版本控制、文件标示控制、文件保管的规定、文件的废止销毁流程。

(4)记录和资料管理手册:用于规定各类文件资料的保密等级及使用权限控制规定、查阅权限及保密资料的查阅申请流程、记录资料的保管规定(例如,保管期限、保管部门、记录资料的作废、销毁规定等)。

(5)内部审核手册:规定了数据中心进行内部管理体系审核的周期,审核范围,内部审核员的选用方式,执行内部审核的流程,各部门在内部审核中的职责,审核后的纠正预防措施的制定、执行工作,纠正预防措施执行效果的监督检查工作。

(6)纠正预防措施手册:用于规定整个管理体系在审核、管理评审过程中发现的需改进工作的纠正预防措施的制定、执行、监督检查工作的流程,以确保纠正预防措施被有效落实。

(7)管理评审手册:用于管理层评估管理体系的运行效果,评估公司各项方针指标的执行情况,修订方针、目标,适时修订体系文件。

(8)不合格控制手册:规定了服务不合格的概念及发生服务不合格后的处理方法。

3.资源管理

数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。

1)环境管理

数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。

在制定数据中心环境管理相关文件时,通过对各区域内所存放的信息资产的等级进行分析,将数据中心划分成不同类别的管控区域和安全区域。建议至少划分为3类区域:公共区域、办公区域、安全管制区域。

(1)公共区域:这些区域通常用于数据中心生活与展示的配套区域。该区域允许员工及获准进入数据中心的第三方、客户在遵守相关制度的前提下自由进出。

(2)办公区域:数据中心内存放日常行政办公信息处理设备和其他办公设备,开展日常工作的区域。这类区域的进入通常需要办理相关的进入申请,配备有视频监控系统。

(3)安全管制区域:数据中心内存放核心信息处理设备和供配电等基础设备,开展一线服务工作的区域。这类区域严格限制人员设备的进出,有先进的门禁及监控系统以确保信息系统安全。

在编制环境管理相关流程时应考虑人员进出的要求,还应考虑设备和物品进出的流程。设备和物品的进出应得到正式的审批,特别是对于安全管制区域所有的IT类设备、存储介质应重点控制。

2)网络管理

网络作为数据中心重要的资源,应制定相关流程予以控制。建议网络管理流程包括如下管理内容:

(1)网络拓扑结构:应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。

(2)网络的访问管理:应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的人员负责网络接入和终止接入的管理工作。

(3)网络系统日常维护流程:应有专门的工作指引用于指导网络设备的日常维护,日志的备份、配置信息的备份。

3)设备管理

数据中心的设备管理主要包括对设备的固定资产管理,设备维护管理等。数据中心在起草相关流程文件时应关注以下几点:

(1)编制设备清单:明确设备的所有者、管理维护人员或部门、开始使用的日期、设备的重要等级等信息。此类信息最好悬挂或张贴于设备上或设备周边的醒目位置以便于管理。

(2)制订设备的维护计划:规定具体设备的维护日期、维护人等信息,并由专人负责按照维护计划进行维护或联系、督促服务商执行维护。

(3)将设备按重要等级进行分类:设备按照等级分类,并按不同的设备重要等级制定不同的管理策略,最大限度的确保重要设备的运行。

4)软件管理

数据中心软件管理通常需要关注以下三项内容:

(1)计算机系统安装软件的管理:对于数据中心的办公用计算机、监控用计算机和生产用计算机来说,其安装的软件应该受到严格的控制,避免员工随意安装软件。从软件管理角度,数据中心应建立可安装软件的认证工作,通过对软件使用的分析建立一张可安装软件的清单,对于清单范围外的软件不允许安装。对于监控、生产用的计算机及可连入生产网的计算机,其安装的软件需经过认证,并对所安装的软件进行记录,定期检查是否存在使用其他软件的情况。

(2)软件维护及补丁管理:随着各种利用安全漏洞的病毒和恶意程序的增多,软件维护和补丁的更新工作也显得极其重要。对于软件补丁的安装管理应做好以下几项管控工作:补丁的测试、补丁的发放和安装、版本控制,建议补丁的管理由专人负责。

(3)数据中心软件许可证的管理:随着知识产权意识的提高,是否使用有合法许可授权的软件已经成为越来越多数据中心和客户关注的问题。软件许可证的管理要作为数据中心的一项重要工作。其重点在于管理数据中心所拥有的合法软件许可证,确保在许可证许可范围内使用软件,确保软件的安装有记录可查。

5)存储介质管理

数据中心经常面临大量的介质管理工作,介质管理工作的成功与否直接影响数据中心的信息安全。一个良好的介质管理工作应包括以下几方面的内容:

(1)空白介质与有数据介质保存方式的规定:两种介质分开保存并有明显标示以示区别,同时应明确介质的保存地点,做到介质统一保存。

(2)应制定统一的介质编号、标示原则:对介质作统一的编号标示,便于介质管理。

(3)有条件时建立介质管理员制度:确保介质的专人管理,可减少介质管理的混乱。

(4)有数据介质的领用查阅应得到控制:介质领用、报废应有适当的审批过程。应规定清除报废介质内残余数据和销毁处理报废介质的流程,避免信息泄露。

6)防病毒管理

随着计算机病毒的日益泛滥,防止数据中心的生产设备、办公设备受到病毒侵害已经成为数据中心管理中不可缺少的工作内容。防病毒管理流程主要包括以下几个方面:

(1)防病毒软件的管理:这里主要包括软件的安装、软件的设置、病毒库更新,软件版本控制、定期查杀病毒等。

(2)病毒资讯:安排专人随时了解病毒最新信息,可能爆发的病毒类型、染毒后现象及对信息系统的影响,查杀方法等,并将这些信息通过定期通告和随时通报两种方式提醒数据中心相关人员查防。

7)应用管理

广义的应用管理包括了数据库、中间件和应用系统本身在内的所有管理。它是绝大多数IT服务的“灵魂”。对于数据中心而言,挑战在于要同时管理大量复杂并且相互关联的应用。在这种情况下,除了要建立并运用同样适用于整个应用管理的ITIL流程外,几个适合数据中心应用管理的最佳实践是:

(1)将应用按重要程度进行分级。毫无疑问,理想情况下,所有的应用都应视为同样“重要”。但是在资源总是相对不足的现实情况下,必须区别对待。因此,在管理数目众多的应用系统时,基本的一点就是根据应用系统所提供的IT服务的重要性来对应用系统进行级别划分,并以此进行归类。这个级别的定义可以提供应用系统管理维护所涉及的多个流程,包括事件管理、问题管理、安全级别管理等最基本的信息。例如,一个一类应用(最重要)中断1小时和一个四类应用(相对最不重要)中断1小时,显然事件的等级是不一样的。所以,将应用按重要程度进行分级对于更为合理的分配资源有重要意义。

(2)制作应用地图。首先要制作系统结构图和网络拓扑图,同样,还需要制作应用拓扑图,也称为应用地图。如图6-7所示,应用地图将应用按其功能类别划分为应用群,赋予不同的色块标识进行布局,使其便于统计和管理。一个应用占用一行或一列,在这行或者

这列中,从首到尾,分别在每一格列出网络设备、服务器、数据库、中间件,最后是应用。每一格都可以再标示出具体的信息,如服务器的型号,数据库的版本,应用的名称和版本等,从而清晰地表现出各个应用相关的最主要信息。应用地图是快速了解总体应用部署情况,并在应用出现故障时,迅速定位原因,最为直观有效的形式之一。

图6-7应用地图

(3)了解应用数据流。虽然应用地图可以帮助快速了解应用和基础系统之间的关系,但是应用和应用之间的逻辑关系却没有展现。所以,对于数据中心而言,深入研究并绘制多个应用系统之间数据的流向是有必要的。应用数据流可以用图形,也可以用表格来表示。应用数目较少时,用图比较直观;但当应用数目超过一定量时,表格的形式就更为合适。但不管是用图,还是用表,应用数据流都应该至少包含以下几个元素:数据提供的应用系统名称(一般称为上游应用)、提供的数据类型、文件名称、时间、周期、本应用系统名称以及数据接收的应用系统名称(一般称为下游应用)等。如图6-8所示,针对任何一套应用系统,通过应用数据流图,可以很清楚地知道一旦停运,对其他应用系统的影响,这对于事件、问题或变更的影响评估有非常重要的意义。

图6-8应用数据流图

8)日常操作管理

数据中心的日常操作管理主要包括数据中心内部生产系统、办公系统、动力设备、环境保护、监测系统的数据处理、操作、维护的管理,以及数据中心信息处理设施、基础设施设备的软硬件运行情况巡检等监控工作的管理。

数据中心应该为每一台设备编制相应的操作工作指引。不建议以服务商或设备制造商提供的使用说明书或技术资料直接作为工作指引使用。工作指引编制应该满足数据中心实际使用的需要,用于指导操作人员在实际环境下操作设备的各项功能。

建议制定相关的巡检工作指引,规范数据中心的日常巡检工作。工作指引应规定巡检的周期、巡检项目、判定设备正常的标准、出现异常后的记录和汇报方式以及事件管理的接口。对巡检设备及内容做成检查表,巡检记录以表格形式呈现。

9)用户密码管理

用户密码是数据中心运行的重要信息。用户密码的妥善管理可以减少数据中心运行的风险,提高数据中心运行的效率,确保信息的安全。

用户密码管理不完善的数据中心可能会遇到如下问题:

(1)管理员密码丢失(忘记密码)。

(2)登录时发现密码不正确,不知是谁改过。

(3)需要对系统进行调整时发现管理员休假,但只有他有密码,所以系统调整工作只能暂停。

(4)管理员偶然发现系统里有一个未知用户,经查发现该用户属于一个曾经在数据中心工作的人员,该人员已离职半年,但该用户没有被删除。

这些都是用户密码管理不完善的结果。一个良好的密码管理流程主要应包括以下几个方面:

(1)用户密码分级管理:数据中心应根据密码的重要程度将密码划分为若干个等级,并对不同等级的密码采用不同的管理策略。

(2)明确用户密码创建、变更流程:用户密码的创建、变更和使用应该有一套严格的流程进行控制。避免不受控的密码创建、变更和使用的行为。

(3)用户密码的使用中应注意以下问题:

①一个用户密码只能一人使用,避免出现几人共用一个用户密码的现象。

②用户密码的使用和生成应由不同人员分别进行,避免密码使用者私自修改密码。

③密码必须定期修改。

④密码的强度需要事先被定义。

(4)密码的保管:对于重要密码,除在用户处保留外还应在适当的地点另外保留密码副本,以避免由于密码遗忘、丢失对数据中心运行造成严重影响。此外,建议使用密码信封管理密码。当密码保存在密码信封后,密码信封本身的制作、保存、更新应制定相应流程,以确保密码信封的管理是受控和安全的。

(5)用户密码的撤销:数据中心应建立一套用户密码撤销删除的流程,重点加强离职人员及工作调动人员所用密码的撤销管理。

10)员工管理

员工作为数据中心重要的资源需要进行有效管理。数据中心的员工管理流程应包括:

(1)员工招聘、任用流程。明确员工招聘任用的流程,明确签订劳动合同和保密合同的过程。

(2)员工培训流程。数据中心属于技术密集型组织。由于IT领域新技术、新产品层出不穷,所以确保员工获得相关的技术和能力培训显得至关重要。应规定员工接受培训的流程,员工培训主要包括上岗培训和日常培训。

(3)员工离职及岗位调整流程。员工离职或岗位调整后,应完成各种工作交接,并应收回各类技术资料、系统权限、网络权限、出入证件、门禁系统权限。

4.服务管理

1)服务水平管理

服务水平管理是ISO20000、ITIL的重要组成部分,也是数据中心管理的重要组成部分。服务水平管理主要通过SLA(服务水平协议)/OLA(运维水平协议)/UC(支持合约)来协调IT

服务各方之间的关系。服务水平管理主要管控如下活动:

(1)识别客户需求:制定与客户沟通的相关职责,获取客户需求。完成SLR(服务级别需求),作为制定SLA的重要依据。

(2)定义服务项目:在确定SLA后,服务级别管理人员需要根据SLR总结出满足客户需求的服务项目,并形成服务描述单和服务质量计划。

(3)签订协议:服务级别经理组织签署服务支持合同和运作级别协议,签署SLA。

(4)服务级别的监控和报告:编写流程对服务级别协议执行的效果进行监控并形成报告。

(5)评审和改进:服务级别经理应评审服务级别协议执行状况并作相关改进计划。

2)业务关系管理

业务关系管理流程包含至少3个部分:服务评审、客户满意度调查、客户抱怨管理。

(1)服务评审:与客户进行定期或不定期的针对服务提供情况的沟通。每次的沟通均应形成沟通记录,以备数据中心对服务进行评价和改进。

(2)客户满意度调查:客户满意度调查流程主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。数据中心可根据客户的特点制定不同的客户满意度调查方案。

(3)客户抱怨管理:客户抱怨管理流程规定数据中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。应针对客户抱怨完成分析报告,总结客户抱怨的原因,制定相关的改进措施。在实际工作中,有些重要客户的抱怨或客户抱怨的严重问题对数据中心影响较大。为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。

3)服务报告管理

服务报告管理流程旨在向客户和管理者提供与服务相关的数据和信息。在服务报告管理流程中应明确以下几个要素:

(1)服务报告各类数据的获取途径。做到一类数据只能由一个职能部门提供。

(2)服务报告的内容定义。应确保和管理层、客户就相关服务报告的内容达成一致。

(3)服务报告的提供周期。应该明确服务报告的提供周期,具体周期可根据客户或管理层的要求定义。

(4)明确服务报告的制作部门和审批途径。

5.服务支持

1)事件管理

事件管理主要管控引起或可能引起服务中断或服务质量下降的不符合IT服务标准操作的活动。这里的事件不仅包括软硬件故障,也包括服务请求。当处理多个事件时应根据事件的影响、紧急程度、解决事件的难易决定事件的优先级。如在协议时间内无法解决事件还应考虑事件的升级流程。

事件管理流程与问题管理、服务水平管理、变更管理、配置管理有着复杂的联系。在制定数据中心的事件管理流程时应充分考虑事件管理与这些流程的关系和接口。下面通过事件管理流程简图来简单介绍事件管理的过程,如图6-9所示。

首先是事件的发起,在这张流程图中,数据中心的事件发起主要包括3个方面:客户请求、数据中心自动监控系统提供的报警、数据中心日常巡检中发现的异常。

在事件发生后,事件记录员首先记录该事件。在事件管理流程中应规定记录事件的内容,如果数据中心没有使用ITSM的电子化工具,应通过表格形式记录事件内容,表格的具体样式、内容,可根据实际业务特点设计。

在事件记录员记录事件后,事件经理可根据事件记录对事件进行初步支持和事件分类,在这一步,事件经理需要对事件的紧急程度、重要等级、事件影响和处理难易进行初步分析,由此确定事件的优先级。把事件设计的配置项关联到配置管理数据库(简称CMDB,指记录每个配置项(CI),以及不同配置项之间重要关联详情的数据库),分配事件处理任务到相关受理人员。

在事件经理分配任务后,事件受理员需对事件进行分析和处理。处理事件时可参考问题管理的相关信息。

在事件分析并给出解决方案后,进入事件的解决过程。事件的解决通常需要通过变更管理流程进行。所以,这一步需要留下变更管理的接口。在处理完事件后,需要和问题管理交互信息。

当事件确认解决后,由事件记录员关闭事件。

2)问题管理

问题管理流程是通过调查和分析IT基础架构的薄弱环节,查明事件产生的潜在原因,并制定解决事件的方案和防止事件再发生的方案。与事件管理强调处理速度不同,问题管理是强调查处事件的根源,从而制定恰当的解决方案,防止类似事件再次发生。

通常问题管理与事件管理、变更管理、配置管理都有很紧密的联系。下面以问题管理流程图(如图6-10所示)为例,介绍问题管理的主要活动。

数据中心问题管理部门通过对事件等信息的分析提出问题,并由问题管理员记录该问题。

问题经理对问题进行分析和处理。该部分工作主要包括以下4项:

(1)将问题关联到事件管理流程记录的相关事件。

(2)将问题关联到配置管理项。

(3)设定问题的优先级。

(4)将问题分配给问题受理员处理。

问题经理将问题分派给问题受理员后,问题受理员通过分析,查找问题的原因并制定相关解决措施。

当问题的原因被发现并得到了解决措施后,应由问题经理管理问题,同时应通过变更管理进行相关变更,并通过配置管理流程更新相关配置项。

问题管理的最后一步是更新知识库。

问题管理流程本身并不复杂,但很多数据中心都不能很好地实施问题管理流程。通常大多数数据中心在实施问题管理流程时遇到的最大“问题”就是“找不到问题”,从而导致问题管理流程不能被真正实施。因此,建议采用如下方法发现数据中心的问题:

(1)充分利用服务报告,从报告中未能满足SLA的情况入手发现问题。

(2)充分利用事件管理流程,把具有相关性的事件作为问题管理的研究对象。

(3)利用系统管理工具的监测数据发现问题。

(4)通过客户满意度调查、客户座谈、客户反馈找出问题。

3)变更管理

变更管理是在最短的中断时间内完成基础架构或服务的任何一方面变更的流程。通常情况执行了一个问题管理流程、事件管理流程、服务水平管理流程后,需要通过变更管理实施事件管理流程或问题管理流程所产生的事件处理方案或问题解决措施。

变更管理在施行中应注意通过合理的计划和周密的准备把中断业务或服务的时间减少到最小。

下面就以变更管理流程图(如图6-11所示)为例,介绍变更管理的主要活动。

变更流程的启动:通常,事件管理流程、问题管理流程、服务水平管理流程会启动一个变更管理流程。变更经理需要对变更请求进行审批。在这个阶段,变更经理主要对变更请求进行复核,并确定变更的优先级,然后将变更分派给相应的变更受理员进行变更操作。

变更受理员根据变更的情况制定变更执行的详细计划,这些计划应尽量详细以减少由于变更时间过长而对服务的影响。应在制订变更计划的同时制订一个变更失败后的回退计划,以避免一旦变更失败对数据中心运维造成较大影响。

变更经理需要对变更受理员制定的变更计划进行审批,然后交由变更实施人员进行实施。变更实施后,变更受理员应对变更实施的结果进行检查,以确认变更执行有效,并将结果通报变更经理审批。变更经理审批完变更后,变更受理员可以关闭该变更流程。

6.服务的交付管理

1)容量管理

容量管理主要关注企业与IT基础设施之间的关系。这个流程不仅要评价现有服务的能力,还要分析和预测数据中心未来发展的需要。

容量管理流程应着重规范以下3个方面的内容:

(1)业务能力管理:关注数据中心未来业务对IT服务的需求,并确保这种未来的需求在制订业务能力计划时得到充分的考虑。

(2)服务能力管理:关注现有的IT服务能力、品质能否达到服务级别协议中所确定的服务目标。

(3)资源能力管理:关注IT基础架构内每个组件的能力和使用情况,并确保IT基础架构的能力足以满足支持服务级别协议被履行。

数据中心可通过编制能力计划的形式完成以上工作内容。

2)业务连续性管理和可用性管理

在当今以服务为导向和以客户为中心的业务环境下,维持数据中心的持续运维对数据中心具有重大意义。尤其在发生灾难的情况下如何确保数据中心的持续运作是数据中心管理人员必须关注的问题。

业务连续性管理就是负责数据中心预防灾难、增强IT基础架构在灾难发生后的恢复能力的管理流程。它着重确保数据中心在诸如地震、洪水、火灾、失窃、恐怖袭击、网络攻击、大范围停电等灾难后尽快恢复运作,减少因数据中心停止运行而带来的损失。

数据中心的业务连续性管理流程主要包括制定业务连续性目标、业务影响分析、灾难恢复应急预案三方面内容:

(1)制定业务连续性目标:它是数据中心制订业务连续性方案,进行风险分析的重要依据。确定数据中心发生灾难后可接受的业务停顿时间,是其主要内容。

(2)业务影响分析:指对可能造成数据中心业务中断的灾难事件进行分析,重点是分析其对应的场景、业务替代难易程度、对相关业务持续的影响、对数据中心整体发展的影响、灾难事件所发生的概率等。目的是筛选出最可能影响到数据中心持续运维的灾难事件场景,为制定应急预案确定前提条件。在进行业务影响分析时应关注:

①场景的确定:从替代性风险、中断与否、影响程度、发生概率四个方面对不同场景的不同原因进行分析,找出风险值最高的场景原因,为灾难恢复计划的制订确立场景。

②可接受风险值的确立:在综合衡量成本与各场景的风险值后,决定数据中心对风险值的接受程度,凡风险值高于可接受程度的场景均需制订灾难恢复计划。

(3)灾难恢复应急预案:应急预案是为确保发生灾难事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:

①根据业务影响分析的结果及灾难场景的特点编写应急预案,确保当紧急事件发生后可维持业务运作,在重要业务流程中断或发生故障后在规定时间内恢复业务运作。

②应急预案除包括特定场景出现后各部门、第三方的职责与任务外,还应评估复原可接受的总时间。

③应急预案必须经过演练,使相关责任人熟悉应急预案的内容。

云计算中心运维管理制度

云计算中心运维管理制度 在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理就是:为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负起以下重要目标:合规性、可用性、经济性、服务性等四大目标。 由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性除基于ITIL的常规数据中心运维管理理念之外,以下运维管理方面的内容,也需要我们加以重点分析和关注。 一、理清云计算数据中心的运维对象 数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象共可分成5类: (1) 机房环境基础设施部分。这里主要指为保障数据中心所管理设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于用户来说几乎是透明的,因为大多数用户基本并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的应用来说,却是致命的。 (2) 在提供IT服务过程中所应用的各种设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。 (3) 系统与数据,包括操作系统、数据库、中间件、应用程序等软件

资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见,摸得着”,但却是IT服务的逻辑载体。 (4) 管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其直接相关的资源,从而间接地提升的可用性与可靠性。(5) 人员,包括了数据中心的技术人员、运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理的对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。 二、定义各运维对象的运维内容 云计算数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。要对每一个管理对象的日常维护工作内容有一个明确的定义,定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统的全生命周期的追踪管理。 三、建立信息化的运维管理平台系统 云计算数据中心的运维管理应从数据中心的日常监控入手,事件管理、

数据中心运维投标书

数据中心运维投标书 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】

数据中心运维投标书 **有限公司 二零一四年八月

目录

第一章投标申请及声明 致:****采购中心 根据贵方为项目招标的投标邀请(项目编 号:),签字代表(姓名、职务)经正式授权并代表投标人(投标人名称、地址)提交下述文件正本一份,副本四份: 1.投标文件 2.投标一览表 3.投标分项报价表 4.服务产品说明一览表 5.偏离表 6.资格(资质)证明文件[包括招标公告中要求提供的资格(资质)证明材料] 7.招标文件要求提交的其他文件 8.投标诚信承诺书 在此,签字代表宣布同意如下: 1.我方完全了解在本项目招标公告中公布的采购预算,并承诺各包件的投标价不超预算。所附投标一览表中规定的各包件应提供和交付的服务的投标价为: (以人民币元为单位,用文字和数字分别表示)。 2.我方将按招标文件的规定履行合同责任和义务。 3.我方已详细审查全部招标文件,包括澄清文件(如有的话)以及全部参考资料和有关附件,我方完全理解并同意放弃对这方面有不明及误解的权利。 4.我方接受本项目招标文件“投标资料表”中所规定的投标有效期。。 5.我方同意提供按照贵方可能要求的与其投标有关的一切数据或资料,完全理解贵方不一定要接受最低价的投标或收到的任何投标,完全理解并接受招标人和招标机构对评标资料保密且不解释落标原因。 6.我方已按照本项目招标文件中所附的《资格(资质)性检查表》以及《符合性检查表》进行了自查,对招标机构根据《资格(资质)性检查表》

判定无效投标以及评标委员会根据《符合性检查表》判定非实质性响应投标无任何异议。 7.我方同意按照《政府采购法》及相关法律法规的规定提出询问或质疑。我方已经充分行使了对招标要求提出质疑和澄清的权利,因此我方承诺不再对招标要求提出质疑。 8.与本投标有关的一切正式往来信函请寄: 地址:邮编: 电话:传真: 手机:电子邮件: 投标人法人授权代表签字 投标人名称 公章 日期 开户银行 账号

数据中心运维管理框架

6.2数据中心运维管理框架 6.2.1.运维管理框架4Ps概述 所谓数据中心运维管理框架是指管理一个数据中心所使用的方法与手段的总称。那么,应该用什么样的方法与手段来管理数据中心呢?在此,信息技术基础架构库(InformationTechnologyInfrastructureLibrary,ITIL)给出了一个比较好的管理框架,即所谓的4Ps。数据中心运维管理框架如图6-3所示。 图6-3数据中心运维管理框架 1.人员 人员是数据中心运维管理的基础,也是数据中心运维管理的核心。一个好的数据中心运维管理框架,少不了合适的技术和管理人员。从前面数据中心运维管理概述中,可以看到数据中心所需要管理的对象,包括基础设施、IT设备、系统与数据、管理工具和人员等。只有具备相应知识背景与管理经验的人,才能有效地整合上述资源,为客户提供符合质量与合同要求的IT服务。因此,在考虑建设数据中心运维管理框架时,必须要考虑到:如何建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期;如何通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等。 2.流程

流程是数据中心运维管理质量的保证。作为客户IT服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。服务与产品有着许多的不同,其中最核心的不同在于服务本身是看不见、摸不着的,但又是能通过服务商与客户的互动为客户所感受到的。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”。 3.产品 产品是数据中心运维管理的加速器。数据中心运维管理涉及的对象庞杂,且重复性工作较多。若完全依靠人工去完成这些工作,一方面对人员的技能与数量有较高的要求,另一方面在工作质量的保证方面也存在风险。为此,越来越多的数据中心在开展运维管理工作时使用大量工具,目的是通过这些工具的部署取代一些监控、操作、配置文件、工作流管理等大量重复性工作,最终实现提升运维水平、降低运维风险、减少运维成本的目的。 4.服务商 服务商是数据中心运维管理的支持者。作为专业化的数据中心运维管理,有效地整合数据中心管理对象,并最终为用户提供专业化的服务才是数据中心服务提供者的核心价值所在。而且,数据中心运维管理中涉及了太多不同种类的设备,数据中心也不可能把所有的技术与管理工作独自承担。聘用一批既懂变压器、发电机、UPS,又了解空调、消防、防火设备,同时还精通IT相关软硬件的人员,对于任何一个企业或机构均是极大的成本支出。所以,数据中心需要与许多设备供应和服务提供商建立良好的战略合作关系。 6.2.2.运维管理的人员要求 如前所述,人员既是数据中心运维管理的基础,也是数据中心运维管理的核心。一个数据中心组建团队时应注意什么呢?以下重点就人员技能、人员分工与人员管理三个方面谈一下数据中心运维管理方面的人员要求。 1.人员技能

数据中心运维服务方案

数据中心机房及信息化终端设备维护方案 一、概况 xxx客户数据中心机房于XX年投入使用,目前即将过保和需要续保运维的设备清单如下:

另外,全院网络交换机设备使用年限较长,已全部过保,存在一定的安全隐患。 二、维保的意义 通过机房设备维护保养可以提高设备的使用寿命,降低设备出现故障的概率,避免重特大事故发生,避免不必要的经济损失。设备故障时,可提供快速的备件 供应,技术支持,故障处理等服务。 通过系统的维护可以提前发现问题,并解决问题。将故障消灭在萌芽状态, 提高系统的安全性,做到为客户排忧解难,减少客户人力、物力投入的成本。为 机房内各系统及设备的正常运行提供安全保障。可延迟客户设备的淘汰时间,使 可用价值最大化。 通过引入专业的维护公司,可以将客户管理人员从日常需要完成专业性很强 的维护保养工作中解放出来,提升客户的工作效率,更好的发挥信息或科技部门 的自身职能。 通过专业的维护,将机房内各设备的运行数据进行整理,进行数据分析,给

客户的机房基础设施建设、管理和投入提供依据。 三、维护范围 1、数据中心供配电系统 2、数据中心信息化系统 3、全院信息化终端设备 4、数据库及虚拟化系统 四、提供的服务 为更好的服务好客户,确实按质按量的对设备进行维护;我公司根据国家相关标准及厂商维护标准,结合自身多年经验积累和客户需求,制定了一套自有的服务内容: 1、我公司在本地储备相应设备的备品备件,确保在系统出现故障时,及时免费更换新的器件,保障设备使用安全。 2.我公司和客户建立24小时联络机制,同时指定一名负责人与使用方保持沟通,确保7*24小时都可靠联系到工程技术人员,所有节日都照此标准执行。 3.快速进行故障抢修:故障服务响应时间不多于30分钟,2小时内至少2人以上携带相关工具、仪器到达故障现场,直到设备恢复正常运行。 4.我公司对维修维护的设施设备的使用性能负责,在维修维护过程中严格执行技术规范,保证设施设备的性能符合相关技术标准要求。在维修维护间,我方应对设施设备可能存在的故障隐患做出评估,并进行恰当的预防性处理,以保证设

云计算数据中心的运维管理

云计算数据中心的运维管理 现代信息中心已成为人们日常生活中不可缺少的部分,因此信息中心机房设备的运行正常与否就非常关键。在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。加强对云计算运维管理的要点以及相应改进方面措施的研究与探讨,以此不断提高IT运维质量,实现高效的运维管理。这就给运维是否到位提出了严格要求。 1 运维在机房中的地位 在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理是,为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负合规性、可用性、经济性、服务性等四大目标。 在信息中心机房配备有运维人员,但大都是“全才”的,即什么都管,尤其是对供电系统大都是由主机运维的人员代管。当电源系统出故障时,此代管人员一问三不知,甚至连配电柜门都没开过。这实际上就是把机房的运维放在了一个次要的地位。 当然也有的地方有所分工,看似重视,实际上也没得到真正地重视。比如说机房设备长时间一直运行正常,这时如果运维人员提出要增添运维方面的测量设备,有的领导就认为多余,很难得到批准。但他不知道机房设备所以长时间一直运行正常,正是由于这些运维人员的细心维护和努力保养所获得的。并不是这些人员每天闲着无事可干,他们的这些工作一般是领导看不见的。比如同样多款的UPS在同样的环境条件下,在某卫星地面站就极少出故障,而在同系统别的地方机房同一家同规格的机器就故障连连。原来是前者的运维人员每天都在细心观察和分析机器面板LCD上显示的数据,一旦发现异常苗头及时采取措施;而后者只限于每天抄写这些数据就算完成任务,使异常苗头不断积累,以致于导致故障。比如断路器在额定闭合状态发现触点处温度高了,就要检查是不是电流过大到超过额定值,如果不是就要检查触点接触是否牢靠,是否需要再紧固一下。这样一来,故障隐患就排除了。如果一直不管不问久而久之就会导致跳闸而使系统崩溃。这都是一些小的动作,都是在巡查中顺便做的事情。所以同是运维人员在巡查,但前者在做事而后者只是走马观花。这就是数据中心可靠与不可靠的区别。 运维人员就像幼儿园的保育员和老师。孩子交到幼儿园后,起主要作用的就是保育员和老师,这时保育员和老师就是主体。机器就好比是幼儿园的孩子,孩子是否健康成长,机器是否正常运行,除去本身的健康(可靠性质量)状况外,那就是运维人员的责任了。由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性,除基于ITIL(IT 基础设施库)的常规数据中心运维管理理念之外,以下运维管理方面的内容,需要我们加以重点关注。 2 云计算数据中心运维管理的要点 (1)理清云计算数据中心的运维对象 数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象一般可分成5大类: ①机房环境基础设施 这里主要指的是为保障数据中心所管理的设备正常运行所必需的网络通信、供配电系统、环境系统、消防系统和安保系统等。这部分设备对于用户来说几乎是透明的,比如大多数用

数据中心机房运维外包服务内容

数据中心机房运维外包服务 1.服务范围 终端:终端设备包括台式计算机、便携式计算机、高端工作站和打印机; 网络系统:网络系统包括技术中心局域网、广域网、互联网的维护工作; 应用系统:应用系统包括信息门户、各类应用系统等系统的维护工作。 数据中心:数据中心范围内设备包括服务器、交换机、UPS、机房供电、机房空调、机房环控、机房管理; 2.服务方式 热线服务:5 × 8小时(作息制度与KE客户同步)客服服务热线; 现场服务:安排系统、网络、安全、桌面等各类工程师实施驻场式服务已达到服务及时响应及时解决,作息时间与技术中心同步; 机房职守:数据中心根据客户需求实施机房职守,以保障核心设备及系统的稳定运行。 3.服务内容 3.1网络系统维护 n IP地址维护管理 n VLAN划分 n 网络设备配置调整及网络优化 n 网络系统故障诊断 n 网络入侵监测 n 网络性能及资源使用情况检查 n 网络广播风暴监测 n 网络病毒监测 n 临时网络布线(大型综合布线需要另外签署协议) n 因特网接入服务 n 网络拓扑图的维护 n 网络设备档案建设

n 网络运行日志 n 服务维护档案 n 网络运行状况报告 3.2机房运行维护 机房后备电源运行状况监测 机房电源运行状况监测 机房空调运行状况监测 机房环控系统运行监测 弱电线路巡检和楼层弱电间巡检 机房安全管理,专人机房值班(根据客户要求,可提供7*24 / 5*8小时值班)3.3应用系统服务 3.3.1应用系统客户端维护 应用系统客户端升级(或升级包)安装服务 应用系统终端软件维护服务(一线支持处理常见故障) 3.3.2服务器系统维护 服务器系统维护提供以下服务: 服务器系统故障处理及维护 服务器操作系统的安装、安全设置 服务器系统安全设置及维护 系统数据备份服务 服务有效性检查 资源使用情况检查 网络病毒防护(需要企业购买相关的软件) 服务器运行日志 数据备份日志 系统安全日志 3.3.3业务应用系统维护 1.应用软件系统运行维护 服务有效性检查 现有功能的完善(不含新增功能,如部分查询功能的扩充,增加某些数据表数据项并修改相应维护程序等)

云计算数据中心的运维管理-培训课件

望采纳 云计算数据中心的运维管理 现代信息中心已成为人们日常生活中不可缺少的部分,因此信息中心机房设备的运行正常与否就非常关键。在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。加强对云计算运维管理的要点以及相应改进方面措施的研究与探讨,以此不断提高IT运维质量,实现高效的运维管理。这就给运维是否到位提出了严格要求。 1 运维在机房中的地位 在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理是,为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负合规性、可用性、经济性、服务性等四大目标。 在信息中心机房配备有运维人员,但大都是“全才”的,即什么都管,尤其是对供电系统大都是由主机运维的人员代管。当电源系统出故障时,此代管人员一问三不知,甚至连配电柜门都没开过。这实际上就是把机房的运维放在了一个次要的地位。 当然也有的地方有所分工,看似重视,实际上也没得到真正地重视。比如说机房设备长时间一直运行正常,这时如果运维人员提出要增添运维方面的测量设备,有的领导就认为多余,很难得到批准。但他不知道机房设备所以长时间一直运行正常,正是由于这些运维人员的细心维护和努力保养所获得的。并不是这些人员每天闲着无事可干,他们的这些工作一般是领导看不见的。比如同样多款的UPS在同样的环境条件下,在某卫星地面站就极少出故障,而在同系统别的地方机房同一家同规格的机器就故障连连。原来是前者的运维人员每天都在细心观察和分析机器面板LCD上显示的数据,一旦发现异常苗头及时采取措施;而后者只限于每天抄写这些数据就算完成任务,使异常苗头不断积累,以致于导致故障。比如断路器在额定闭合状态发现触点处温度高了,就要检查是不是电流过大到超过额定值,如果不是就要检查触点接触是否牢靠,是否需要再紧固一下。这样一来,故障隐患就排除了。如果一直不管不问久而久之就会导致跳闸而使系统崩溃。这都是一些小的动作,都是在巡查中顺便做的事情。所以同是运维人员在巡查,但前者在做事而后者只是走马观花。这就是数据中心可靠与不可靠的区别。 运维人员就像幼儿园的保育员和老师。孩子交到幼儿园后,起主要作用的就是保育员和老师,这时保育员和老师就是主体。机器就好比是幼儿园的孩子,孩子是否健康成长,机器是否正常运行,除去本身的健康(可靠性质量)状况外,那就是运维人员的责任了。由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性,除基于ITIL(IT基础设施库)的常规数据中心运维管理理念之外,以下运维管理方面的内容,需要我们加以重点关注。 2 云计算数据中心运维管理的要点 (1)理清云计算数据中心的运维对象 数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象一般可分成5大类: ①机房环境基础设施 这里主要指的是为保障数据中心所管理的设备正常运行所必需的网络通信、供配电系统、环境系统、消防系统和安保系统等。这部分设备对于用户来说几乎是透明的,比如大多数用户都不会忽略数据中心的供电和制冷。因为这类设备如果发生意外,对依托于该基础设施的应用来说是致命的。 ②数据中心所应用的各种设备

云计算中心运维管理制度

云计算中心运维管理制度 现代信息中心已成为人们日常生活中不可缺少的部分,因此信息中心机房设备的运行正常与否就非常关键。在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。加强对云计算运维管理的要点以及相应改进方面措施的研究与探讨,以此不断提高IT运维质量,实现高效的运维管理。这就给运维是否到位提出了严格要求。 1 运维在机房中的地位 在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理是,为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负合规性、可用性、经济性、服务性等四大目标。 在信息中心机房配备有运维人员,但大都是“全才”的,即什么都管,尤其是对供电系统大都是由主机运维的人员代管。当电源系统出故障时,此代管人员一问三不知,甚至连配电柜门都没开过。这实际上就是把机房的运维放在了一个次要的地位。 当然也有的地方有所分工,看似重视,实际上也没得到真正地重视。比如说机房设备长时间一直运行正常,这时如果运维人员提出要增添运维方面的测量设备,有的领导就认为多余,很难得到批准。但他不知道机房设备所以长时间一直运行正常,正是由于这些运维人员的细心维护和努力保养所获得的。并不是这些人员每天闲着无事可干,他们的这些工作一般是领导看不见的。比如同样多款的UPS在同样的环境条件下,在某卫星地面站就极少出故障,而在同系统别的地方机房同一家同规格的机器就故障连连。原来是前者的运维人员每天都在细心观察和分析机器面板LCD上显示的数据,一旦发现异常苗头及时采取措施;而后者只限于每天抄写这些数据就算完成任务,使异常苗头不断积累,以致于导致故障。比如断路器在额定闭合状态发现触点处温度高了,就要检查是不是电流过大到超过额定值,如果不是就要检查触点接触是否牢靠,是否需要再紧固一下。这样一来,故障隐患就排除了。如果一直不管不问久而久之就会导致跳闸而使系统崩溃。这都是一些小的动作,都是在巡查中顺便做的事情。所以同是运维人员在巡查,但前者在做事而后者只是走马观花。这就是数据中心可靠与不可靠的区别。 运维人员就像幼儿园的保育员和老师。孩子交到幼儿园后,起主要作用的就是保育员和老师,这时保育员和老师就是主体。机器就好比是幼儿园的孩子,孩子是否健康成长,机器是否正常运行,除去本身的健康(可靠性质量)状况外,那就是运维人员的责任了。由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性,除基于ITIL(IT基础设施库)的常规数据中心运维管理理念之外,以下运维管理方面的内容,需要我们加以重点关注。 2 云计算数据中心运维管理的要点 (1)理清云计算数据中心的运维对象 数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象一般可分成5大类: ①机房环境基础设施 这里主要指的是为保障数据中心所管理的设备正常运行所必需的网络通信、供配电系统、环境系统、消防系统和安保系统等。这部分设备对于用户来说几乎是透明的,比如大多数用户都不会忽略数据中心的供电和制冷。因为这类设备如果发生意外,对依托于该基础设施的应用来说是致命的。 ②数据中心所应用的各种设备 这些设备包括存储、服务器、网络设备和安全设备等硬件资源。这类设备在向用户提供IT 服务过程中提供了计算、存传输和通信等功能,是IT服务最核心的部分。 ③系统与数据 这部分包括操作系统、数据库、中间环节和应用程序等软件资源,还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见,摸得着”,但却是IT服务的逻辑载体。 ④管理工具 这部分包括基础设施监控软件、IT监控软件、工作流管理平台、报表平台和短信平台等。 这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象的工作情况,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证数据中心如何管理好与其直接相关的资源,从而间接地提升了可用性与可靠性。 ⑤人员管理 人员管理包括数据中心在内的技术人员、运维人员、管理人员以及提供服务的厂商人员的管理。 人员一方面作为管理的主体负责管理数据中心的运维对象,另一方面也作为管理的对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。 (2)定义各运维对象的运维内容 云计算数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。这就需要对每一个管理对象的日常维护工作内容有一个明确的定义,定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统全生命周期地追踪管理。 (3)建立信息化的运维管理平台系统和IT服务管理系统 云计算数据中心的运维管理应从数据中心的日常监控入手,事件管理、变更管理、应急预案管理和日常维护管理等方面全方位地进行数据中心的日常监控。实现提前发现问题、消除隐患,首先要有完整的、全方位实时有效的监控系统,并着重监控数据的记录和技术分析。 数据中心的业务可以概括为:通过运行系统来向客户提供服务。没有信息系统的支撑来运行

数据中心基础设施可视化运维管理

数据中心基础设施可视化运维管理 谁说高大上的机房不能炫!设备环境团队联合运营平台研发、网络、系统三、系统二等团队,历经一年的时间、7轮次需求细化讨论、11次版本更新,精雕细琢、倾尽洪荒之力打造了中国银行数据中心基础设施可视化平台!这是一个集才智美貌于一身,融合酷炫、可视等元素,高效、创新、高颜值的基础设施运维平台。平台包括两大功能模块: 一、基础设施运维数据模块 为了整合基础设施运维大数据资源,设备环境团队以严谨细致的态度,自主开发了基础设施运维数据模块,将分散的、手工维护的硬件设备、应用部署、机房资源和综合布线等各项基础环境资源的运维信息进行整合,累计整理各类数据10万多条,近50万字段,初步建成了IT设备生命周期管理体系。 二、基础设施可视化模块 在全面、准确的运维数据的基础上,基础设施可视化模块解决了以前需要多个系统、多张excel表格或者报表进行耗时耗力的分析和比对才能获取的信息,用三维的形式在一张视图内呈现,改变了传统运维信息展现的方式,其所带来的运维效率的大幅提升、故障的快速准确定位等,已经不是简单的炫所能表达的。(一)机房环境可视化 以黑山扈机房实际场景为原型,利用三维仿真技术,对机房内三百多种型号的设备设施逐一采集信息、模型建模,从细节入手,设备模型精确到端口级,实现了机房内三千多个机柜级设备和四千多个机架级设备的精确建模,构建了多视角、多维度分层呈现的虚拟现实环境。 (二)资产管理可视化 资产管理可视化可在机房三维场景中直接查询并精确定位设备设施,两万多条资产数据自动更新,点一下鼠标,位置、外观、型号、系统应用、容量、端口使用等设备信息即时呈现,精准、详细。 (三)容量管理可视化 机房资源的容量管理一直是个难题,往往需要兼顾空间、配电、硬件资源等多维度因素。现在可以在可视化场景中将环境、资源、配电、设备资源、PUE等信息多维度集中展现,两万五千余条实时采集数据,基础资源使用情况一目了然,再也不用只对着excel纸上谈兵了。 (四)运维管理可视化 联动一体化监控,硬件高等级事件自动定位至相关设备并显着提示,点击即可快速获取设备资产、运维(IP、系统、维护变更信息等)、配线连接等信息,有效提升故障定位、预判及处理效率。

数据中心机房运维方案

数据中心运维外包 服 务 方 案 2019年8月

数据中心运维外包服务方案 目录 一、运维的重要性 (1) 二、维护范围 (1) 三、提供的服务 (2) 四、服务内容 (3) (一)UPS供配电系统 (3) (二)机房空调系统 (5) (三)服务器运维 (7) (四)存储系统运维 (9) (五)虚拟化平台运维 (10) (六)数据库系统运维 (11) (七)网络设备运维 (13) (八)其它有关系统或设备运维 (15) 五、运维报价服务 (16)

一、运维的重要性 数据中心的日常运维工作是至关重要的。设备故障时,应提供快速的备件供应、技术支持、故障处理等服务。通过机房设备维护保养可以提高设备的使用寿命,降低设备出现故障的概率,避免重特大事故发生,避免不必要的经济损失。 数据中心的运维工作专业性很强,通过引入专业的维护公司进行日常运维工作。建设及使用单位相关管理人员可从日常需要完成专业性很强的维护保养工作中解放出来,重点做好管理及协调工作,更好的发挥信息或科技部门的其它职能。 通过专业、系统、全面的维护可以提前发现问题,并解决问题。将故障消灭在萌芽状态,提高系统的安全性,做到为客户排忧解难,减少客户人力、物力投入的成本,为机房内各系统及设备的正常运行提供安全保障。可延迟客户设备的淘汰时间,使可用价值最大化。通过专业的维护,将数据中心机房内各类设备的运行数据进行整理,进行数据分析,给客户的机房基础设施建设、管理和投入提供依据。 二、维护范围 数据中心机房于××年×月建成并投入使用,数据中心有关设备及基础系统清单如下:

三、提供的服务 为更好的服务好客户,确实按质按量的对设备进行维护;我公司根据国家相关标准及厂商维护标准,结合自身经验积累和客户需求,制定以下服务内容: 1.我公司在本地储备相应设备的备品备件,确保在系统出现故障时,及时免费更换新的器件,保障设备使用安全。 2.我公司和客户建立24小时联络机制,同时指定一名负责人与使用方保持沟通,确保7*24小时都可靠联系到工程技术人员,所有节日都照此标准执行。 3.快速进行故障抢修:故障服务响应时间不多于30分钟,2小时内至少2人携带相关工具、仪器到达故障现场现行故障排查处理,直到设备恢复正常运行。 4.我公司对维修维护的设施设备的使用性能负责,在维修维护过程中严格执行技术规范,保证设施设备的性能符合相关技术标准要求。在维修维护间,我方应对设施设备可能存在的故障隐患做出评估,并进行恰当的预防性处理,以保证设施设备的安全运行。若故障隐患超出维修维护范围的,及时书面通知客户,并提出消除隐患建议。 5.维护巡检中我公司提供设备系统图或使用说明书:将机房内设备的整个系统等汇编成资料,由维护人员进行统一放置,便于应急查询。 6.巡检次数每年不少于四次,每次巡检后,由维修维护方提供巡检报告,并由使用方签字确认。每月由我公司客户服务人员定期进行回访,听取客户意见反馈,搭建起双方的沟通渠道。 7.提供系统应急方案:设备在12小时内还无法修复的应有备份应急处理方案。如提供适合负载功率的备机、备用空调等。 8.培训:提供专业理论知识培训和操作培训,维修维护培训,简单故障处理培训,培训文档由我公司整理。 9.人员配置:全年(包括所有的节假日期间)提供不少于2名工程师在常住贵阳本地,确保满足响应时间要求;到现场的维护维修工程师至少一名是能完全解决故障并有丰富从业经验的。 10.我公司每次巡检完毕后提供维护报告,同时还提供全年维护报告、每次维修事故报告等资料,根据事故提出相应的整体解决方案等管理规划层面的内容。

数据中心运维操作标准及流程

数据中心运维操作标准及流程 郑州向心力通信技术股份有限公司 二零一八年

1 机房运维管理前期准备 1.1 管理目标 机房基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制定目标时,应综合考虑机房所支持的应用的可用性要求、机房基础设施设施的等级、容量等因素。目标宜包括可用性目标、能效目标、可以用服务等级协议(SLA)的形式呈现。不同应用的可用性目标的机房,可设定不同等级的机房基础设施的运维管理目标。 1.2 参与数据中心建设过程 机房运维团队应充分了解自己将要管理的场地基础设施。对于新建机房,应尽早参与机房基础设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下基础。 1.2.1 应参与规划设计 机房的规划设计是一个谨慎和严谨的过程,需要所有参与机房建设的相关方共同完成,才能确保规划和设计的有效性、实用性等要求。其中,基础设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。 1.2.2 应参与相关供应商遴选 机房基础设施运维团队应参与机房基础设施设备供应商选择的全过程,及时地了解各种产品及服务的品牌、型号、规格等关键参数,使之更能满足运维的要求。并就在安装、调试过程中的注意事项等提

出建议,还需要对后续的设备保修等服务提出要求。 1.2.3 应参与建造管理 机房的基础设施运维团队应积极参与机房基础设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。 机房基础设施运维团队应充分了解施工过程中的工艺。对于新建数据中心,从施工质量和日后运维方便性出发,尽早发现施工过程的问题,及时纠正,方便日后运维和节省日后整改成本。 1.3 测试验证 机房基础设施投产前的测试验证是确保机房基础设施满足设计要求和运行要求的关键环节。 1.3.1 时间和预算 机房的业主应设立测试验证专项预算,预算应包括外部测试验证服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。应制定测试验证的工期规划,以更准确地预测机房基础设施交付投产的日期。 1.3.2 测试验证参与方 项目建设管理部门可作为测试验证工作的主体责任单位;运维管理部门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。机房基础设施运维团队可参与测试验证工作,在此过程中熟悉设

大型数据中心一体化运维管理平台的建设模式研究

【摘要】为了建设和运营一个高效的数据中心,通过分析当前基地运维管理面临的挑战,结合当前数据中心运维管理工具的发展趋势,从运维管理平台的系统架构、组织架构、技术构架、组网结构等方面详细介绍了大型数据中心一体化运维管理平台的建设模式,从而实现智能化运维的管理目标,减少运维成本并提升运维效率。 【关键词】大型数据中心智能化运维一体化运维云化架构 doi:10.3969/j.issn.1006-1010.2016.14.014 中图分类号:tn929.5 文献标志码:a 文章编号:1006-1010(2016)14-0066-05 引用格式:邓颂清,程尧. 大型数据中心一体化运维管理平台的建设模式研究[j]. 移动通信, 2016,40(14): 66-70. large data center intelligent operation and maintenance integrated operation and maintenance 1 引言 随着移动互联网、大数据、云计算的飞速发展,全国各地数据中心的规模迅速扩张,如何建设和运营一个高效的数据中心,是数据中心管理人员的重大挑战[1]。 dcim(data center infrastructure management,数据中心基础设施管理)是近年兴起的数据中心基础设施管理工具,不同的机构有不同的解读。本文在dcim的理念基础上,针对大型数据中心(即在全国各地拥有多个基地的大型数据中心),就其一体化运维管理的建设模式提出探讨性方案。 2 基地运维面临的挑战与趋势 数据中心运维管理的主要目的是保障基础设施的可用性及降低风险,提高资产的利用率,降低能耗消耗和运维成本,提高服务水平以及数据中心的效率和效益[2]。 作为承载信息系统运行的数据中心,运维管理的关键是对it设备以及支撑it设备运行的风火水电等场地基础设施的管理,包括:对这些基础设施的日常监控和维护;对这些设备进行全生命周期的管理;运维业务管理的流程与规则;对数据中心内基础设施日常运行数据的分析、对比与挖掘。 对于大型数据中心产业基地,特征为辐射全国、规模分布、虚拟资源、弹性调度、安全防护、绿色节能。随着数据中心的发展,功能需求越来越多,管理的规模越来越大,系统间的数据交互越来越广,系统对接口的复杂度急剧上升。由于业务、维护复杂,对管理系统的要求也更高。 现阶段大型数据中心运维面临的挑战如下: (1)经济性:资源如何有效利用,包括网络、空间、动环资源;如何缩减运行费用,包括能源、维护人员。 (2)灵活性:如何识别及降低过度部署和冗余;如何灵活扩展容量(空间、制冷和供电);如何更快响应业务。 (3)可用性:如何实现精细化管理;如何及时排除隐患,处理复杂故障;如何实现动态资源管理和电子流管理。 (4)管理性:需要有效的数据分析支撑决策和规划;如何实现系统一体化,统一协作、快速响应;如何满足大客户sla(service-level agreement,服务等级协议)和自服务管理。 面对以上挑战,数据中心应建设“集中化运维、一体化管理、智能化分析、流程化控制”的it支撑系统,才能实现智能化运维的管理目标,减少运维人员和维护成本,优化资源管理,提升运维效率。 3 平台系统架构、组织架构和技术架构 3.1 平台系统架构

云计算数据中心运维管理要点

云计算数据中心运维管理要点 在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理就是:为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负起以下重要目标:合规性、可用性、经济性、服务性等四大目标。 由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性除基于ITIL的常规数据中心运维管理理念之外,以下运维管理方面的内容,也需要我们加以重点分析和关注。 一、理清云计算数据中心的运维对象 数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象共可分成5类: (1) 机房环境基础设施部分。这里主要指为保障数据中心所管理设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于用户来说几乎是透明的,因为大多数用户基本并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的应用来说,却是致命的。 (2) 在提供IT服务过程中所应用的各种设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。 (3) 系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见,摸得着”,但却是IT服务的逻辑载体。 (4) 管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其直接相关的资源,从而间接地提升的可用性与可靠性。 (5) 人员,包括了数据中心的技术人员、运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理的对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。

云平台下的运维体系建设工作内容87904

云平台下的运维体系建设工作内容 一、系统运维 系统运维负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);负责资产管理,服务器选型、交付和维修。详细的工作职责如下: IDC数据中心建设 收集业务需求,预估未来数据中心的发展规模,从骨干网的分布,数据中心建筑,以及Internet接入、网络攻击防御能力、扩容能力、空间预留、外接专线能力、现场服务支撑能力等方面评估选型数据中心。负责数据中心的建设、现场维护工作。

网络建设 设计及规划生产网络架构,这里面包括:数据中心网络架构、传输网架构、CDN网络架构等,以及网络调优等日常运维工作。 LVS负载均衡和SNAT建设 LVS是整个站点架构中的流量入口,根据网络规模和业务需求,构建负载均衡集群;完成网络与业务服务器的衔接,提供高性能、高可用的负载调度能力,以及统一的网络层防攻击 能力;SNAT集中提供数据中心的公网访问服务,通过集群化部署,保证出网服务的高性能与高可用。 CDN规划和建设 CDN工作划分为第三方和自建两部分。建立第三方CDN的选型和调度控制;根据业务发展趋势,规划CDN新节点建设布局;完善CDN业务及监控,保障CDN系统稳定、高效运行;分析业务加速频道的文件特性和数量,制定最优的加速策略和资源匹配;负责用户劫持等CDN日常故障排查工作。 服务器选型、交付和维护 负责服务器的测试选型,包含服务器整机、部件的基础性测试

和业务测试,降低整机功率,提升机架部署密度等。结合对公司业务的了解,推广新硬件、新方案减少业务的服务器投入规模。负责服务器硬件故障的诊断定位,服务器硬件监控、健康检查工具的开发和维护。 OS、内核选型和OS相关维护工作 责整体平台的OS选型、定制和内核优化,以及Patch的更新和内部版本发布;建立基础的YUM包管理和分发中心,提供常用包版本库;跟进日常各类OS相关故障;针对不同的业务类型,提供定向的优化支持。 资产管理 记录和管理运维相关的基础物理信息,包括数据中心、网络、机柜、服务器、ACL、IP等各种资源信息,制定有效的流程,确保信息的准确性;开放API接口,为自动化运维提供数据支持。 基础服务建设 业务对DNS、NTP、SYSLOG等基础服务的依赖非常高,需要设计高可用架构避免单点,提供稳定的基础服务。

数据中心综合运维服务平台

数据中心综合运维平台 一、产品概述 1.1产品背景 随着互联网和计算机技术的发展以及信息化建设步伐的不断加快,各行业都开始大规模的建立和使用网络,并且越来越多的单位对网络办公、各种在线的信息管理系统的依赖程度不断增加。网络的使用者不仅仅是在数量上增长迅速,同时对网络应用的需求也更加多样化,因此网络的运维和管理比以往任何时刻都显得更加重要。 1.2产品定位 数据中心综合运维支撑管理系统正是为了解决在产品背景中描述的问题而设计和开发的。系统包含了网络设备管理、服务器与应用管理、监控与告警管理、机房与布线管理、机房环境监控、等几个模块,将以往需要人工或者从多个不同渠道和系统收集的信息通过一个系统进行整合;将以往各种复杂的网络管理工作简单化、自动化,在极大的提高网络管理的效率同时提高网络服务的质量。 1.3系统构架 网络运维支撑系统采用基于64位Linux操作系统以及mysql数据库进行开发,采用纯粹的B/S构架,WEB展现部分与业务逻辑分离,用户可以自己定制WEB界面;支持分布式数据采集;采用基于角色和分组的权限管理方式,用户可以根据自己单位的管理模式任意制定角色和分组,从而做到权限的横向纵向的任意划分。 1.4技术优势 1. 支持不同厂商的设备 不仅支持思科、华为、H3C、锐捷、神舟数码、中兴、juniper、extreme等厂商的网络设备,同时支持allot、acenet等厂商的安全流控设备。 2. 高可靠性、高稳定性、高安全性 基于Linux操作系统和mysql数据库,不用担心病毒与升级打补丁的麻烦;支持https,保证数据的传输安全。

3. 高性能 基于64位操作系统开发,优化系统配置和自定制内核,发挥64位的最大优势4. 用户、角色、权限自定义 采用基于角色和分组的权限管理方式,用户可以根据自己单位的管理模式任意制定角色和分组,从而做到权限的横向纵向的任意划分 5. 对服务器的监控采用被动方式 对服务器监控不需要在服务器上进行任何的设置,系统根据服务器对外提供服务的情况依据协议规定进行外部探测。 6. 整合机房环境监控与布线管理模块 采用自行设计开发的传感器通过网络对机房、配线间的环境(温度、湿度等)进行实时控和数据记录、结合系统告警功能对环境变化进行实时告警,将布线系统和网管系统结合,提高网络管理的效率。 二、基础网络设备管理 2.1拓扑自动发现与计算 系统支持自动拓扑发现功能,可以进行二层和三层设备的拓扑自动发现. 2.2拓扑管理 可以根据网络的具体情况和用户的使用习惯任意定义网络拓扑图,将任意区域的网络设备放置到一个定义好的拓扑中进行展现。 2.3拓扑展示 通过拓扑图可以选择查看交换机的各种信息,包括端口信息、配线信息、端口状态、用户情况等;如果拓扑图中设备的下级设备(没有显示在本级拓扑中)出现故障,也会在当前拓扑中得到告警体现,同时可以直接从本级拓扑展开到下一级拓扑中。 2.4网络设备管理 可以查看交换机IP地址、描述、厂商、类型、当前状态、在线用户、端口状态、链接关系等信息,也可以直接通过IP查找交换机。 2.5交换机端口状态管理 可以查看被管理交换机的端口列表,包括该交换机所有的物理端口的端口名

相关主题
文本预览
相关文档 最新文档