预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共32页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据中心运维管理方案第一章某数据中心基础运维概述3第二章数据中心运维分类32.1基础环境运维管理32.2网络运维管理42.3服务器和存储运维管理51服务器运行情况及性能监测5服务器软硬件兼容性检查6磁盘阵列设备管理6机柜、电源、网线布局管理6协助第三方维护72.4基础软件运维管理71操作系统7数据库84.3中间件9备份系统9应用系统9第三章运维工作内容93.1日常维护工作93.2系统性能监控管理103.3系统维护管理103.4系统配置与支持维护123.5系统容量管理123.6巡检工作133.7定期服务报告143.7.1设备配置档案15服务文档15运维团队的值班安排分三班,保持7x24小时的人员安排,在任何时间数据中心都由值班人员。运维团队根据数据中心的运维管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。3.2系统性能监控管理运维团队通过综合监控系统等实施7*24a小时平台设备监控,发现告警,并进行处理,解决问题。使用综合监控系统对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。3.3系统维护管理故障处理运维团队负责故障发现、故障分析、故障处理工作,在规定时间内,处理完成故障,同时负责调查故障原因,最后编写详细的《故障报告》,包括故障发生的起止时间、原因、现象、处理过程、处理结果和处理经验。如果故障设备或组件为第三方维保,值班工程师负责和第三方对接,迅速解决问题。软件和补丁维护操作系统级别的软件和补丁服务O运维团队对于维保设备提供所有软件补丁,提供预警服务,对于软件的维护版本提供补丁,并按稳定性和平安性的要求,提供是否升级的建议,评估风险和制作实施方案。O故障经工程师的分析说明它是由一个软件错误所引起的,那么运维团队需提供相应的软件版本和补丁。O对于软件版本和补丁的安装,运维团队首先将确认是否可以在对应平台上进行装载。假设确认可实施,运维团队那么将提供补丁升级服务,升级前要配合相关应用方做好测试。应急预案及演练为加强风险管理意识,提高应急预案相关人员的应急处置能力,及时发现应急预案可能存在的问题,确保在紧急情况下,应急预案能够真正发挥作用,需要通过周期性的演习演练来不断检验应急体系应急预案的可靠性、有效性和可操作性。应急预案的演习演练方式、演习演练频度等内容明确如下:1、演练分为桌面演练和实战演练两种方式,每次演练都应该有相关技术人员全程参与。2、定期桌面演练,定期实战演练;3、每次演练结束之后应进行分析和总结,及时完成应急预案的更新、优化和完善。协助第三方维护在服务期内,运维团队将配合第三方或服务商进行系统的升级、替换、新部件(模块)安装等,并在实施完成后确认工作正常。备份为保证在系统崩溃或停止运行时能尽快恢复系统,将制定相关的数据备份制度。应针对不同系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和不定期备份。重要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间。系统优化对于巡检或日常维护过程中发现的系统隐患或系统不是处于满意状态,提供相关系统优化的报告。对于运行情况跟踪,预防性诊断设备存在的隐患,提供系统优化建议,提供系统规范和流程的建议,提供系统优化概要。硬件设备统计运维团队将定期对参保设备进行统计。质量分析报告运维团队建立数据中心平台的质量分析报告。每月汇总设备运行质量、系统性能等指标,进行数据中心平台运行质量分析,排除质量隐患,不断提高网络运行质量和服务质量。运维工程师应每周和每月对于数据中心在网系统运行情况作分析,数据采集、统计和分析系统设备的运行数据,形成系统运行周报和月报。分析报告,包括优化设备运行的绩效,提高系统稳定性的建议,对于系统扩容和优化投资的建议,提供系统运行情况概要,系统中关键设备的运行情况分析,并能识别和解决潜在问题,做好预警,制定并实施相应的优化措施,并对于系统的扩容和工程投资提供建议报告。3.4系统配置与支持维护运维团队的日常工作中,在系统配置和支持方面的工作内容如下:O维护系统软硬件配置文档;O负责系统用户管理,如增加、删除用户、重置用户密码、管理用户权限等;O进行系统用户管理时必须遵循数据中心的账户命名规那么及账户密码策略,并文档记录所有相关的系统变更;O每月提交系统账户变更月报;O配合第三方进行升级、安装系统,及时更新操作系统补丁,进行系统软件备份;O根据运维报告及统计报表,每月制定维护作业计划,并提交日常维护报告;3.5系统容量管理运维团队至少每半年进行一次对于每个服务器的系统容量监测的审核