数据中心运维

运维管理团队+品质管理团队+信息化管理团队
D

数据港运维管理理念

数据中心基础设施的运维管理,是指确保数据中心环境能够满足计算机设备正常运行所需的各类设施、设备的运行能够满足客户SLA的要求,包括机房供配电系统、空调系统、消防系统、安保系统等等。随着大型互联网数据中心指数级规模的快速增长,各项互联网业务对数据中心的依赖性越来越高,且数据中心自身技术特点也在不断发生变革,因此基础设施运营商需要针对基础设施进行更加趋向精细化的运营管理。

数据中心的高效、可靠的运行管理,从大的方向来看,需要从点、面两个维度去管理,以点带面并面面俱到。
从点的管理角度看,运维管理需要深入解剖每个设备的各种子模块的运行状态,分析各个子模块的运行参数,并建立参数标杆,实现主动运维管理。
从面的管理角度看,运维管理需要覆盖数据中心的所有专业系统,并厘清各个专业系统的逻辑和勾连关系。
为了从点和面做好数据中心的全生命周期管理,数据港结合自身多年的运维经验,把运维管理切分成几个核心模块进行细化管理,这些模块包括:
  • 安全管理
    • 事件处理
    • 问题管理
    • 变更管理
    • 人员出入管理
    • 设备出入管理
    • 知识管理
  • 人员管理
    • 值班安排
    • 考勤管理
    • 员工胜任力级别管理
    • 绩效管理
    • 行为分析&情绪化管理
    • 星级管理(激励管理)
    • 培训考试管理
    • 外来人员行为规范管理
  • 作业管理
    • 作业内容管理
    • 作业计划安排(维保计划、演练计划
    • 预防性维修计划FMEA)
    • 作业工单管理(抢修作业管理、临时
    • 性人物单)
  • 成本管理
    • 电费成本
    • 水费成本
    • 燃油成本
    • 取暖成本
    • 备品备件成本
    • 耗材管理成本
    • 其他成本:人工时等
  • 供应商管理
    • 落实合同与供应商交付的匹配
    • 落实现场执行管理
    • 落实KPI的考核
  • 客户管理
    • 客户满意度调查
    • 客户问题跟进管理
    • 服务交付管理
    • 客户问题维护
  • 计费管理
    • 测试机柜管理
    • 上电机柜
    • 带宽管理
    • 超电量管理
  • 设备管理
    • 设备基本属性管理
    • 设备静态参数管理
    • 设备运行参数管理
    • 设备级联关系管理
    • 设备群集关系管理

数据中心的运维架构体系

数据中心的整体运维组织架构应由三大块组成,即运维管理团队、品质管理团队和信息化管理团队。这三个管理团队相伴相生,缺一不可,运维管理团队确保日常的制度执行和快速响应,品质管理团队确保运维的质量督察和风险管控,信息化管理团队确保运维体系标准化、可复制和度量化全面落地。

运维管理团队

主要负责日常运维的管理和执行,含一线和二线的运维支持。主要负责现场运维、应急处置、设施设备维护等工作。

信息化管理团队

主要负责运维管理和大数据分析平台的研发与日常维护。

品质管理团队

由高级运维和精益化管理团队组成,高级运维主要负责各个数据中心的验证、重大故障处理和预防性维修工作,作为三级运维支持对整个运维管。

数据中心高阶运维服务

高级运维和品质监察

高级运维
高级运维又称高维工程师,分暖通和电气两个专业。其中暖通高维工程师持有大型制冷设备维修证,有二十多年的制冷设备维修经验,能主导修复大部分设备故障;电气高维工程师均有二十年以上电气经验,能主导UPS电池放电测试、柴油发电机年度维保工作。

高维工程师均有多个项目的机房验证验收工作经验,有丰富的问题发现能力和当责意识,促使验证验收工作保质保量按进度完成。
品质监察
品质监察主要负责日常行为规范及现场6S的检查,按照运维管理制度要求开展定期和不定期的飞行检查,结合现场、监控和平台三种方式,主要对以下方面进行检查:

· 运维记录:设备运行记录、能效记录、巡检记录、值班日志等
· 行为规范:工作纪律、着装规范等
· 6S管理:机房整洁、物品规范摆放等
· 消防安全:消防巡检记录、消防器械检查、消防隐患排查等
· 文档资料:文件清单核对,查阅、复印记录检查、现场资料有效性确认

每月汇总高维和监察的问题发现,输出月度监察报告,内容包括但不限于:问题描述、现场图片、纠正意见和期限。
每季度对客户满意度进行测评,收集客户意见,落实并跟进纠正措施和结果。

风险评估

配合数据中心运维SOP/MOP/EOP审核,如模拟一路市电断电、两路市电断电、ATS切换、断路器跳闸、柴油发电机房日常开机、冷机直供模式、板换操作、精密配电柜操作等流程。不符合设计原则和规范,影响功能、容量、冗余要求的予以修正。

参与日常运维工作中发现的技术问题,为进一步提高数据中心基础设施运维质量而制定和落实相应解决方案。针对监控、巡检中发现的故障、报警等超过运维现有技术处理能力的,按照事件处理流程或通报机制要求,协助重大风险评估,提供解决措施,理论归纳后予以标准化输出。

技术培训

运维&管理团队人才建设,作为数据中心运维的专业工程师管理人才,对整个数据中心的系统架构以及本专业的知识体系必须有一个清晰的认识,良好的专业知识对于风险识别和风险处理,以及未来节能降耗起着重要的决定性的作用。
数据港技术或高维团队将定期(不定期)对运维部管理和一线操作人员进行基础和专题理论培训,并组织相应考试考核。基础培训内容包括供配电基础理论、电气负荷计算原则、断路器/电缆比选、配电箱/UPS选型计算、空调理论知识、空调负荷计算、冷机/水泵/板换选型要点、BA基础知识、典型架构、控制逻辑策略、气体和水消防常用系统介绍、建筑结构装修基础知识等。
专题培训包括系统设计理念介绍(容量、冗余、功能),电气系统架构、制冷系统架构,冷站群控操作逻辑、同行设计案例运维相关技术分享、常用机房节能改造方案介绍实操。
另外针对每阶段出现频次较高的问题,以及运维工作需求,配合高维,联合开展问题分析处理,以及点对点专题技术指导。

重大故障及技改方案支撑

运维方面,对于数据中心发生的重大故障,数据港提供高级运维工程师或技术人员的现场支持。技术方面,重点支持机房涉及到功能、容量、冗余调整的技术改造需求。从建筑平面规划,电量、冷量冗余,及现有机房业务影响,系统可维护性,施工可行性等方面综合考虑,提供技术改造方案、施工图纸、工程量清单,设备采购技术规格书等。若涉及变更服务,需配合运维提交详细的变更方案供客户提前审核。

机房维护管理人员定期对机房电气设备和空调的运行情况进行总体评估,对接近阈值的参数提前进行评估和预警,对运维提出的性能容量优化相关的建议,更新置换方案等提供审核评估意见。

能效管理及优化

数据港对能效管理的理解是 SLA达标前提下的能效最优化,能效管理的核心是过程管控。
PUE=数据中心生产总用电量/IT设备用电量,PUE调优的方法根本上就是减少分子(数据中心生产总用电量)

调优方法
通过设计依据以及运维实际经验,制定合理的冷机制冷模式,部分自然冷却模式、完全自然冷却模式的标准运行工况;

· 制冷系统:冷却塔风机频率,水泵频率,冷却、冷冻水温控制,精密空调风机频率、水阀、温度控制,冷冻机组COP调优,新风系统控制;
· 电气系统:照明管控,设备节能模式启用如UPS、HVDC;
· 其他:维护工作如管道过滤器的清洗,冷却塔的清洗,空调滤棉的更换,机房密闭封堵;
· 新技术:直接风冷技术、间接风冷技术、板冷技术,液冷技术。
能效管理优化方案
确定调优目标:计算项目在不同自然气候条件下,不同IT负载比率下的理论PUE值;
数据采集分析:运维平台采集设备运行参数,用电量,通过相应的计算划分为制冷系统用电量、电气系统损耗、末端空调用电量、其他用电量四大块,与理论值进行对标
分析生成报表,从而发现问题点;
现场实施:根据问题点,现场调查,制定相关调优措施,组织机房运维,设备厂商实施调优;
效果评估:实施完成后,进行数据分析,评估调优效果是否达到预期目标;
贯彻执行:总结调优方案,对机房现场运维进行培训,能效管理意识,能效管理调优方法。