数据中心智能运维管理方案设计.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据中心智能运维管理方案设计

作者:严代彪

来源:《计算机与网络》2021年第06期

本文针对数据中心的特点,以智能化运维管理为目标,提出了数据中心智能运维管理方

案,设计了运维门户及展示管理、运维资产配置管理、运维服务管理、运维监控监测告警管

理、运维自动化管理及开放接口管理等主要内容,为数据中心智能运维管理系统建设提供指

导。

云计算、大数据、物联网及人工智能等新一代信息技术蓬勃发展,数据中心的规划、设

计、建设和运维呈现出绿色节能、向资本效率转型、智能化和智能运维管理等特点。随着信息

化进程的日渐深化,智能化运维在数据中心的作用已经不仅限于基础设施的建设、应用及工具

的维护,数据中心业务对智能化运维的依赖程度越来越大,这决定了智能化运维已经成为数据

中心价值链中不可或缺的重要一环。本文针对数据中心的发展趋势和特点,以智能化运维管理

为目标,提出了数据中心智能运维管理方案,设计了智能运维门户及展示管理、运维资产配置

管理、运维服务管理、运维监控监测告警管理、运维自动化管理及开放接口管理等主要内容,

为数据中心智能运维管理系统建设提供指导。

数据中心面临的挑战

管理角度

首先就是经济性,包括网络资源、空间资源和动环资源如何有效地利用,以及缩减能源和

维护人员的运行费用;其次是灵活性方面,包括如何识别和降低过度部署和冗余、灵活扩展空

间、制冷和供电容量,及更快地响应业务;第三就是可用性方面,如何实现精细化管理、及时

排除隐患、处理复杂故障以及实现动态资源管理;第四就是管理性方面,如何进行有效地数据

分析支撑决策和规划、实现系统一体化、系统统一协作和快速响应、满足大客户服务等级协议

(SLA)和自服务管理等。

技术角度

首先面临的挑战就是运维海量数据的存储、分析和处理问题。运维人员必须随时掌握服务

器的运行状况,除了常规的服务器配置、资源占用情况等信息外,业务在运行时会产生大量的

日志、异常、告警和状态报告等事件。通常每台服务器每个时刻都会产生大量这样的事件,在

有数万台服务器的场合下,每天产生的事件数量是数亿万计,存储量在TB级别的。数据中心

的服务器规模往往比较大,如何统一、自动化处理这些事件的需求很强烈,毕竟登录查看日志

这种方式效率很低,而当前的监控软件只能收集和处理众多事件中的一部分,当服务器数量多

了以后,其扩展能力、二次开发能力非常有限。

其次面临的挑战是多维度、多数据源的复杂性问题。多维度数据不仅包括常用的时间、地

点(哪个服务器或组件)、内容(错误码或状态值),还应当包括地区、机房、服务池、业务

线、服务和接口等,而数据分析人员则需要使用各种维度、组合各种指标来生成报告、告警规

章及Dashboard等。如何从异构的数据源获取数据,还要考虑当其中某个数据源失效、服务延

迟时,能否不影响整个系统的稳定性。多数据源还有一个关键问题就是如何做到数据和展现分

离,如果展现和数据的契合度太高,那么随便一点变更就会导致前端界面展现部分的更改,带

来的工作量会非常大。

第三个技术挑战就是复杂业务模型下的故障定位。业务模型(或系统部署结构)复杂带来

的最直接影响就是定位故障很困难,发现根源问题成本较高,需要多部门合作,开发、运维人

员相互配合分析(现在的大规模系统很难找到一个能掌控全局的人),即使这样有时得出的结

论也不见得各方都认可。在复杂、异构和各种技术混杂的业务系统中,如果想发现问题并定位

故障,在各个系统中就必须有一个可追踪、有共性的东西。然而,在现实中若想用某个体系来

“一统天下”基本不可能,因为各种非技术因素可能会让这种努力一直停留在规划阶段,尤其是

大公司,部门之间的鸿沟是技术人员无法跨越的。

因此,面对以上挑战,数据中心应建设“集中化运维、一体化管理、智能化分析、流程化

控制”的智能运维管理系统,才能实现智能化运维的管理目标,减少运维人员和维护成本,优

化资源管理,从整体上提高智能化运维系统运行协调性、安全性和资源共享性,发挥信息化建

设的最大效益。

总体设计

总体原则

智能运维管理方案立足体系建设的角度进行设计,总体原则遵循以下4个方面:

以完善的运维服务制度、流程为基础

为保障运行维护工作的质量和效率,应制定相对完善、切实可行的运行维护管理制度和规

范,确定各项运维活动的标准流程和相关岗位设置等,使运维人员在制度与流程的规范和约束

下协同操作。

以先进、成熟的运维管理平台为手段

通过建立统一、集成、开放并可扩展的运维管理平台,实现对各类运

文档评论(0)

小布 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档