- 收藏
- 加入书签
一种基于保障应用系统可用性的运维工作思路
近年来,企业信息化建设的飞速发展为企业整体经营、决策提供了有效的支撑。研究建立完善的保障系统可用性的管理机制,降低应用系统运行风险,对提升应用系统服务连续性和可用性有着非常重要的意义。
实现面向应用系统的精细化运维管理和有效监控管理,是满足运维部门保障应用系统连续性、可用性的必要手段。因此,本文从保障应用系统可用性的运维管理和监控管理两方面进行分析。
一、面向应用系统运维的管理思路
应用运维负责线上应用系统的变更、服务状态监控、资源管理、例行巡检、故障应急处理、用户服务请求处理等工作。根据成熟的行业标准,运维工作可分为呼叫中心、一二线支持团队和项目团队(或供应商),根据分工又可分为主机、网络、DBA、安全、应用系统运维等不同方面,本文仅对应用系统运维进行分析。
应用系统运维工作对人员综合能力、整体素质要求普遍较高,不但要有全面的知识和技能储备,还要有较高的责任意识和风险意识,且运维团队成员较大程度上会有综合能力参差不齐的情况。面对这种情况,通过精细化的运维管理,明确运维工作内容,强化对运维工作标准化管理,能有效缓解或降低对运维人员综合能力的依赖。针对应用系统可用性保障类运维工作,大致分为如下内容:
1.服务管理
(1)掌握所负责的应用系统服务及相关模块的耦合关系、资源依赖关系。能够发现服务上的缺陷,及时通报并推进解决。
(2)制定线上应用系统的变更及回滚方案,并进行变更实施。
(3)识别应用系统稳定性关键指标,不断完善和优化程序和系统的功能、效率,提高系统稳定性。完善监控内容,提高监控覆盖度和报警准确度。
(4)在线上应用系统出现故障时,第一时间响应,对已知线上故障能按流程进行通报并按预案执行,未知故障组织相关人员联合排障。
2.资源管理
对应用系统的资产进行管理,包括服务器各类资产、中间件、数据库及系统组件的管理,梳理服务器资源状况、数据中心分布情况,建立统一的应用系统资源台账。定期对资源使用情况分析,合理使用和分配服务器资源,确保各类资源得到充分利用。
3.例行巡检
制定应用系统标准化巡检项,并不断完善。根据制定的巡检项,对应用系统定期巡检,对巡检过程中发现的问题,及时进行追查,排除可能存在的隐患。
4.预案管理
确定应用系统影响可用性的关键指标、所需的各项监控,确定系统指标监控阈值或日志异常输出的关键信息,以及触发阈值或者出现异常日志后的处理预案。
建立和更新系统应急预案,并根据日常故障情况不断补充和完善,提高预案完备性。
制定系统应急演练计划,定期进行预案演练工作,确保预案的可执行性。
5.设计评审
在系统项目建设阶段,有条件的参与系统设计评审,从运维的角度提出评审意见,使系统满足应用系统的可用性要求,以及满足日常运维工作的功能要求。
二、面向应用系统可用性的监控管理思路
随着企业信息化建设的不断深入,各类应用系统及资源逐渐增多,单单依靠工程师人工巡检和经验发现问题和处置问题的方式已经无法满足业务部门和系统运维部门的需要。实现面向应用系统业务层和应用层的工具化监控,是保障系统业务连续性的必要手段,常见的开源监控工具包括zabbix、Prometheus、Nagios等,日志监控分析工具如ELK等,此外还包括APM、BMC等收费的产品。本文假设企业已经具有相应的监控工具,只在如何合理使用监控工具层面讨论监控的管理思路。
1.资源管理
应用系统建转维过程中,运维人员要全面掌握应用系统涉及的资源,如服务器、操作系统、系统进程、应用组件、数据库、端口策略等,录入监控工具进行应用系统资源台账管理,并不断完善和更新。
2.监控管理
基础环境监控,主要是指系统基础环境信息的监控,包括服务器状态、CPU、内存、存储、网络流量等基础环境的监控。
应用系统监控,主要是指应用系统本身的进程、端口、负载节点、服务间连通性、日志等系统层的监控。
应用系统运维人员应根据系统特点,充分识别系统可用性的关键指标和非关键指标,综合运用监控工具完善各个监控节点,不断提高系统指标监控的覆盖度,确保监控无死角。
3.预警管理
应用系统运维人员影响系统可用性的关键指标和非关键指标,实现对告警阈值的逐级设置,提高告警的准确性和有效性。使用邮件、短信或内部通讯工具,确保监控触发阈值或临界点时,触发预警提醒,确保预警的及时性。如具备条件可在办公区建立监控告警提醒大屏,确保运维人员预警信息能早发现、早处置。
4.故障处置
当预警触发时,运维人员如能快速判断故障点,则进行快速处置恢复业务,但该情形对运维人员技能和经验要求较高,对于刚入门的运维人员难度较大。一般情况下,运维人员可通过监控预警信息,缩小故障排查范围,结合故障日志,缩小故障排查及处置时间。
根据故障情况,已知故障应采用既有应急预案执行上报及处置工作,未知故障则可联系其他资源共同处置,并在故障排除后及时完善应急预案,提高预案完备性。
定期开展故障处置总结活动,回顾故障处置过程,总结处置经验和不足,持续提升运维人员应急能力。
5.健康度评估
从运维角度,对系统运行情况定期分析和评估,通过对用户访问量、连通性、网络流量、响应时长、数据增长量、服务请求量等方面,对系统健康程度进行综合分析,预判系统整体运行情况是否满足业务连续性要求,以便运维人员能提前进行处置,确保系统可用性。
综上所述,面对大量不同类型的应用系统运维挑战,如何能有效的保障应用系统可用性,确保服务的连续性,是应用系统运维重点关注的工作,而建立完备的有效的运维管理机制和监控管理方式,是确保应用系统可用性的有效手段。所以,运维工作者要不断提升运维精细化管理水平,根据系统的特点选择合适的监控工具,优化完善监控策略,才能更好的为用户提供持续稳定、高效的应用系统运维服务。
参考文献:
[1]詹浩,面向业务的应用监控系统设计.《软件服务》 2014年·第6期
[2]李荣杰,通过多维度监控提升系统可用性.《基层实践》 2016年11月
作者简介:宫新鹏(1983.09-)男,汉族,河北沧州人,本科,研究方向:应用系统运维。
京公网安备 11011302003690号