《备份系统运行数据收集及分析的设计.docx》由会员分享,可在线阅读,更多相关《备份系统运行数据收集及分析的设计.docx(16页珍藏版)》请在第壹文秘上搜索。
1、前言信息系统的运行虽然遵循一定的运行规律,但也呈现出动态的、易干扰、难以预测的特征。对于IT系统运维人员来说,我们展关注的是系统的稳定运行,有时会过于担忧系统的运行风险,有时也对某些运行中的风险麻痹大意,甚至在面对潜在的、未知的故障时,还会十分恐慌.恐惧源于未知,IT运维人员需要克服这种恐惧,让运维从容不迫.本文将从个人运维实践经验出发,研究设计备份系统运行数据采集及分析方法,从而能更加洞察系统的运行规律,希里对同行有一定的借鉴和参考价值.1 .需求数据备份是为应对潜在的数据丢失风睑,而将业务系统中的数据加以豆制并转储到备份存储的工作.为统一调度不同的数据备份作业,集成管理数据备份服务器以及不
2、同类型的备份存储介质,企业需要规划建设与业务系统架构相适应的数据备份系统.作为数据安全的一道重要防线,稳定运行的数据备份系统是至关重要的.备份系统运维侧重于关注备份作业是否出现报错,备份存慵是否存在异常,出现异常或故障时如何去排直、分析、干预等方面,基于备份系统运行数据的收集及分析,来构建备份系统较全面的数字模型,主要用于解决以下三个痛点:缺乏有效的故障预警:粗粒度、滞后性的运维方式增加了备份系统的故障率,S而影响了备份作业的成功率.故障溯源困难:故障会导致运行错误,故障分析定位的过程则是从运行错误回溯到故障,找出错误源头,这也是传统运维方式的痛点之一.系统管控能力不足:备份系统不同于一般的业
3、务系统,往往会忽略了运维的过程管理,包括配置管理、变更管理、容量管理等.如果系统管控能力不足,会大大增加运维风险,严再影响系统的稳定运行.2 .设计策略部分大数据、智能化运维项目更注重于形,即先搭平台,数据收集起来,再慢慢若能做什么样的数据分析和应用.这样的设计策略没有认识到数据质量的里要性.也轻视了系疣运行规律和运维经验的指导作用,系统的有效性大大降低.如果数据质量不高或缺失了某些关燧指标数据,数据分析的结果必然会有偏差.因此,总体设计策略应先关注领域分析,即有必要深入分析备份系统的整体架构,了解系统各组件之间的关系、数据流路径;然后是数据的场景化设计,针对具体的运维场空确定数据分析及应用场
4、景,再追溯确认需要采集的指标数据;最后详细设计数据收集和数据分析方法.整体设计流程如图1所示:图1.设计策略流程图整体架构定标据谕指et维景计运场设析据般分数场抠析计数分设集计数收设3 .领域分析3.1 备份系统整体架构备份系统主要包括备份管理系统、备份客户端、备份网络以及备份存储介质这几种组件,如图2所示:图2,备份系疣整体架构图备份管理系统包括备份管理软件和备份管理服务器,承担备份作业调度管理、备份存储介质管理等责任,是典型的C/S架构,读取备份客户端数据,并将数据写入备份介质中.备份客户端执行备份任务的业务主机,是用户感知屋,一股需安装备份软件客户端代理程序,并与备份服务端通信。备份网络
5、承担备份数据流的传输任务,一般分为基于TCP/IP的备份1.AN和基于FC的备份SAN.备份存储介质承担备份数据存储的备份设备或介质,常见的包括磁带库,虚拟带库,NAS存储等。3.2 备份数据流符份系统的数据流主要包括备份作业数据流和数据恢我数据流,如图3和图4所示。需要强调的是.数据流传输并不是一个直接调用返回的动作,而是一个持续的数据传输过程,在:数据流传路径的任意一个环节出现堵塞或者故障,备份或恢亚作业即会受到影响:另外,由于源端或目的端Ifi复删除技术的应用,备份与恢宏的数据流并不对称,常要分别分析.2.调度加1枚篇份存储第份服为龈4.数据写入招份存储I三控服务需5V据得份Cfl.l,
6、!.TJr1.J份作业发起3.数据发送到招份服务器g篇份客户端图3.备份作业数据流图主控服务器图4.恢豆作业数据流图恢亚客户端4 .场景设计4.1 故障跄理场景故障管理是运维场景中最重要的一环,一般可分为事前、事中、事后三个阶段.事前阶段的重点是评估分析,做好故障预防;事中阶段则包括故障告警、故障处理和恢复;事后阶段需要做好分析改进.下文将对备份系统常见的故障场景做具体分析.4.1.1 作业时长增加数据备份和恢豆作业的时长增加是一种隐性故障,一般影响较小.但对于关键业务系疣来说,超出备份时间窗口,带来的影响有时也是无法容忍的;而数据恢系作业时长有时也决定了故障恢豆时间长短.数据备份恢复时长一般
7、随数据0的增长而缓慢增长,但异常情况下,备份恢复速度也会降低。在事前阶段,我们可以判断数据量是否有突增,可以提前调整备份时间;事中阶段可关注数据吞吐量,如达不到速度预期,甚至严正超出备份时间窗口,可能需要及时中止备份恢豆作业;事后阶段主要是排查定位速度下降的原因,主要排直方向是备份网络带宽被占用、读取数据源的速度下降以及写入备份存储的速度下降这三类.4.1.2 硬件故障硬件故障的影响依赖于硬件冗余情况,备份服务器、备份网络、磁带机、磁带等等硬件都翕要有冗余,这种问题对备份系统的影响一般是一次性的.除了硬件设备自身故障以外,还可能存在兼容性问题导致的硬件故障问题,这类问题可能会间歇性的影响到备份
8、作业的成功率,定位难度也比较高.在事前阶段,我们需要关注硬件自身的状态,可提前预防硬件故障带来的影响;事中阶段,一般来说硬件故障会导致作业报错,即使硬件自身状态正常,但通过运行日志能判断到硬件故障的可能性较大,需要及时将故障硬件徘除出去,先保障备份作业的成功率;事后阶段,综合运行日志情况和故障处理情况,可进一步去定位是硬件自身故障还是兼容性问题,为故障屐终处理提供依据.4.1.3 软件异常一般软件异常指的是软件提供的服务不达预期,可能是代码缺陷或服务异常终止.可以分为前端和后端异常,前端异常会导致备份恢复作业报错,后端异常主要是影响server后端作业.前端异常涉及到备份软件server和cl
9、ient,client影响的是使用该代理的备份作业,server端的影响较大.在事前阶段,我们需要确认省份软件进程和服务端口是否正常,防患于未然;在事中阶段应根据作业报错或受影响情况,结合运行日志去判断异常的软件组件,从而权衡需要如何去干预软件运行中异常;事后阶段则需要复盘运行状态和运行日志,为后续类似的软件异常能预防和定位,提供更多数据依据.4.1.4 资源争用备份系统是一种C/S架构系统,会共享备份服务器和备份存储资源,资源共享会带来资源争用,也是资源容量不足引起的.典型的资源争用引起的故障场景主要有磁带机可用数量不足、密份服务器计箕资源或网络资源占满、备份存储容量不足或服务能力不足,会带
10、来备份作业报错或性能下降导致的作业超出时间窗口等不利影响.在事前阶段,我们需要做好资源调度规划,合理配置不同时间段的备份任务;在事中阶段,可以通过监视资源调度情况和运行日志中的资源等待情况,及时判断出是否发生了资源争用,可及时中止以确保优先级更高的作业任务的完成;事后阶段则是根据运行中出现的资源争用情况来修改资源调度规划,必要时也可以申请更多的备份资源.4.2 运维管理场景运维管理是通过制度化、流程化、标准化的运维手段来指导IT系统的运维,是一套持续改进的机制.相比故障管理场景,运维首理场里更关注的是在平时运维工作中如何去应用备份系统运行数据,以达到持续改进优化的目的.通过数据收集及数据分析,
11、可以更好地实现对备份系统管控,主要集中在下面几个场景.4.2.1 数据管理数据管理的目标是保障数据安全可齐,对备份系统来说,个人认为主要是三点内容需要关注:一是定时备份作业是否成功,可通过收集备份作业结果来确认;二是里要的备份数据通常还会做数据豆制,保持主备站点两到三份相同的数据备份.需要定期确认数据是否成功同步;三是备份的数据需要有数据恢复验证机制,可定期确认备份介质中数据的完整性,并针对不同数据类型的备份做数据恢且,以验证数据正确性.4.2.2 容量管理备份系统容量菅理工作中主要关注的是数据存储和性能两方面的容量场景.数据存储容量场景关注多的是备份数据源的容量增长趋势、备份存储介质可用容量
12、等,及时做好容量预估,容员估或过程中还需要考虑到重且数据删除和数据压缩技术的应用;性能容最场景是对备份系统整体的服务能力做评估,评估备份作业并发的能力、数据传输的吞吐、备份客户端和服务端的计算资源消耗情况等等.4.2.3 配置管理配置管理场景可以关注新增或优化的备份策略信息以及备份介质中存储的备份数据信息.备份策略信息包括主控服务器、备份服务器、备份客户端、备份策略集、存储策略、定时策略以及存储库等的详细配置信息,是备份管理软件的核心逻辑信息,需要妥善保存;密份介质主要包括在线介质和图线介质,备份介质渤线保存后,更需要关注备份介质中存储的备份数据信息,以便即使调取访问,该配置信息变化频率较快,
13、需要保持最新版本的配舌信息.4.2.4 监控优化监控优化场景主要关注三个方向:一是丰冷监控指标,二是监控阈值优化,三是告瞥关联。原有的备份系统监控指标主要集中在备份系统软硬件的运行状态、备份作业的成功失败情况,这些监控指标对于潜在故障的覆盖程度不够,系统运行日志中的部分关键字也是监控的重点;监控指标中部分阈值设置时可能采用的是通用经验方式,会出现告警误报的情况,是需要更加系统运行情况来动态调整的;告警关联则更利于故障溯源,利用运维经验、系统规则可将分散的监控告警信息关联起来,便于定位故障.统计报表是运维工作中一项里要工作,可定期回顽系统运行情况.统计报表场景中,可结合运行数据订制每日、每周、每
14、月的运行情况定时报表,包括特定时间段内的不同备份数据对象的备份作业统计信息,包括完成作业数、失败作业数、运行中的作业数、备份存储消耗情况等等.5 .数据收集设计场景设计确定了数据分析的应用场景,也进一步可以确定所需收集的数据.那么数据收集设计的目标是至少涵盖到已设计场景中所需的指标数据,并且这些指标数据可在多种数据源中获得.设计息体目标是数据收集能够兼顾到高效和低开销,同时对IT系统来说是低影响、无风睑的.具体设计方面可按照数据源的不同进行分类,并针对不同数据源设计不同的数据收集方法、数据采集周期以及采集的数据指标信息.5.1 运行日志备份软件的运行日志一般针对记录不同的组件的运行日志及其错误
15、日志,是研究备份系统运行的重要数据源.日志文件有一定的固定格式,每一行日志一般可分为日期、时间、日志级别、详细信息等字段对应于一条记录信息发送到Kafka.并最终存储到E1.K。备份软件是C/S架构,server与client的日志采集方法和周期设置上会做区分.Server端日志数据较多,产生速度快,且不属于一般业务系统,可以在server端服务器上安装1.ogagent(可自己编写日志代理程序,也可使用filebeat等轻景级日志采集工具)去实时采集;client端服务器上一股运行若业务系统,为降低对其他系统的影响,可设百定时任务,每分钟执行脚本将client日志发送到日志服务器上,再有日志代理程序发送数据.日志采集的整体架构设计如图5所示:日志服务器图5.日志采集架构图5.2 硬件设备信息硬件设备主要指的是备份存储、磁带库、虚拟带库、SAN交换机等专有硬件设备,一般可通过SnmP轮询、访问硬件设备API以及CMD命令输出等方法来收集硬件状态信息,适宜于设置定时任务定时采集硬件设备信息.硬件设备上可采集的指标数据包括硬件整体及其各部件状态信息、硬件的逻辑配置拓扑和容量信息、备份存储控制器CPU负载、备份存睹IO带宽和延时、SAN交换机对应端口的吞吐数据、网络端口IO错误计数器信息等。5.3 备份软件接口数据备份软件也会有对应的API接口或CMD接口来获取备份软件