欢迎来到第壹文秘! | 帮助中心 分享价值,成长自我!
第壹文秘
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 第壹文秘 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    故障定位需要什么样的能力.docx

    • 资源ID:1055963       资源大小:34.46KB        全文页数:4页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    故障定位需要什么样的能力.docx

    运维自动化系统中最难做的部分就是故障定位,目前大多数做智能化运维的企业都使用异常检测算法来定位故障.实际上异常检测算法能够发现异常现釜,很难真正的实现对故障的定位.纯数学的克法往往只能发现某些数据是异常的,而这个“异常发现"也是要依靠参数的,比如我们设定95%的数据是正常的,5%是异常的,而实际上故障发生不会像数学那样精准,同一类故障在故障持续的时间内的数据特征都会有所不同,而同一类故障在两次发生时,其在数据上的差异也可能很大。虽然对于智能系统来说,做故障定位目前还只是处于探索阶段,不过运维人员做故障定位是拥有丰京的传统的了.我这些年参加的各类运维项目有数干个了,我自己总结了一下,人类进行故障分析时的一些分析过程,这些过程如果要使用算法来实现,也大多数是可行的.故障分析根据故障的表象判断可能的诊断路径是一个运维专家所必须具备的能力,这些能力往往是通过大量的运维案例不断的积景下来的。这也是专家有别于普通运维人员的地方.初级的专家往往能够对已知的故障有敏锐的发现能力,可以根据自己遇到过的故障现象快速找到问题的根因,更为资深的专家能够从一些普适性的故障现象中通过系统的内在原理猜测出某个现象背后可能的原因,因此这些资深专家能够更快速的发现未知故障可能的原因.计箕机系统是按照某种需要而经过精密设计的系统,不是混沌系统,因此如果完全依免数学算法去做异常检测来发现问题,实际上是不够科学的.某个现象关联的因素,每个指标意味着的现象,每个等待事件产生的因素,实际上并不是混沌和无序的,是有一定的关系的,如果我们能够把这些因素都找出来,或者能够根据当前的一些特殊系统特征发现出来,那么对于后续的问题定位十分有益.这部分工作如果需要用自动化系统来做,那么构建这些关系的运维知识图谱是十分有效的。如果能够把专家脑子里的经验、以往经历过的运维案例都做出完善的梳理与分析,那么就可以构建起足以支撑今后运维分析的运维知识图谱了.十分可惜的是,一方面我们的专家没有梳理运维知识图谱的经验,一方面某个单一企业保留下来的足以构建运维知识图谱的案例数据过少,因此对于一个单一的企业来说,要构建这个运维知识图谙,确实困难不小.准确的数据采集实际上也是需要依靠运维知识的,如果你无法理解某个指标的含义,那么有可能你会连数据采集都做不好.可能有些朋友不大服气,不就是一个数据采集吗,这有什么难的.如果我们要做故障分析,其中需要使用到CPU资源的使用情况,我们该如何采集数据呢?找某段时间里CPU的使用率的最高值还是平均值?如果出现CPU使用率100%就一定有问题吗?实际上并不是这么筒单的,CPU突然出现的尖蛭实际上大多数是无吉的,不一定会对我们的系统产生不利的影响.只有长期CPU使用率都处于核高位,此时CPU才有可能存在资源不足的瓶颈,影响系统的性能.此时我们还用要观察1.OAD这个指标,只有存在长期的IOAD远大于CPU线程数的时候,CPU的瓶颈才特别严正.而实际上,我们系统出现故障的时候,往往CPU使用率并不一定高,那么我们怎么判断CPU是否和故障有关呢?这就需要用到异常检测了,在大多数情况下,我们需要发现CPU存在的异常,而不是CPU使用率过高.数据分析是人工分析工作中最至要也是最无聊的工作,此时不仅仅需要经验和能力,认真扎实的态度往往是最为正要的.哪怕水平再高的专家,如果不能踏踏实实的分析数据,那么也可能会漏掉十分重要的数据,从而走上错误的路径.这部分工作最耗时,最无聊,也最臣要.实际上也是最容易用自动化的手段来实现的,目前在数据处理方面的算法十分丰富,通过自动化分析的方法来辅助故障定位,实际上技术十分成熟,实践效果也不错.问题分析实际上是通过异常发现、知识发现、故障收敛等方式最终将问题与根因进行对应的过程。哪怕最为资深的运维专家也不可能在脑子里保留所有的运维知识,因此根据故障表象与分析发现的数据去搜索知识库,找到可能存在的根因是定位问题中十分重要的过程之一.Oracle的Metalink是一个十分优秀的知识库,我经常通过关键字搜索找到相关的DOC1然后打开阅读,与我发现的现蕊进行对应,如果大部分内容都一致,则问蔻可能的根因就很可能找到了.再根据文档中对问题表鱼的更为详细的描述,对问题现象进行再确认,往往就能够找出最适合的根因了.这种故障定位大多数是准确的,当然也可能存在出现偏差的情况。这部分故障定位收敛的过程也需要有知识做支撑,如果我们要做成自动化系统,那么这部分的知识也需要通过知识图谱来进行归纳和描述。这部分工作比工作开始时的知识图谱建设更为豆杂,目前大多数情况下,也还仅仅能哆做到辅助定位,通过自动化的手段告诉运维人员,可能的原因是什么,仅有少部分情况,可以直接确定问血的根因.说到根因,以前有个朋友和我说,你们费那个劲干嘛,99%的数据库问题都是SQ1.引起的,搞好SQ1.优化不就行了这句话也有一定的道理,不跑SQ1.系统都是好好的,跑了SQ1.就有问题了,SQ1.一定是根因。不过实际上我们面临的运维环境十分宜杂,如果系统中的SQ1.总是能够被认真的优化,那么运维就轻松多了,而实际上DBA与写SQ1.的研发人员,很多时候还是要相互体谅的,能够通过运维解决的问题,还是先通过运维来解决吧.

    注意事项

    本文(故障定位需要什么样的能力.docx)为本站会员(p**)主动上传,第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知第壹文秘(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 1wenmi网站版权所有

    经营许可证编号:宁ICP备2022001189号-1

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!

    收起
    展开