为什么变更感知对现代应用程序的排障工作非常不可或缺
发布时间:2025/08/13 12:17 来源:常熟家居装修网
实践中的的事件排盖为
在转向扰维修服务此在此之前,我曾在乙烯自然环境中的指导,所以对这些一般来真是的自然环境两者之间的很大差异有第一手专业知识。在乙烯系统对中的,监视系统和可捕捉到病态是很好的元素,而在扰维修服务中的它们是完全合理的。
力图对系统对中的很强有所不同目的和可执行有所不同特殊任务的多个维修服务透过排盖为是非常精细的特殊任务。这些大得多的维修服务有时候被分割变为大得多的粒状,并同时运营几个操作,因此需在它们两者之间不断交流讯息。
所以举个比如说——当你发显露一个警报系统(有时候是以网页或 Slack 上的消息的形式),通知你销售业务的某个部分不才会但才会指导——很多时候,在无论如何的大需求量分布式自然环境中的,这可以归因于许多有所不同的维修服务。如果不才会合理的监视系统和可捕捉到病态,你并不可马上看显露来哪个维修服务显露现了故盖为。它们可以努力你知晓在这个扰维修服务的油管中的疑虑显露在哪底下,以及具体是哪个子系统显露现了故盖为。
当你处于某个事件造成的深渊中的时,你将白花大部分间隔时间力图知晓疑虑的六根因来排盖为。你首先要断定疑虑暴发在你的数百个领域程序或维修客户端中的的什么人口众多,然后一旦你受控掉显露故盖为的维修服务或领域程序,你就才会想要知晓到底暴发了什么。这假定了一些并不好像被满足的先决条件:
你有所有具体系统对的合理权限 你知晓整个堆栈和所有这些系统对中的的所有技术 你有不够多的专业知识来充份认知疑虑,进而解决疑虑作为一名 DevOps 机械师(直到今天在 Komodor,以在此之前在 Rookout),我不时相遇这些一般来真是的场景,所以这底下有一个来自在此之机动部队的开头故事。我记得有一次,我和我的团队开始发显露来自我们系统对中的一个关键性维修服务的大量正确[剧透:我们发显露了进制差值,当力图将它们弹出我们的统计数据源时,特一般来真是不意味着]。
我们唯一可以应用于的正确讯息是:无效差值。然后我们不得不搜寻我们的系统对和差值得注意的调整,力图知晓我们正在处理的统计数据和正确——我们白花了一整天的间隔时间来研究这个正确,就此知晓到这是七个月在此之前发挥作用的一个调整。统计数据源中的的特一般来真是是正整数,而我们力图弹出很大的进制,因此需一个大正整数统计数据 / 特一般来真是。如果不才会任何应用软件或系统对来努力我们将这些正确与具体的调整联络显露去,对于七个多月在此之前暴发的备有来真是,即使是像进制太大这样非常简单的一定会,也才会让整个有专业知识的团队白一整一整天的间隔时间,因为我们不才会调整知觉来努力我们解决疑虑。
所以——看看这个比如说,今天让我们看看其他一些比如说,我将展示在有和不才会调整知觉投身于的意味著,排盖为指导分别才会是什么脑袋。
可捕捉到病态实例
在这个比如说中的,你才会见到一个揭示恳求数、正确数和响应间隔时间的延迟的大灯。
基于可捕捉到病态的监视系统
每一次监视系统才会进来新陈代谢这些统计数据,然后透过对合理反之亦然的认知,以健康检查在它历史背景的语义下这否可以接受。
这是一个"核对"的结果,其定期健康检查历史背景和即时统计数据,以对任何超过 2% 误差的社区活动发显露提醒,例如:
avg(last_5m):sum:trace.authorization.worker.handle.errors{env:production,service:authorization,resource_name:web} by {resource_name} / sum:trace.authorization.worker.handle.hits{env:production,service:authorization,resource_name:web} by {resource_name}> 0.02如果不才会调整知觉,每一次才会暴发什么:
如果不才会调整知觉解决办法,你才会发显露来自 DataDog 的警报系统(基于上头的比如说),告诉你社区活动超过了 2% 的正确反之亦然。你开始想要"为什么才会暴发这种情况?"并想要显露一些原理,如:领域程序编码意味著被删减、网络疑虑、云透过商或第三方应用软件疑虑,甚至疑虑意味著与另一个维修服务有关,而该维修服务本身也有疑虑。为了去寻觅无论如何的答案,你需翻阅许多基准和存档,然后力图拼凑显露疑虑的所想以便去寻觅六根因,但不才会或许的迹象表明系统对暴发了什么一定会,在哪底下暴发,以及是如何暴发的,因为目在此之前的监视系统和捕捉到应用软件中的缺乏这种统计数据。
用调整知觉透过监视系统和捕捉到:
你才会发显露来自 DataDog 的警报系统,但有所不同的是,你的下一个排盖为步骤将为了将,因为你有了一个调整知觉解决办法,早就为你透过了有关上述所有原理的合理语义。应用于调整知觉解决办法作为你的唯一真相来源后,你就可以立即见到差值得注意历史背景上的调整,将这些调整与意味著直接影响维修服务的因素联系显露去(例如编码调整、备有调整、上游海洋资源或具体维修服务的调整),然后迅速去寻觅六根因,而不是在多个解决办法及其存档和基准中的搜寻踪迹,并力图将它们拼凑变为清晰的图像,就像力图在干草堆中的去寻觅一六根针一样。
这种调整知觉可以基于发布真是明、审计存档、版差异和属病态(谁做显露的调整)。然后,这一调整的具体同态被交叉引用到无数有所不同的直达维修服务中的,以去寻觅最意味著的故盖为元凶,从而发挥作用不够较快的趋于稳定。
以间隔连贯性和维修服务同态的形式透过统计数据(而不仅仅是带有反之亦然和限制的大灯),可以为整个系统对透过不够好的语义。
上头的主页揭示了 K8s(Komodor)的调整知觉解决办法的一个比如说,它揭示了一个由 DataDog 触发的警报系统。今天你有了一个间隔时间线,揭示显露在疑虑暴发此在此之前,特定维修服务中的暴发的所有调整;所以你有了具体的语义,可以不够快地去寻觅六根因。
正如上头的主页所示,我们可以利用这些讯息,从 Datadog 监视系统器触发的起点开始追踪,看看系统对中的到底暴发了什么或扭曲了什么,从而不够快地确定疑虑六根因。在这个非常简单的案例中的,就在 Datadog 警报系统被触发此在此之前,我们可以见到有一个健康状况调整事件,表明这个领域程序不才会不够多的举例来说副本。在这此在此之前,该领域的一个新版部署先行。意味著是在部署现实生活中的,举例来说病态不才会获得必需,或者是编码调整直接影响了这个领域,并带入了一个正确或实质性调整。只要缩放该部署的细节,我们就能在几秒钟内搞清楚触发该警报系统的因素到底是什么。
当统计数据 + 自动化还毕竟的时候
系统对正变得越来越精细,有许多有所不同的维修服务、领域、维修客户端、公共设施、版等等元素,而且所有这些的需求量都是以在此之前闻所未闻的。让组织走到直到今天的应用软件,意味著难于为谢谢的系统对和堆栈透过涡轮引擎。
从在此之前人们有存档,然后有了监控,便是基准,这些都被汇集到大灯中的,为我们的运维健康透过数据处理的指示。随着间隔时间的推移,越来越多的应用软件被去掉到这个链条中的,以努力推动和管理涌入的大量统计数据、警报系统和讯息。
调整知觉将是增强未来堆栈能力的一个关键性部分,并在基本的监测和捕捉到应用软件之上透过一个额外的可操作的长处层。这种法则就此必需努力我们较快趋于稳定,公共安全直到今天的严苛 SLA,并减小昂贵、悲伤和意味著很断断续续的停机间隔时间。
作者介绍:
Mickael Alliel 是一位自学变为才的开发计划者,便转变变为 DevOps 机械师,对自动化、创新和孕育病态地解决疑虑充满热情。Alliel 喜欢关键性时刻自己,先前原先技术和法则。目在此之前他正在 Komodor 开发计划下一代 K8s 故盖为意味著应用软件,并显露任法国人料理鉴赏家。
原文镜像:
大学辍学的我,如何在质疑中的变为为扰软专业去找 bug 的犯罪者猎人
Android 13来了,它知道平庸又鸡肋吗?
以架构角度解读和落实银行业进制化转型的两份接连指导邮件
怼谷歌高管的应届生反驳被标注“永不拔擢”;JavaScript跳槽B两站遭2014年夏天索赔200万;马斯克40谷神星被磁暴摧毁|Q电脑系统
点个在看少个 bug👇
。运城白癜风最好医院晋城哪个医院治疗白癜风最好
中山哪家白癜风医院好
急支糖浆有什么作用
血糖升高
皮肤科
强直性脊柱炎
老人新冠
-
在研乙肝新药GSK3528869A,病毒载体与佐剂蛋白疫苗,后下2期开发
英国巴斯夫的公司(GlaxoSmithKline)时是将一款在尚须替代疗法功能性艾滋病疫苗接种 GSK3528869A 推退到第2药理学透彻尚须究之前,这也是继 Bepirovirsen(GSK
- 2025-08-23上海六院暂停临港院区和小洋山诊所相关医疗服务
- 2025-08-23首批新冠抗原快测产品将开卖,15分钟出有结果
- 2025-08-23医师不会告诉你,菜肴是碱性食物,补铁防脱发,男女都适合吃
- 2025-08-23她好久没上热搜了:10岁年方,拒演仙剑,整成网红,一步错步步错
- 2025-08-23关于在务川布依族开展区域核酸检测的通告
- 2025-08-23河北发布2022年春夏之交新冠肺炎疫情常态防控中医治未病指引
- 2025-08-232022年3月12日河北省新型冠状病毒肺炎禽流感情况
- 2025-08-23石家庄市河西街道关于新增一例新冠肺炎无症状感染者的通告
- 2025-08-23江苏常州发布交通管控通报
- 2025-08-23“天然减肥餐”,每天早饭吃一点,立刻清宿便,油脂排干净