Airbnb 透露 ,通过重新审视告警功能的开发和验证流程,他们显著改善了其可观测性实践,并且得出结论:虽然看上去根源是“文化问题”,但实际上是工具和工作流方面的缺失。
通过重新设计其 “可观测性即代码”(OaC)方法 ,该公司将告警功能开发周期从数周缩短至数分钟,大幅减少了告警噪音,并成功将数十万项告警迁移至新平台。
问题的核心来自一个简单的洞察:工程师并不是因为缺乏纪律而创建了糟糕的告警,而是因为他们无法在部署前看到告警行为。
Airbnb 依赖 OaC 为大约 30 万项告警提供支持,为成千上万的服务提供了结构和一致性。
然而,尽管代码审查验证了语法和逻辑,但它们无法捕捉到现实世界的行为。
随着时间的推移,这导致了告警疲劳、信任度降低和迭代速度变慢等一系列问题。
来源:InfoQ中文
