十年前,当 Dynatrace 开始重塑云原生服务跟踪和可观测性时,传统监控系统的海量原始数据流入显然已让人类操作员不堪重负。除了无法在仪表盘上观测海量的遥测数据,传统运营团队还被数百种不同监控工具全天候发送的大量警报所淹没。
通过引入 Davis® 问题根源检测,Dynatrace 大幅减少了大规模事件发生时产生的单一警报垃圾邮件数量。Davis 问题根源引擎并不立即对所有原始事件发出警报,而是跟踪每个违规服务的因果关系。通过自动跟踪服务及其底层基础设施之间拓扑结构的因果方向,Davis 可以收集由同一问题根源引发的所有原始事件,然后通过提出问题来通知您。借助互动式问题模式,Dynatrace 引入了功能强大的全新故障排除助手。这篇博文介绍 Davis 如何在深入分析问题时通过保留上下文的互动式用户引导,帮助您缩短 MTTR(平均解决时间)。

通过精准的问题根源分析加快修复速度
一旦 Davis 确定问题所在,就会创建一个问题概述页面,该页面显示所发生情况(影响)及问题根源的综合管理摘要。DevOps 团队可使用此页面快速识别和修复意外事件。通常情况下,处理过程不会到此为止。在 DevOps 团队完成工作后,软件专家还必须调查底层软件堆栈。他们需要分析 Davis 在部署堆栈中发现的所有相关信息,以避免将来出现此类问题。当导航到被确定为问题根源的底层服务时,问题详情页将打开并保留问题上下文,其中包括:
- 当前问题的日期和时间,因此您无需在分析过程中手动调整每个页面上的日期和时间。
- 侧面板,它以互动方式告知您相关服务所有问题的有关信息。
- Davis 会在您导航到的每个页面上突出显示所有相关问题信息。
下面的截图显示 Davis 如何通过互动方式为您提供指导,即用红色和黄色标记(在左侧)突出显示所有相关信息,同时在右侧的侧面板上显示 AI 问题根源调查结果列表(如果关闭了 Davis 侧面板,右侧面板上会显示一个图标,以便您重新打开它)。

使用 Davis 互动式问题模式优化软件堆栈
注意导航部分标题中的红色和黄色标记,这些标记表示 Davis 已找到与问题相关的信息。红色标记表示事件及其持续时间,黄色标记表示指标异常,即在问题分析过程中发现了可疑指标变化点。黄色指标变化点表示时间点,红色标记表示事件持续时间。如果选择其中一个标记(直接选择或通过侧面板选择),就可以查看其他信息,如时间范围和持续时间。

满足 SLO 要求
除了为检测到的问题提供上下文信息外,当在连接的 SLO(服务级别目标)中检测到峰值时,Davis 还能为您提供支持。通过顶部栏中专用的 SLO 按钮,可以立即查看与所选服务相关的服务级别目标,而不会丢失上下文。选择一个时间段并点击“分析”,就可以轻松对峰值数据进行调查。Davis 可即时收集所有连接的信号,并提供相关的上下文信息。观看以下视频,了解互动式问题模式如何帮助确定 SLO 相关问题。

摘要
Davis 问题检测和问题根源分析对于现代 AIOps(智能运维)和 DevOps 最大程度降低 MTTR 至关重要。实时洞察力对于快速对突发事件分类并及时补救至关重要。Davis 互动式问题模式会引导您了解所有与问题相关的详细信息,并以直观的方式标记问题,使您更容易理解。它还无缝集成用户定义的 SLO,包括利用 Davis AI 分析 SLO 降级,从而在发生关键事件期间节省宝贵的时间。在使用侧面板帮助导航时,您不再需要离开页面的上下文,就能挖掘在问题根源分析过程中发现的所有相关检查结果和 SLO。当然,我们非常乐意得到您的反馈!我们鼓励您试用互动式问题模式,并通过 Dynatrace 社区分享您的反馈和对产品的想法。您提供的任何信息都有助于我们不断改进 Dynatrace 平台。