公司动态

  • Home
  • 如何汤森路透大规模监控和跟踪AWS健康警报 架构博客

如何汤森路透大规模监控和跟踪AWS健康警报 架构博客

2026-01-27 13:54:56 335

大规模监控和跟踪 AWS Health 警报的解决方案

关键要点

在这篇文章中,我们将探讨汤森路透如何有效地监控和跟踪 AWS Health 事件,使用集中化的工具以应对日益增长的事件数量。这一解决方案涉及 AWS CloudWatch、Lambda、EventBridge、ServiceNow 和 Datadog,旨在提升应用的可用性和服务水平。

汤森路透公司Thomson Reuters是领先的商业信息服务提供商。其产品包括为法律、税务、会计和合规专业人士提供的高度专业化的信息驱动软件及工具,结合世界上最受信任的全球新闻服务:路透社Reuters。

汤森路透承诺实施以云为先的战略,依托 AWS 为客户托管数万款关键应用,且不同业务部门使用越来越多的 AWS 账户来部署应用。汤森路透的服务管理团队负责集中监测 AWS 服务健康状况,因此需要一种高效的方法来测量、监控和跟踪 AWS 环境中的 AWS 健康服务。AWS 健康服务能够提供所需的可见性,以监控 AWS 服务的性能和可用性,以及可能影响其应用的计划变更或维护。

在 2022 年,汤森路透接收约 16000 条 AWS 健康事件,考虑到其在 AWS 上的运营规模,手动跟踪这些事件显得极为复杂。这就需要一个解决方案来提供集中化的健康警报可见性,并在 AWS 账户之间高效地跟踪和监控健康事件。汤森路透需保留 AWS 健康事件历史记录至少 2 年,以便得出影响应用性能和可用性的指标,从而保证客户享受高服务水平。汤森路透使用ServiceNow来跟踪 IT 运营,并使用 Datadog 进行基础设施监控,并将这两者与 AWS 健康集成,以衡量和跟踪所有事件以及使用关键指标来评估健康表现。之前,汤森路透无法高效跟踪计划事件,也没有指标来识别这些健康事件影响的应用。

本文将讨论汤森路透如何实施解决方案,以在大规模上跟踪和监测 AWS 健康事件,自动化通知,以及高效追踪 AWS 的计划变更。这一做法使汤森路透能够利用健康事件对 AWS 资源的健康进行可见性评估,并采取主动措施,以减少对其托管在 AWS 上的应用的影响。

如何汤森路透大规模监控和跟踪AWS健康警报 架构博客

解决方案概述

汤森路透利用 AWS Organizations 来集中治理其 AWS 环境。AWS 组织有助于集中管理账户和资源、优化成本及简化计费。汤森路透的 AWS 环境设有专门的组织管理账户,用于创建组织单位OUs和管理组织成员账户的政策。汤森路透在 AWS 健康服务中启用了组织视图,一旦激活,便提供了跨所有账户的 AWS 健康事件的汇总视图如图 1 所示。

解决方案架构步骤如下:

Amazon CloudWatch Scheduler 每 10 分钟调用一次 AWS Lambda 来从组织管理账户获取 AWS Health API 数据。Lambda 利用执行角色权限连接到 AWS Health API,并将事件发送到 Amazon EventBridge。Amazon EventBridge 的松散耦合架构允许根据 AWS 健康事件类型分类存储和路由事件。AWS 健康事件与 EventBridge 规则匹配,以识别事件类别并路由到处理特定 AWS 健康事件类型的目标 AWS Lambda 函数。基于 AWS 健康事件类型类别,AWS 健康事件被路由到 ServiceNow 和 Datadog。如果事件类型类别为“计划更改”或“问题”,则事件将路由到 ServiceNow。事件存储在 DynamoDB 表中,以跟踪 AWS 健康事件,超出 AWS 健康服务提供的 90 天历史记录。如果受影响的 AWS 资源的实体值存在于健康事件中,则使用与该实体值相关的标签来识别应用和资源所有者并通知他们。内部政策要求所有者在每个 AWS 资源中包含 AWS 资源标签。DynamoDB 表将根据实体值更新额外捕获的详细信息。不相关的事件将被排除在外。创建包含 AWS 健康事件详细信息的 ServiceNow 工单,并在 DynamoDB 表中更新服务商票证所需的应用和资源所有者的附加详细信息,以关联 AWS 健康事件与 ServiceNow 工单。如果事件类型类别为“账户通知”,则事件将跳转到 Datadog。所有账户通知包括公共通知会被路由到 Datadog 以进行跟踪。Datadog 将创建监控,以帮助从 AWS 健康事件中得到更有意义的信息。

AWS 健康事件类型“账户通知”为有关 AWS 账户和服务的管理或安全提供信息。这些事件大多是信息性的,但有些需要紧急处理,跟踪这些事件在汤森路透的事件管理中至关重要。汤森路透决定将这些事件路由到 Datadog,由服务管理中心的全球指挥中心监控。其他 AWS 健康事件类型则通过 ServiceNow 跟踪。

使用 ServiceNow 跟踪计划变更和问题

汤森路透利用 ServiceNow 进行事件管理和变更管理,包括 AWS 云和本地应用的管理。这使汤森路透能够继续使用现有有效流程,通过 ServiceNow 跟踪 AWS 的计划变更、AWS 健康问题和调查,通知相关团队,并监控直到解决。通过 AWS 健康报告的所有 AWS 服务维护或问题都会在 ServiceNow 中进行跟踪。

在每月处理数千个 AWS 健康事件的过程中,还需识别和跟踪可能对应用造成重大影响的事件是个挑战。汤森路透决定排除那些不相关的事件,这些事件对于汤森路透托管的区域或特定 AWS 服务来说不是重要的。识别包含的事件的过程是一个持续的迭代工作,依赖于捕获在 DynamoDB 表中的数据和不同团队的经验。AWS EventBridge 简化了过滤事件的过程,消除了开发自定义应用的需要。

ServiceNow 被用来创建各种仪表板,这些仪表板对于汤森路透的领导层来说至关重要,可以一目了然地查看 AWS 环境的健康状况。此外,还为单个应用、业务单位和 AWS 区域策划了详细的仪表板,以满足特定需求。此解决方案使汤森路透能够捕获有助于了解 AWS 执行的各种计划变更及其影响的底层资源。通过健康事件创建的 ServiceNow 事件用于实时采取行动,以缓解潜在问题。

汤森路透有业务要求将 AWS 健康事件历史保留至少 2 年,并需要为领导层自定义仪表板,以查看应用的性能和可用性指标。这要求在 ServiceNow 中创建仪表板。图 2、3 和 4 是为提供全面的组织 AWS 健康事件视图而创建的仪表板示例。

Datadog 用于账户通知

汤森路透利用 Datadog 作为其观察、监测和跟踪基础设施、应用程序等的战略平台。类别为账户通知的健康事件被转发到 Datadog,并由汤森路透服务管理中的全球指挥中心进行监控。账户通知很重要,因为它们包含有关 AWS 账户管理或安全的信息。与 ServiceNow 类似,Datadog 还用于策划独立的仪表板,并创建独特的 Datadog 监控器以监测和跟踪这些事件如图 5 所示。目前,汤森路透的服务管理团队是这些 Datadog 警报的主要用户,但未来的战略是将相关和重要的通知仅路由到相关应用团队,通过确保所有 AWS 资源类型的现有 AWS 账户上都有强制的标签标准。

下一步

汤森路透将继续增强识别重要健康事件的逻辑,减少噪音,通过过滤不重要的事件。汤森路透计划开发自助服务订阅模型,允许应用团队选择与其应用相关的健康事件。

下一步的关键关注点还将是尽可能地自动化对特定 AWS 健康计划事件的响应,例如,通过 AWS 系统管理自动化文档响应维护。

苹果免费加速器下载

结论

通过这一解决方案,汤森路透能够有效地使用内部工具 ServiceNow 和 Datadog 在规模上监控和跟踪 AWS 健康事件。与 ServiceNow 的集成使汤森路透能够衡量和跟踪所有事件,并使用从 ServiceNow 生成的关键指标来评估健康表现。这一架构提供了一种高效的方式来跟踪 AWS 的计划变更,捕获度量指标以了解 AWS 执行的各种计划变更及不同 AWS 账户中受影响的资源。该解决方案提供了基于 AWS 健康事件的可操作见解,使汤森路透能够采取实时行动,减轻对应用的影响,从而为客户提供高水平的服务。

作者简介

Srinivasa Shaik 是一位驻波士顿的解决方案架构师,他与企业客户合作,为其业务需求架构和设计解决方案。其核心专注领域为容器、无服务器和机器学习。闲暇时,他喜欢与家人共度时光、烹饪和旅行。

Naveen Polamreddi 是平台工程师,帮助汤森路透在安全、可扩展的云环境中运行生产工作负载,并具有构建企业级云环境的丰富经验。Naveen 喜欢讨论技术及其如何解决各种问题,并在休闲时与家人共度时光,亦是一名健身爱好者。

Russell Sprague 是 AWS 的首席技术账户经理,热衷于帮助客户满足其运营卓越和韧性需求。工作之余,他喜欢和妻子一起休闲、与孩子一起玩游戏、与狗一起远足,也喜欢打扮成海盗。

Srikanth Athmaraman 是汤森路透服务管理团队的首席云工程师,在技术行业有 9 年经验。他热衷于 DevOps 和系统管理,并利用云技术设计和构建增强客户体验的服务。Srikanth 热爱摄影,闲暇时喜欢旅行。

发表评论