AWS S3 可观测性最佳实践
AWS S3 介绍
AWS S3(Amazon Simple Storage Service)是一种可扩展的对象存储服务,提供高可用性、持久性和安全性。它允许用户存储和检索任意数量的数据,并通过简单的 Web 服务接口访问这些数据。S3 支持多种存储类别,包括标准存储、智能分层存储、不频繁访问存储和归档存储,以满足不同的性能和成本需求。此外,S3 还提供丰富的功能,如版本控制、生命周期管理、数据加密和跨区域复制,帮助用户管理和保护数据。其高度可扩展性和灵活性使其成为企业和开发者的理想选择,广泛应用于备份、存档、大数据分析和内容分发等场景。
观测云
观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。
部署 DataKit
DataKit 是一个开源的、跨平台的数据收集和监控工具,由观测云开发并维护。它旨在帮助用户收集、处理和分析各种数据源,如日志、指标和事件,以便进行有效的监控和故障排查。DataKit 支持多种数据输入和输出格式,可以轻松集成到现有的监控系统中。
登录观测云控制台,在「集成」 - 「DataKit」选择对应安装方式,当前采用 Linux 主机部署 DataKit。
数据采集
- 登陆观测云控制台
- 点击【集成】菜单,选择【云账号管理】
- 点击【添加云账号】,选择【AWS】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
- 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
- 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
- 点击云账号详情页的【集成】按钮,在未安装列表下,找到 AWS S3,点击【安装】按钮,弹出安装界面安装即可
关键指标
指标名称 | 描述 | 单位 |
---|---|---|
5xxErrors | 服务器端错误的请求数量。这些错误通常是由S3服务端问题引起的,例如内部服务器错误(500)、服务不可用(503)等。 | 计数(Count) |
AllRequests | 所有请求的总数,包括成功请求和失败请求。这个指标可以用来监控S3存储桶的整体请求负载。 | 计数(Count) |
BucketSizeBytes | 存储桶中所有对象的总大小。这个指标可以用来监控存储桶的存储使用情况。 | 字节(Bytes) |
BytesDownloaded | 从S3存储桶中下载的数据量。这个指标可以用来监控数据的读取量。 | 字节(Bytes) |
BytesUploaded | 上传到S3存储桶的数据量。这个指标可以用来监控数据的写入量。 | 字节(Bytes) |
FirstByteLatency | 从请求开始到第一个字节返回的时间。这个指标可以用来衡量S3的响应速度。 | 毫秒(Milliseconds) |
GetRequests | 对S3存储桶中对象的GET请求的次数。这个指标可以用来监控对象的下载请求量。 | 计数(Count) |
HeadRequests | 对S3存储桶中对象的HEAD请求的次数。HEAD请求通常用于获取对象的元数据而不下载对象本身。 | 计数(Count) |
ListRequests | 对S3存储桶中对象列表的请求次数。这个指标可以用来监控对存储桶中对象列表的查询操作。 | 计数(Count) |
NumberOfObjects | 存储桶中对象的数量。这个指标可以用来监控存储桶中对象的总数。 | 计数(Count) |
PutRequests | 对S3存储桶中对象的PUT请求的次数。PUT请求通常用于上传新对象或覆盖现有对象。 | 计数(Count) |
TotalRequestLatency | 所有请求的总延迟时间。这个指标可以用来衡量S3处理请求的整体性能。 | 毫秒(Milliseconds) |
场景视图
登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “AWS S3”, 选择 “AWS S3 监控视图”,点击 “确定” 即可添加视图。
S3 bucket 列表可以查看对应区域 S3 bucket 开通信息
请求指标主要是包含 S3 对象数据被外部访问的请求相关指标
监控器(告警)
观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。
登录观测云控制台,点击「监控」 -「新建监控器」,输入 “AWS S3”, 选择对应的监控器,点击 “确定” 即可添加。
AWS S3 HTTP 请求量存在突增突降异常
总结
通过将 AWS S3 的原生监控数据集成到观测云平台,用户可以实现对 S3 存储桶的实时性能监控、资源使用分析以及安全事件的可视化。观测云的高级分析和可视化功能,如实时仪表板、智能告警和根因分析,能够帮助用户快速定位问题、优化成本,并确保数据的高可用性和安全性。这种结合不仅提升了监控的效率和准确性,还通过集中管理的方式简化了运维流程,使用户能够更好地应对复杂的云环境挑战。