公共遥测仪表盘

lmb

我们很高兴地宣布,基于 Ceph 的遥测功能报告的数据的 仪表盘 现已可用。

集群使用的 Ceph 版本,按守护进程加权,随时间变化

Ceph Mimic 引入的 Ceph 遥测功能在选择加入后,会将聚合的、匿名的统计信息关于 Ceph 的使用和部署方式发送到 Ceph 基金会的社区基础设施,遵循 CDLA-1.0 共享

由 Yaarit Hatuka、Dan Mick 和 Lars Marowsky-Brée 提供的新的仪表盘,允许社区快速查看摘要统计信息,了解有多少集群正在报告、它们的总容量和 OSD 数量以及版本分布趋势。

交互式和动态版本图表允许仅显示主要版本或拆分次要版本;它们还可以按主要或次要版本和守护进程类型(当前仅限 MON 或 OSD)进行过滤。

热图可以深入了解集群大小和 OSD 数量的分布随时间的变化

整个页面致力于展示各种比率的四分位数分布如何变化;或者更简单地说,如果您曾经想知道超过 1 PiB 的集群中中位数 OSD(存储设备)的大小是多少,或者您的集群容量是否会将您置于全球所有集群的前 25% 之内,我们为您准备了数据

随时间变化的容量四分位数

为了允许不同的报告间隔或瞬态传输问题,图表显示为七天的移动平均值。

勇往直前,去探索吧!

单个集群 X 射线

此外,Ceph 集群的管理员还可以使用 单个集群仪表盘,并查看为给定集群收到的报告

这需要知道集群的 report_id,它充当遥测世界中集群的唯一集群 ID。这是一个在本地集群上生成的不可猜测的 128 位随机标识符,可以使用 ceph telemetry show | grep report_id 查看。(您也可以重置此标识符,如果您希望取消关联集群的历史记录。)

因此,管理员可以轻松验证集群在启用遥测后是否已发送报告,查看高级别聚合统计信息,甚至完成数据库中的先前报告。作为管理员,您会发现这些更新会随着集群发送的每个报告而实时进行。

Telemetry 对用户的好处

了解 Ceph 的使用方式对于了解在哪里集中我们的努力并优先考虑新功能以及评估任何潜在问题的冲击至关重要。

它确保您的 Ceph 使用情况被社区所知,您的需求包含在每个做出的决策中。虽然我们每年进行调查,但调查数据容易出错,并且考虑到您的时间,我们无法像我们希望的那样经常询问所有细微的详细问题。因此,调查仍然是定性分析和交叉验证的绝佳工具,但遥测通过实时、自动化和详细的数据对其进行补充。

遥测的见解已经帮助我们 识别文档中的错误 以及代码中的错误。使用 pandas 探索遥测数据集 也讨论了 Ceph 遥测用户的好处。

除了您可以通过集群 X 射线功能查看遥测数据外,您还可以选择与您选择的支持工程师共享 report_id,以便他们访问集群的历史记录并提供更有效的支持。

为了使之更有效,Ceph 遥测数据库需要增长到具有代表性;正如我们今天看到的低报告集群数量一样,它尚未达到。

因此,请考虑通过 ceph telemetry on 在您的集群中启用它

有关配置的更多详细信息(例如通过代理服务器使用它),也请参见 文档

未来路线图

随着我们进一步分析数据,我们将以透明和交互的方式开始回答有关数据集的更复杂的问题。(例如,在 使用 pandas 探索 中。)

这将包括系统可靠性和崩溃跟踪分析,以及设备可靠性数据。我们将改进仪表盘的质量和数量以及报告的数据。

有些人可能希望启用 Ceph 遥测,但无法启用,因为即使通过代理,HTTPS 端点也无法从您的集群访问。我们正在调查替代传输方式使其成为可能。并且由于了解部署对于映射安全的升级路径特别有用,因此 Ceph 遥测的增强功能是回溯的候选对象。

用于管理单个集群的 Ceph 仪表盘将进一步增强,以配置、查看和参考遥测数据。

请放心,数据隐私是我们的首要任务;任何非平凡的错误修复,尤其是包含的新指标,只有在您重新确认选择加入后才会生效。

保持联系

请随时通过我们的 #ceph IRC 频道或通过我们的 ceph-users 邮件列表 与我们联系!我们期待您的反馈和想法。

结论

我们希望这证明对您有用,并鼓励更多的管理员在他们的集群中启用此功能,并希望看到参与的 Ceph 集群数量迅速增长!