多集群管理调查

2022年5月2日 Paul Cuzner

可用性一直是 Ceph 开发人员关注的重点,但到目前为止,重点一直是单个集群的可用性。迄今为止,部署多个 Ceph 集群的用户一直在开发自己的解决方案来满足他们的需求,但 Ceph 开发人员可能可以从这些方案中学习到一些共同的主题和功能。

为此,我们发起了一项包含 13 个问题的调查,以帮助开发人员更好地了解多集群管理的使用场景和所需的功能。

非常感谢 41 位参与者抽出时间分享他们的知识和经验。

调查的完整结果,PDF 和 CSV 格式,可以在下面找到。

但是,如果您时间有限,以下是我从调查中获得的 5 个最有趣的见解。

多集群功能应该驻留在哪里?

multi-cluster

尽管 Ceph 已经提供了一个集成的 UI,但大多数人似乎认同需要监控和查看所有集群,同时不受单个集群问题的影响。

在获得 Ceph 集群的高级了解时,您认为哪些属性很重要?

cluster attributes

大多数受访者都认同一组明确的属性。然而,看到与跨集群活动相关的需求出现,例如 RGW 多站点和复制,也很有趣。

界面是否应该提供聚合的告警视图?

alert visibility

这可以节省时间,并可能帮助管理员更好地确定当前 Ceph “舰队” 中问题的修复优先级。(是的,我们都应该拥有一个 Ceph 集群舰队!)

假设跨集群的告警可见性很重要,该功能应该与哪些监控堆栈集成?

monitoring integration

这是一个有趣的发现,因为 Prometheus/Alertmanager 堆栈已经完全集成到 Ceph 集群中。

容量规划是否应该成为该功能的一个组成部分?

capacity planning

这并不令人惊讶。一旦从单个点获得对所有 Ceph 集群的可视性,处理容量规划和预测就成为下一步的逻辑步骤。

下一步是什么?

这是一个好问题!

本次调查的目的是帮助开发人员更好地了解多集群管理的需求。我认为它做到了!

下一步是吸引对开发此功能感兴趣的开发人员。因此,如果您是一名开发人员、系统管理员或只是对多集群管理充满热情,请联系 dev@ceph.io 邮件列表,让我们看看我们能做什么!