清理

sage

上个月对存储集群进行了大量工作,修复了与恢复相关的错误,改进了线程处理,并设计了一种在线清理机制。在这种情况下,清理基本上是对对象存储层进行的低级 fsck。对于正在清理的每个 PG,主节点和任何副本节点都会生成 PG 中所有对象的目录,并将其进行比较,以确保没有丢失或不匹配的对象(目前我们检查大小和属性;很快,我们将从 btrfs 中提取校验和,以确保对象内容也匹配)。假设副本都匹配,一个 OSD 会执行最终的语义扫描,以确保所有与快照相关的对象元数据都一致。错误会报告到(新的)中央系统日志。

管理员可以指示系统清理整个存储集群、单个 OSD 或单个放置组。最终,我们可能希望系统在系统空闲时自动安排缓慢的后台清理。

这只是整个“fsck”问题的一个方面——文件系统元数据更加复杂,也需要进行验证。