Quincy 中的 QoS：mClock 和 WPQ 调度器与后台操作的比较 - 第 1 部分

2022年8月8日 Sridhar Seshasayee

简介 ¶

本比较研究是对研究的后续，该研究测试了 mClock，当时客户端操作正在进行，并且仅有恢复/回填操作在后台运行。本研究的目标是优化现有 mClock 配置中后台尽力服务类操作的 QoS 参数。为此，针对包括 scrub 和 snaptrim 等操作的尽力服务类操作的 QoS 参数进行了优化测试。本博客的第一部分讨论了所使用的方法，并展示了使用优化 QoS 参数进行 snaptrim 和恢复操作的测试结果，这些参数效果良好。

此外，在博客的结尾，展示了在逻辑上扩展的集群上测试 mClock 以及客户端操作和恢复/回填操作的结果。

概述 ¶

对于每个调度器，测试涉及在 RBD 池上运行客户端操作，同时在后台进行以下操作

测试 A：在单独的池上进行 Snaptrim 操作
测试 B：在单独的池上并行进行后台恢复和 snaptrim 操作。

将结果汇总，并比较了以下操作类型的两个调度器之间的以下统计信息

外部客户端
- 平均吞吐量 (IOPS)
- 平均完成时间和百分位数 (95%、99%、99.5%) 延迟
后台恢复
- 平均恢复吞吐量
- 每秒恢复的错位对象数
后台 snaptrim
- 平均 snaptrim 速率
- 修剪的对象数

测试环境 ¶

用于测试的单个节点配置如下

软件配置：CentOS 8.1.1911 Linux Kernel 4.18.0-193.6.3.el8_2.x86_64
CPU：2 x Intel® Xeon® CPU E5-2650 v3 @ 2.30GHz
nproc: 40
系统内存：64 GiB
Tuned-adm Profile：network-latency
Ceph 版本：17.0.0-12483-g307e20ec647 (307e20ec64724620831e1c3f0ad806562c80592a) quincy (dev)
存储：Intel® NVMe SSD DC P3700 Series (SSDPE2MD800G4) [4 x 800GB]

所有 Ceph 池都配置了复制因子 3。在该节点上配置了总共 4 个 OSD 用于测试。

测试方法 ¶

Ceph cbt 用于测试场景。创建了一个新的测试来生成后台 snaptrim 操作和与客户端 I/O 并行进行的恢复操作。首先使用加权优先级队列 (WPQ) 调度器执行该测试 3 次。这提供了一个用于比较的基线。

之后，使用 mClock 调度器和不同的 mClock 配置（即high_client_ops、balanced 和 high_recovery_ops）执行相同的测试。汇总结果进行比较。对于每个 mClock 配置，该测试执行 3 次，并且在本研究中报告这些运行的平均值。

建立基线客户端吞吐量 (IOPS) ¶

对于测试，NVMe SSD 被用作 OSD 的后端设备。设置了 OSD 到设备的 1:1 映射。但在实际测试之前，通过在配置了相同 OSD 的单个 RBD 池上运行 100% 4KiB 随机写入 ‘fio’ 基准测试，并使用复制因子 3，建立了基线吞吐量。建立了大约 23K IOPS (91 MiB/s) @ 4KiB 随机写入的平均基线客户端吞吐量。使用这些步骤确定 bluestore 节流参数，即 bluestore_throttle_bytes 和 bluestore_throttle_deferred_bytes 为 256 KiB（请注意，使用了 ‘fio’ 工具而不是 OSD 基准测试）。

设备类型	数量 OSD	RBD 池配置	基线吞吐量 (@4KiB 随机写入，QD：64)
NVMe SSD	4	复制因子: 3 pg_num & pgp_num: 64	23323.71 IOPS (91.11 MiB/s)

OSD 容量确定留给自动化过程。这代表单个 OSD 的原始容量，通常较高。mClock 配置在 OSD 中为每个服务级别（客户端、恢复和其他后台操作）计算 QoS 分配时使用此容量。

mClock 配置分配 ¶

下表显示了每个配置文件的低级别 mClock 分配。对于保留和限制等参数，分配表示为原始 OSD 容量的百分比。例如，在high_client_ops配置文件中，保留参数设置为原始 OSD 容量的 50%。启用配置文件后，将在后台进行这些分配。权重参数是无单位的。有关 mClock QoS 参数的更多详细信息，请参阅基于 mClock 的 QoS。

为了测试，在到达以下表中概述的值之前，对“后台尽力服务”客户端的配置文件分配进行了大量的实验。

配置文件 - high_client_ops (默认) ¶

与恢复和 Ceph 内部的其他操作相比，此配置文件为外部客户端操作分配更多的保留和限制。默认情况下启用此配置文件。

服务类型	保留	权重	限制
客户端	50%	2	MAX
后台恢复	25%	1	100%
后台尽力服务	25%	1	30%

配置文件 - high_recovery_ops ¶

与外部客户端和 Ceph 内部的其他操作相比，此配置文件为恢复操作分配更多的保留。例如，管理员可以在非高峰时段临时启用此配置文件以加快后台恢复速度。

服务类型	保留	权重	限制
客户端	30%	1	80%
后台恢复	60%	2	200%
后台尽力服务	10%	1	40%

配置文件 - 平衡 ¶

此配置文件为客户端操作和后台恢复操作分配相等的保留。内部尽力服务客户端获得略低的保留和 50% 的限制，以便在没有竞争服务的情况下也能快速完成。

服务类型	保留	权重	限制
客户端	40%	1	100%
后台恢复	40%	1	150%
后台尽力服务	20%	1	50%

mClock 配置参数 ¶

mClock 相关的配置选项在透明地选择任何内置配置文件时设置。有关配置文件覆盖哪些配置选项的更多信息，请参阅标题为 mClock 内置配置文件的部分。

其他 Ceph 配置参数 ¶

重要的是要注意 mClock 配置文件覆盖的以下 Ceph 恢复相关选项

osd_max_backfills = 1000
osd_recovery_max_active = 1000

上述选项设置了每个 OSD 上本地和远程回填/恢复操作的并发数量的上限。在这些条件下，测试了 mClock 调度器的功能，结果如下所示。

未更改的与 snaptrim 相关的 Ceph 配置选项如下所示

osd_pg_max_concurrent_snap_trims = 2
osd_snap_trim_cost = 1048576

客户端操作与后台 Snaptrim 操作 ¶

测试步骤 ¶

启动具有 4 个 osd 的 Ceph 集群。
禁用 pg 自动缩放器和 scrub。
创建一个客户端 RBD 池，复制因子为 3，并在其中预填充一些对象。
创建一个具有复制因子 3 的 RADOS snap 池。
用 100K 4MiB 大小的对象预填充 snap 池。
创建 snap 池的 RADOS 池快照。
覆盖 snap 池中 80% 的对象。这创建了 80K 克隆对象。
使用 fio 在 300 秒内启动客户端池上的 I/O
在客户端 I/O 稳定 30 秒后，删除在步骤 6 中创建的快照。这将触发 snaptrim 操作中删除 80K 克隆对象。
在步骤 9 上面，捕获与客户端延迟和吞吐量相关的统计信息。该测试还捕获修剪 80K 对象所花费的时间。

总而言之，测试期间创建了 2 个池。Snaptrim 在一个池上触发，客户端 I/O 同时在另一个池上触发。捕获的测试统计信息讨论如下。

测试结果 ¶

客户端吞吐量比较 ¶

下图显示了跨调度器及其各自配置的平均客户端吞吐量比较。使用 fio 在客户端 RBD 池上使用 4KiB randrw 确定了两个调度器的平均基线吞吐量略高于 23K IOPS。

图 1：WPQ 与 mClock 配置 - 具有 Snaptrim 操作的平均客户端吞吐量比较

显示的客户端吞吐量是 fio 在测试过程中（300 秒）报告的平均吞吐量。重要的是要注意 snaptrim 持续时间是客户端 I/O 运行时间的一个子集。

使用默认 Ceph 配置的 WPQ 调度器的平均客户端吞吐量为 17520.63 IOPS，比基线 (WPQ) 吞吐量低近 25%。但是，使用 mClock 调度器和默认high_client_ops配置文件，与 WPQ 调度器相比，平均客户端吞吐量几乎高 10%，为 19217.59 IOPS。这满足了 mClock 配置中客户端操作设置的 50% 最小保留标准。

该图还显示了其他 mClock 配置报告的整体客户端吞吐量。由于其他 mClock 配置中分配给客户端操作的保留较低，因此预计客户端吞吐量较低。使用balanced配置文件，获得的平均吞吐量为 18998.55 IOPS（比 WPQ 高 8.4%）。使用high_recovery_ops配置文件，为 18293.20 IOPS（比 WPQ 高 4.4%）。

这表明 mClock 能够在后台 snaptrim 操作进行中提供客户端所需的 QoS。与 WPQ 调度器相比，mClock 配置的平均客户端吞吐量更高。

客户端延迟比较 ¶

下图 2 显示了 WPQ 调度器和 mClock 调度器配置之间的平均完成延迟 (clat) 以及平均 95%、99% 和 99.5% 百分位数。此外，还显示了 snaptrim 操作活动期间观察到的平均 clat 的更准确的度量。这表示为图中的clat (snaptrim)。这显示了 mClock 配置相对于 WPQ 调度器在提供相对相似的平均客户端延迟，但 snaptrim 速率不同的方面的有效性。显着差异在于百分位数延迟 [95%、99%、99.5%], 其中high_client_ops显示最低延迟，如预期。

图 2：WPQ 与 mClock 配置 - 具有 Snaptrim 操作的平均客户端延迟和百分位数比较

使用 WPQ 获得的整体平均客户端完成延迟为 3.280 毫秒。但是，在 snaptrim 阶段，平均客户端完成延迟为 6.2 毫秒，与基线值 2.747 毫秒相比增加了近 126%！

使用 mClock high_client_ops配置文件，整体平均完成延迟略高，为 3.323 毫秒。但 snaptrim 阶段，平均完成延迟为 4.506 毫秒，比 WPQ 观察到的低 27% 以上。下表显示了 WPQ 和 mClock 调度器之间的延迟比较。

mClock 配置	整体 clat (毫秒)	WPQ 比较 (3.280 毫秒)	snaptrim 期间的 clat (毫秒)	WPQ 比较 (6.2 毫秒)
high_client_ops	3.323	高 1.3%	4.506	低 27%
balanced	3.364	高 2.6%	5.074	低 18%
high_recovery_ops	3.506	高 6.9%	5.270	低 15%

使用其他配置文件，如balanced和high_recovery_ops，整体平均客户端完成延迟略微增加到 3.364 毫秒和 3.506 毫秒。在 snaptrim 阶段，使用balanced配置文件，平均 clat 为 5.074 毫秒，比 WPQ 调度器观察到的低 18%。使用high_recovery_ops配置文件，为 5.270 毫秒，比 WPQ 调度器观察到的低约 15%。

图 3 和图 4 显示了在几次测试运行中，WPQ 和 mClock 配置之间的平均客户端延迟变化的比较。这些图表跟踪 snaptrim 操作期间平均客户端完成延迟受到的影响。

图 3：WPQ 与 mClock 配置 - Snaptrim 操作期间的平均客户端延迟比较

可以看到两个图表中的延迟在客户端 I/O 开始后 30 秒增加，此时触发了 snaptrim 操作。虽然 mClock 配置中存在中间延迟峰值，但它们主要低于 WPQ 延迟配置文件。

图 4：WPQ 与 mClock 配置 - Snaptrim 操作期间的平均客户端延迟比较

因此，可以得出结论，mClock 调度器能够在 snaptrim 操作期间为客户端操作提供显著更高的吞吐量和更低的延迟。但是，这是否会对 snaptrim 速率和持续时间产生影响？下一节将对此进行分析。

Snaptrim 速率比较 ¶

另一个重要的指标是 mClock 配置对 snaptrim 速率和时间的影响，以及它们与 WPQ 调度器的比较。

图 5 显示，使用 WPQ 调度器，平均 snaptrim 速率为 671 个对象/秒，对于 80K 个对象，平均 snaptrim 持续时间为 121.83 秒。

使用 mClock high_client_ops 配置，对于修剪相同数量的对象，平均 snaptrim 速率为 747 个对象/秒，平均 snaptrim 持续时间为 111.34 秒。这意味着 mClock 调度器平均能够快 8.6% 完成 snaptrim 操作，并且与 WPQ 调度器相比，平均延迟降低了 27%！这可以归因于该配置中为最佳努力类分配了 25% 的 OSD 容量的最高保留量，其中包括 snaptrim 操作。

图 5：WPQ 与 mClock 配置 - 平均 Snaptrim 速率和持续时间

使用 mClock balanced 配置，平均 snaptrim 速率最高，接近 804 个对象/秒，相应的平均 snaptrim 持续时间为 100 秒。这可以归因于为 snaptrim 操作分配的 OSD 容量最高限制为 50%。在这种情况下，mClock 调度器平均能够快近 18% 完成 snaptrim 操作，并且与 WPQ 调度器相比，平均延迟降低了 20%！high_recovery_ops 配置中的数值介于两者之间，snaptrim 速率为 766 个对象/秒，平均 snaptrim 持续时间为 108 秒。这再次可以归因于最佳努力保留量 (10%) 和限制量 (40%) 的设置。

图 6：WPQ 与 mClock 配置 - Snaptrim 速率

另一个有趣的图表是 WPQ 调度器的 snaptrim 速率与 mClock 调度器配置的比较。图 6 和图 7 中的图表显示了对几次测试运行随时间推移的比较。这些图表清楚地显示，high_client_ops 配置的 snaptrim 速率最初进展速度慢于 WPQ 调度器和其他 mClock 配置。在经过一半的时间后，high_client_ops 配置的 snaptrim 速率超过了 WPQ 速率。

图 7：WPQ 与 mClock 配置 - Snaptrim 速率

这些图表还显示，balanced 和 high_recovery_ops 配置的 snaptrim 速率进展速度快于 high_client_ops 配置。如前所述，这可以归因于为 snaptrim 操作分配的更高限制，以及因为没有像恢复、擦洗和其他后台操作这样的竞争操作。

Snaptrim 对客户端延迟的影响 ¶

为了更好地了解 snaptrim 操作对客户端延迟的影响，下面的图表将客户端延迟配置文件与 snaptrim 速率叠加在一起。这显示了 snaptrim 阶段期间的客户端延迟变化。

这些图表在实验阶段很有用，可以确定最佳努力操作的保留量、权重和限制分配，并验证分配是否会对客户端操作产生负面影响，并帮助对配置文件进行增量更改。

图 8：WPQ - Snaptrim 操作期间的平均客户端延迟变化

图 8a：high_client_ops - Snaptrim 操作期间的平均客户端延迟变化

上面的图表展示了 WPQ 调度器和 high_client_ops mClock 配置之间 snaptrim 阶段期间客户端延迟如何变化的一个例子。很容易看出，使用 high_client_ops 时，延迟峰值和变化的幅度远低于 WPQ 调度器。