在 Ceph 集群中,ceph osd perf
命令用于查看各个 OSD 的性能指标,包括 op/s(操作数/秒)和 latency(延迟)。这是监控 Ceph OSD 性能的重要工具,特别是在排查集群性能瓶颈时。
ceph osd perf
执行命令后,你可能会看到类似如下的输出:
OSD Commit_Latency(ms) Apply_Latency(ms)
0 2.345 1.456
1 2.678 1.789
2 3.123 1.987
OSD
Commit_Latency(ms)
Apply_Latency(ms)
高 Commit Latency
高 Apply Latency
部分 OSD 性能异常
ceph osd reweight
或 ceph balancer
平衡负载。查看所有 OSD 的状态:
ceph osd tree
检查具体 OSD 的详细信息:
ceph osd dump
查看集群的整体性能统计:
ceph status
通过 ceph osd perf
的数据,可以迅速定位 OSD 性能瓶颈,并结合其他命令和监控工具进一步分析问题所在。
以下是常见硬件配置的参考延迟范围:
存储类型 | Commit_Latency | Apply_Latency |
---|---|---|
HDD | 5-15 ms | 10-30 ms |
SSD | 1-5 ms | 2-10 ms |
NVMe | < 1 ms | 1-3 ms |
明显高于参考标准:
Commit_Latency
达到 30 ms 或以上,这表明 WAL 写入速度可能存在瓶颈。Apply_Latency
超过 10 ms,可能是存储设备或负载分布的问题。延迟显著高于其他 OSD:
Commit_Latency
为 5 ms,个别 OSD 达到 50 ms。随着负载增加,延迟剧烈上升:
延迟直接影响业务:
高 Commit_Latency:
高 Apply_Latency:
BlueStore
替代 FileStore
)。分布不均的延迟:
ceph balancer
平衡数据分布。通过结合延迟标准和实际业务需求,你可以更有效地判断延迟是否过高,并采取相应的优化措施。