¶引言
我将这篇文章的日期改到了2020年,这样就可以长期置顶了,这篇文章将包含整个博客的map,以及最近正在完成的文章。目的是给来的朋友一个快速查找所需文章的索引。
当然,朋友们如果觉得还有什么想了解的文章可以在下面留言!
我将这篇文章的日期改到了2020年,这样就可以长期置顶了,这篇文章将包含整个博客的map,以及最近正在完成的文章。目的是给来的朋友一个快速查找所需文章的索引。
当然,朋友们如果觉得还有什么想了解的文章可以在下面留言!
场景介绍:在我们的IDC中,存在着运行了3-6年的Ceph集群的服务器,这些服务器性能和容量等都已经无法满足当前业务的需求,在购入一批高性能机器后,希望将旧机器上的集群整体迁移到新机器上,当然,是保证业务不中断的前提下,再将旧机器下架回收。本文就介绍了一种实现业务不中断的数据迁移方案,并已经在多个生产环境执行。
《大话 Ceph 》系列文章通过通俗易懂的语言并结合基础实验,用最简单的描述来讲解 Ceph 中的重要概念。让读者对分布式存储系统有一个清晰的理解。
这篇文章主要介绍了 Ceph 中的一个重要系统 – CephX 认证系统。简要介绍了 CephX 的命名格式。并介绍了从集群启动到用户连接集群这一系列流程中 CephX 所起的作用。最后通过实验操作讲解如何在集群所有秘钥丢失的情况下将其完整恢复,以及在实际生产环境中使用 CephX 的一些注意事项。
本文介绍了两种方式将 Ceph 导出为 NFS,一种通过 RGW,一种通过 CephFS,通过 FSAL 模块 连接到 RGW 或者 CephFS, 其中,FSAL_RGW 调用 librgw2 将 NFS 协议转义为 S3 协议再通过 RGW 存入到 Ceph 中,FSAL_CEPH 调用 libcephfs1 将 NFS 转义为 Cephfs 协议再存入到 Ceph 中。所以需要额外安装这两个包。
最近在做Ceph的监控,使用Grafana+Graphite+Collectd
,需要对Ceph的Json格式输出进行解析,对解析的结果进行一个总结,供他人参考。所有指令添加了--format json-pretty
格式输出。
有位朋友(下文简称小明)的集群OSD数据分布很不均匀,最多的OSD已经被使用了90%,而最少的才用了40%,这种现象的原因基本上可以确定为PG总数设置少了,再加上经常有朋友会问及到每个Pool的PG数该怎么设置,我这里就说下PG对数据分布的影响。
因为怎么做官网的pg计算器已经讲得很明确了,我主要想介绍下为什么要这么做。
文中文字全部参考红帽的官方文档,还有北京Ceph Day的PPT。只是为了普及知识用。
前段时间,有一个存储节点的系统盘进行了重装,按照正常流程:重装系统->配置系统->部署ceph->重建journal->OSD上线
,很快就可以恢复了,可是当时这个节点的OSD上线后,导致前台的VM批量不能开机,紧急处理方法是临时先将这个节点的OSD下线,VM就能正常开机了,后来思考了半天意识到可能是防火墙没有关导致的,并且这个问题的现象是可以复现的,于是就有了下面的实验,目的是探讨下一个节点的防火墙没有关闭,对整个ceph集群有什么样的影响。
主要是为了说明MON的IP和OSD不一样的修改方法,介绍一下monmaptool这个工具,提供了一些常见场景的处理方法,包括增加monitor,机房搬迁需要修改IP,移除某个monitor,备份MON的数据库等。
- 为了证实大话RBD文中对于横向平移crushmap的猜测。
- 从一个
dead cluster
中,是否能够重现所有的PG
和Object Map
。- 本文从一个
OSD
中的若干osdmap
中任意一个提取出来整个集群的CrushMap
,并依此复现出原始集群的所有对象对应关系。- 还提供了一种简单的方法导出
crushmap
。
这篇文章主要介绍了RBD在Ceph底层的存储方式,解释了RBD的实际占用容量和RBD大小的关系,用几个文件的例子演示了文件在RBD(更恰当的是xfs)中的存储位置,最后组装了一个RBD,给出了一些FAQ。