电脑死机服务继续？集群原来用起来这么有安全感！——PVE集群初体验

作者: 司波图分类: 数码发布时间: 2024-04-23 18:00:00 浏览:55289 次

立白立白立:
第一天看图图：虚拟机跑unraid体验看图图一个月：蜗牛星际组nas划算诶现在：您的IDC机房已准备好上门安装

【回复】[吃瓜] 三千预算进卡吧，四路泰坦抱回家。三千预算进图吧，小学对面开网吧。三千预算学缩图，家变机房还不够。
【回复】确实，最开始是一个小米路由器外挂硬盘，然后玩客云跑bt下载，然后现在一个工控机主机玩客云网络反代 tgbox的ups全都搞了起来[笑哭]
芊芊老猫的日常:
[妙啊]秒啊，我觉得家里的设备又不够了

【回复】下一系列视频素材不就有了嘛，芊芊安装服务器1234-芊芊安装pve集群1234[打call]
【回复】原来我岳父也关注睡眠区up主了
【回复】回复 @风之双子星 :你太看得起芊芊了[大笑][大笑]
Runto:
家用不要组ceph，如果使用过程中断电，会有集群崩掉的风险，以前公司测试ceph的时候，有测试过，模拟极端情况下，直接断电集群有崩过

【回复】不是同时掉3个就没事[笑哭] 原因其实就是A写BC进度不一样导致重启后各节点进度不一致又丢失了一些状态可能就会损坏集群（脑裂）
【回复】又让我回忆起了被ceph支配的恐惧，感觉原生ceph完全不是生产可用的[呆]
【回复】是的，别使，崩溃后你能恢复数据算你牛
221_202_158_xx:
千万不要组CEPH，不管是家用还是生产环境！！！！！！ 3个月前我们刚刚把网关迁入CEPH 然后大半个月后，意外断电，ceph直接崩溃，不是只读！在没有任何物理硬件损坏的时，却无法恢复数据 CEPH涉及到仲裁节点，如果你能保证仲裁节点100%在线当我没说没事干别折腾ceph，数据不重要也别，不稳定性能也不强血的教训，这东西也是块存储，不要尝试！低于3台千万别尝试，这就是我们3月份可用性跌倒个位数的罪魁祸首包括备份文件都无法导出了，哭死[笑哭]

【回复】而且要注意这东西绝对不能同时意外断电，99%ceph会崩溃如果需要视频里的丝滑切换，很简单，使用网络存储即可注意网络非常推荐10Gbps，1Gbps热迁移大内存虚拟机非常痛苦例如在NAS你创建NFS，然后在pve集群里挂载nfs存储池即可还有就是PVE集群的CPU非常推荐同型号热迁移只支持从低主频CPU到高主频CPU 以上是折腾了2年PVEhomelab玩家的忠告不想引战，如果有疑意，那一定是我错了，勿cue
【回复】ceph明确说了是无法在节点数量小于3的情况下工作的，而且ceph这种东西，网络多快都不嫌多，如果用闪存的话，100Gbps可能才能得心应手分布式文件系统就突出一个节点少就别用（
【回复】回复 @ChaosAttractor : 是的是的，大佬说的很对，但是pve对于这方面的风险警示不完善，技术门槛又比较高，很多纯小白看完视频就跃跃欲试，保不准会出啥事的
郭家小助手:
再出个esxi集群，对比下两者优劣[呲牙]

【回复】ESXI有比HA更高级的FT，宿主机宕机不影响虚拟机不中断业务。
【回复】家用及小规模pve完胜[doge]兼容性好，而且免费
【回复】回复 @是小挂念呀 : 多台机跑同一个虚拟机那个是吧，那玩意确实是顶
TOTORO625:
来早了，加入集群容易退出集群可就难了

【回复】给up一点小小的集群降级震撼，什么都改不了
【回复】没加入集群就已配置pve和虚拟机也难再建集群
奇怪的摆摆鱼:
妙啊，买的 730xd，两个月了还没通电，请诸位引以为戒[doge]

【回复】买的730, 四个月了终于卖出去了[doge]请引以为戒
【回复】回复 @寻千与千寻 : 这玩意的功耗和噪音，一想到就有点头疼，一直摆到现在
【回复】回复 @龙马本马 :转速好像是需要从iDRAC里调，B站有教程记得。。
大狮球bobo:
我做了集群加ceph，千万不要在caph容器里放sqlserver，会越来越慢越来越慢，最终拖累到系统不可用，mysql没有这个问题，我的ceph版本是18.2.2，该问题依然没有解决，目前我的方法是把虚拟机存储数据库的分区单独放在lvm分区，解决卡顿问题

【回复】一群运维工程师，真的是在公司活没干够，回家继续加班，观摩up主搭建集群，别问说的就是我自己[辣眼睛]
【回复】数据库业务在SA传统上是不放在分布式存储上的，
【回复】回复 @大狮球bobo : 听你症状描述应该是元数据查询变慢了，应该有调优空间，但其实没必要。目前企业部署虚拟机集群快速漂移的存储堆栈也还是更多直接用iscsi lun或者nfs这种，存储底层的最佳选择依然是盘柜或者单个（带raid和热备）的存储服务器。ceph或者gluster这类分布式文件系统还是更适合对象存储一些，例如提供给HA网页服务器的资源文件。
你的广告定位:
巧了，今天中午刚玩了下集群，发现了点问题，你的视频就来了。说点pve集群添加事项吧。 1 各节点HOSTNAME不可重复冲突。 2 各节点hosts和hostname文件中的主机名和IP需要和最新信息统一，改过hostname和IP的容易历史遗留导致出错。表现为hostname -i得到的IP为非最新IP和各种集群节点添加失败报错。 nano /etc/hosts nano /etc/hostname 3 分节点不能有已建虚拟机，需要空系统。 4 排除上面的可能还报错，SSH删除节点集群后重启再重试。 PVE删除集群集群不需要了，在web管理页无法直接删除，这时用到以下步骤删除 1、节点上停止 pve-cluster 服务 systemctl stop pve-cluster.service systemctl stop corosync.service ———————————————— 2、将节点的集群文件系统设置为本地模式的命令 pmxcfs -l ———————————————— 3、删除 corosync 配置文件 rm /etc/pve/corosync.conf rm -rf /etc/corosync/* ———————————————— 4、将文件系统作为正常服务重新启动 killall pmxcfs systemctl start pve-cluster

【回复】本来就不能在重名的情况下进行集群操作删除集群的时候会同步删除服务器需要重新手动添加
灯塔_LightHouz:
科普一下03:56提到的“脑裂”：在HA集群系统中，假设节点A和节点B通过心跳检测对方的存活状态。在正常情况下，如果节点A检测不到节点B，就会接管B的资源，同理B也可能接管A的资源。如果出现网络故障，就会导致A和B同时检测不到对方的存活状态，互相接管对方的资源，这样就导致了同一个资源被多个节点访问，这种情况就是脑裂。脑裂导致的问题： 1）数据不完整性（同时读写共享资源，导致数据损坏）。 2）服务异常（共享资源被瓜分，服务起不来）。如何解决脑裂： 1）添加冗余的心跳线，减少脑裂出现的机会。 2）启用磁盘锁，在发生脑裂的时候协助控制资源访问。 3）设置仲裁机制。 4）fence机制（当不确定某个节点的状态时，通过fence设备强行关闭该心跳节点，确保共享资源被释放）。备注：对于无状态服务的HA，无所谓脑裂不脑裂，但对有状态服务（比如MySQL）的HA，必须要严格防止脑裂。 ———————————————— 版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/troubleshooter/article/details/122340747

【回复】回复 @嘿嘿嘿！？？ :别别别，别阻止别人科普哇，我就是剩下那一个还在学习的大学生[爱心]
【回复】感觉已经没必要科普了，看看评论区十个有九个都是干运维的了[笑哭][笑哭][笑哭]
【回复】哈哈哈，那缩图的视频要少看，他很多东西都是一知半解的，还是直接看官方文档和正经的教学视频吧，家里整超融合纯纯给自己找罪受
刘大先生L:
阿维塔的视频这么快就被下架了哈哈哈，官方处理真及时

早安狮叔吃嘛呀ToBeFrank:
上周我 PVE 刚炸了，里面只有 TrueNAS（SMB 备份盘）和 DSM（Docker 媒体盘），结果 PVE 找不到系统盘了。感觉是PVE 直通Nvme磁盘把系统盘给复写了。重装 WePE 检查Nvme 磁盘没有错误，系统结构也都在。重装 PVE 正常，挂载备份盘都在。就是 DMS 需要重新配置家庭影院，耽误 2 天，太难受了。除了数据备份，系统备份也很关键。

【回复】回复 @早安狮叔吃嘛呀ToBeFrank : 不了不了[doge]我pve装了3个固态，1个小容量做pve系统盘，两个1t组raid1用来给虚拟机分配用，这样可靠性就挺不错了，剩下的机械盘直通给黑群晖，虚拟机再定时备份一下。这样只要不被一锅端[妙啊]就很容易恢复了
【回复】回复 @19岁反派里的持枪Boy :可以，有机会你也试一下。[妙啊]2T 固态 Pve默认分了100g，直通以后先试试1.8T 。
【回复】回复 @早安狮叔吃嘛呀ToBeFrank :qm set方式直通感觉跟虚拟磁盘性能也差不了太多
ChenBoyong:
@司波图我是在TrueNAS上部署glusterfs容器,我感觉从管理和性能,包括单机存储的冗余性上都比ceph要好.拓展也相对容易 3台独立的存储主机

【回复】回复 @司波图 : 不过现在年纪大了,折腾不动了.天天在家摸鱼写程序,累了就睡觉,醒了就吃饭写程序.[藏狐]
【回复】回复 @司波图 : 我一开始是用centos部署zfs+gluster 后来感觉truenas的zfs性能和稳定性更好点,就换了truenas,主要truenas的UI管理比较方便,而且我用通道拆X16的PCIE变成4x4x4x4x 上了傲腾32G的那种nvme做zil设备,做的镜像,还有一条PCIEX16做的special 4k,也是4x4x4x4x的配置然后4张1TB SATA SSD做的cache,6x6TB的机械硬盘配置raidz2做的数据盘,以上都是单台物理机存储的配置 256GB内存双路2678V3 ,zfs开启数据去重和zstd-fast压缩,关闭atime等
半步1118:
https://banbu1118.github.io/posts/ops/pve-ceph%E8%B6%85%E8%9E%8D%E5%90%88%E6%90%AD%E5%BB%BA/pve-ceph%E8%B6%85%E8%9E%8D%E5%90%88%E7%8E%AF%E5%A2%83%E9%83%A8%E7%BD%B2/这是我写的pve超融合教程，感兴趣的可以参考一下

五彩斑斓的淡灰:
[doge]现在是高可用下一步是不是本地云了

棱商:
我猜有人应该会用到这个命令pvecm expected 1[doge]

【回复】不行的，这个命令有下限。你得pmxcfs -l强行干掉coro
【回复】哈哈，下线台都不能管理集群[doge]

服务器 NAS PVE AIO 集群 Cluster

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！