记一次群晖服务器严重宕机事件

起因

其实这件事情还是有一些预兆的,在大概一个多月前吧,我发现重启后偶尔连不上,就连路由器后台也看不到群晖的ip,当时我并没有在意。

又过了几周,我记得当时是加东西来的,然后就关机了,后来开机我发现开了不下5-6次,当我要修的时候,已经把显示器拆过去了插上了,他突然就好了,当时我就在想估计是引导不稳定了,下次升级的时候我顺便把引导换了,这次我就先这样用吧。

于是又相安无事了几周,直到家里面停电了,我爸估计是听到我UPS在一直响个不停(报警)就把uos给关了!关了!!(他可真贴心)。
自此以后,再开机就再也连不上了,于是我就开启了漫漫抢修之路

开修

尝试修引导

本着第一个猜想,我开始从引导和网卡驱动下手,从之间一直使用的JUN模式的引导,换成ARPL的引导,事实证明,还是和以前一样,ARPL的引导貌似都没有我的网卡驱动,于是我开始尝试不同的引导,发现都不行,后来又刷回了之前的JUN模式带有我网卡i211的引导,其实理论上来说应该是可以用的,但是一直还是用不了。好,初步宣布排除引导问题,那。。。这是为什么呢?

发现问题

我突然想到,群晖应该是没有硬盘也是可以启动的,于是我直接拔掉了我的所有硬盘,启动连接成功!欸?不对啊,为啥啊,奇怪。于是装上其他硬盘依次尝试,最后发现,当我装上一块特定的硬盘(以下代称1号盘)后系统启动不成功,其他的硬盘都是没问题的,于是我又做了以下实验

  • 插入任意其他硬盘+1号盘启动
    • 启动失败
  • 插入任意硬盘启动
    • 启动成功,但是里面的套件显示需要修复,且修复不成功(套件默认安装位置在1号盘中)
  • 插入任意硬盘启动后在插入1号盘
    • 显示存储池1可在线重组,重组后数据可以正常读取,但是套件仍然修复不成功

于是我们就知道了,一定是这块硬盘上面系统数据产生了问题,那么理论上来说重写系统分区数据就可以了,于是我把1号盘插到win电脑上,因为我1号盘上有我的docker数据,我并不想丢掉,想这能不能复制出来,一会重装系统可以直接复制回去,但是我找了半天没有找到docker目录,难道是上级ds7.2后docker变成Container以后目录也变了?但是套件数据应该不在系统分区,想了想不弄了,直接把硬盘前两个分区(应该是系统分区和swp分区)删除了,想着直接重做系统就好。

于是删除分区后,发现果然有一个修复系统分区的选项,但是点击修复后却显示修复失败!我是不是不应是删除swp分区,或者直接格式化分区不删除吧,于是我进dg扫描已删除分区,但是只是扫描到了系统分区swp分区扫描不到,于是我决定恢复系统分区之后重试,依旧修复失败

于是,直接就插入1号盘启动了下,这回连接上了,提示我未安装,ip也不是我之前的固定ip了,想了想那就安装吧,带着一丝希望发现并不能还原只能清空数据重来,于是我脑瘫的选择了清除数据安装(那块硬盘数据已经完全备份,还有一份加密的云盘备份),结果显而易见,成功连上并且系统配置全无,套件数据全部丢失(主要是docker数据丢失,大部分套件无所谓,photo套件数据已经使用hyper备份,docker备份不了啊啊啊)

解决结果

于是我决定既然如此我就全面重新安装配置,毕竟我这个硬盘历史遗留问题还是挺严重的,从6.1陪伴我到7.2,一路升级,终于系统还是出问题了。其实查看这块盘的所有数据,里面除了套件数据还有好多好多类似于乱码命名的东西,不知道是做什么用的。于是我这个究极拖延症患者借着这个机会进行了如下整改:

  • 把这些历史遗留东西全部删除,进行一次全面的系统重装
  • 加一下硬盘,组个raid(以前一直比较懒,没搞。而且现在数据也多起来了,单纯的加硬盘,命令备份部分重要数据还是太抽象了点)
  • docker大部分的容器还在使用老版本没有升级,也重新安装升级下。其实大部分内容都不用重新配置,因为直接映射出来的数据文件都还留着,但是也挺麻烦的就是了
  • 大部分的套件也都重新下载配置,其他一些我当时觉得好玩但是实际没用的套件就都不搞了,之前的数据已经删除干净了

后记

群晖的dsm系统确实是一个非常好的系统,但是也是有一些很令人奇怪的逻辑

  • 系统内容到底如何放置,我发现好像每一块硬盘都包涵这系统文件,就是说每一块硬盘都可以单独使用并启动,但是套件数据却不是放在所有的分区之内的,他们之间到底是什么关系,优先使用哪个啊,为啥要这样设计
  • 如何有一块硬盘是有系统数据的,有一块硬盘是新的,那启动后就会出现一个还原的界面,而点击还原后,你大概率密码就不是之前的,就进不去了,不知道白群晖是不是也是这样,所以只能在开启的状态下再插入新硬盘。我有一块硬盘就是因为这样进不去了就

虽然我组了raid,但是是不是意味着如何我再出现这样的问题,这次我数据还有备份,可以接受全部删除重新来,但是组了raid之后我就不会硬盘间备份了,要是再遇到这种问题。。。我就先用吧,其实应该还是有解决办法的,问题不大。

不过鉴于出现了这种情况,是不是意味着我硬盘里面的数据出现了丢失?一直以来我总是听说硬盘数据是有一定的丢失概率的,这一次是不是就恰好到了系统分区?那我可算是中大奖了,毕竟数据出问题的概率本就小,这次还是出到了最最重要的系统分区,还导致系统宕机

评论

  1. ysicing
    Macintosh Edge
    2周前
    2024-2-18 19:38:14

    我最近遇到了,只能丢了所有数据重新来过

    • 博主
      ysicing
      Windows Chrome
      2周前
      2024-2-19 16:19:02

      原来不只是我遇到了啊,你也是黑的嘛?平时重要数据海曙吃要做好备份鸭|´・ω・)ノ

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇