不知从什么时候开始,有一台 阿里云ECS 只要重启就会崩溃,不仅站点无法访问,连SSH都连接不上。
上次提工单,工程师进服务器后台重启后恢复正常,但是这次问题又复现,所以我决定再次提交工单,尽一切可能找到问题根源,避免再出现麻烦。
这次重启导致的系统崩溃出现在凌晨,00:56提交工单时我选择的是重要级别,毕竟服务已经完全中断了,00:59已经有工程师接入,等待时间3分钟。
工程师初步排查发现,服务器本身未发生宕机,确认系统出现崩溃。于是需要提供授权信息,以便工程师进入系统内部排查。
手机APP端无法授权,需要用电脑登录阿里云控制台,在工单下提交授权。
授权成功后工程师开始进入系统内部确认问题。此时可以在工单上随时留言,工程师反馈后我们会收到短信、邮件和阿里云APP推送的通知。
测试发现服务已经恢复正常,不过我希望能够找出崩溃的原因,所以提供了root密码,让工程师继续确认问题。
之后根据工程师的反馈重启测试。
工程师重启测试正常,我这边也重启测试,发现问题已经解决。
这就完了吗?不,我总得问出个所以然来,不然以后维护中如果又做错了什么操作,岂不是很麻烦?
工程师反馈问题原因出在内核上,不建议自行升级内核。我回忆起之前使用 yum update
命令更新过内核,所以问题是出在这里。
在网上搜索得知,内核需要考虑硬件兼容性,因此服务器最好不要随意升级内核,否则容易出现我这样的情况。
至此问题解决,也得到了解答。从提交工单到结单历时约1小时,非常感谢阿里云工程师的付出。阿里云提供7×24小时迅速响应的工单服务,这是用户敢于将业务托管在阿里云上的底气。
作为国内公有云领域毋庸置疑的No.1 ,阿里云的产品和服务都可以放心使用,无论之前你有没有用过阿里云的产品,推荐关注以下活动:
需要更多活动?这里有 阿里云最新活动大全 ,希望能帮到你。