常见原因包括宿主机网络中断、VPS 防火墙或安全组阻断、SSH 服务未启动、端口被占用或密钥/账户配置错误。对于位于柬埔寨的云节点,还要考虑国际链路质量与运营商限速。
1)先在本地使用 ping、traceroute(或 mtr)检测连通性;2)若 ping 无响应,登录云厂商控制台查看实例状态并尝试控制台重启;3)若能登录控制台但 SSH 无法连接,检查实例内 /var/log/auth.log 和 sshd 状态(systemctl status sshd);4)确认防火墙规则(iptables/nftables/ufw)和云端安全组是否允许 22/TCP;5)根据情况修复配置后重启 SSH 服务并重新测试。
使用 mtr、traceroute、ping、telnet(测试端口),以及云控制台的远程控制台功能。若 SSH Key 问题,用控制台替换 authorized_keys 修复。
延迟与丢包可能来自物理链路拥塞、地区出口节点质量差、路由抖动、DDoS 攻击或实例内网卡驱动/队列配置异常。
1)从不同地点使用 mtr 或 traceroute 定位丢包出现的跳点;2)在服务器端用 ping -f、iperf3(带并发流)测试吞吐与丢包;3)检查系统网络错误(/proc/net/dev、dmesg)和 ifconfig/ethtool 输出,排查硬件/驱动问题;4)若为上游运营商问题,及时向云服务商提交工单并附上 mtr/traceroute 结果;5)考虑临时调整 TCP/IP 参数(/etc/sysctl.conf)或使用 CDN/转发降低跨境延迟。
推荐 mtr、iperf3、tcpdump、iftop/nload、ethtool、netstat/ss,必要时配合云商提供的链路诊断工具。
磁盘满通常由日志膨胀、临时文件未清理或数据库占用;I/O 性能差可能因磁盘类型(云盘 vs 本地 SSD)、快照回滚或后台备份占用大量 I/O。
1)使用 df -h、du -sh 检查分区和目录占用,定位大文件;2)清理或压缩日志(logrotate 配置是否正常),删除无用临时文件;3)对数据库进行清理/归档、优化;4)检查 iostat、ioping 或 atop 输出,确认是否为瞬时 I/O 峰值或持续性瓶颈;5)必要时扩容云盘、切换为性能更高的磁盘类型或调整 RAID/IO 调度器。
使用 df、du、lsof(定位被删除但仍占用的文件)、iostat、iotop、atop 和 nmon,云盘扩容可在云控制台执行并按需在线扩展文件系统。
性能下降可能是单个进程占用过高、内存泄漏、频繁的垃圾回收、Cron 任务冲突或外部请求激增导致的资源竞争。
1)使用 top、htop、ps aux --sort=-%cpu/-%mem 排查占用高的进程;2)查看应用日志、GC 日志与慢查询日志,定位性能瓶颈;3)对可疑进程进行堆栈分析或重启策略(优先热重启服务,必要时重启实例);4)评估是否需要垂直扩容(CPU/内存)或水平扩展(负载均衡、集群);5)长期解决方案包括代码优化、缓存(Redis/Memcached)或数据库索引优化。
推荐使用 htop、top、ps、perf、strace、jstack(Java)、mysqltuner(MySQL)、netdata 或 Prometheus+Grafana 做持续监控与告警。
安全问题来源于弱口令、未打补丁的服务、暴露管理端口、被感染的脚本或后门、以及滥用账号造成的异常出站流量。
1)立即限制访问:通过云控制台临时关闭公网、修改安全组规则或更换 SSH 端口;2)收集证据:查看 /var/log/auth.log、/var/log/messages、last、netstat/ss 输出以及可疑进程和 crontab;3)隔离受感染实例并快照保留日志;4)清理与修复:删除后门、替换受影响二进制、更新系统与应用补丁、强制更换所有密钥和密码;5)部署防护与监控:启用 fail2ban、WAF、入侵检测(OSSEC、Wazuh)和流量限制策略。
推荐使用 fail2ban、OSSEC/Wazuh、chkrootkit、rkhunter、iptables/nftables、tcpdump、Bro/Zeek,以及云厂商的安全审计与告警服务。