个人项目,规模大了一个月前迁移到 AWS Lightsail,用了 2 台 VPS,8c32g 跑业务,4c16g 跑数据库,都是 Ubuntu 20.04 LTS,都跑在 Docker 容器里。最近发现每隔 5 天左右 8c32g 那台机器就会断网,SSH 和业务都连接不上,必须重启才能恢复正常。现在想到的应急解决方案是用 4c16g 那台监控 8c32g 那台,发现掉线就调 API 重启。请问可能是什么问题,有没有更好的解决方案?机器都是自己账号正价买的,没用过任何码。
1
msg7086 Mar 6, 2021
固定 IP 还是 DHCP ?换一下试试。
另外连接数大不大? 1:1 NAT 可能会炸。 |
2
sampeng Mar 6, 2021 via iPhone
aws 没这么脆弱。带宽是 5G…你能跑满?
大概率是 cpu 跑满了。所以 ssh 都回不去了 |
3
em998 Mar 6, 2021 via iPhone
CPU 用超了吧
|
4
kerro1990 Mar 6, 2021 via iPhone
估计是 cpu 积分用完了吧
|
5
celeron533 Mar 6, 2021
我记得 lightsail 虽然便宜,但是对于 CPU 使用有一定限制
|
6
aec4d Mar 6, 2021 via iPhone
lightsail 适合开发,或者低占用场景,长时间高负载就会无响应 https://forums.aws.amazon.com/thread.jspa?threadID=269360
|
7
jadec0der Mar 6, 2021
lightsail 背后是低成本,可以应付突发性能的 T 实例,平时 CPU 用的很少的时候给你加积分,CPU 高的时候扣积分,如果积分用完了就要卡死了。如果需要持续使用 CPU,建议换成 EC2 的 M 实例或者 C 实例
|
8
jadec0der Mar 6, 2021
你看一下 lightsail Manage - Metrics 里的 CPU,如果 Remaining CPU burst capacity 没有了,那 CPU 性能就只能维持在 sustainable zone 区间
|
9
naoh1000 OP 感谢回复,刚才看了下 `Remaining CPU burst capacity` 还有 40%,应该不是 CPU 的问题。跑的是普通 Web 服务,端对端加密是在客户端实现的,应该不需要太高服务器 CPU 性能。
@sampeng @wancaibida @kerro1990 @celeron533 @aec4d @jadec0der |
12
Kinnice Mar 6, 2021 via Android
感觉是内存泄露,检查一下程序吧,开个监测,看一下出问题的时候,各项系统占用
|
13
iamv2er Mar 6, 2021 via iPhone
不好用 买了退了
|
14
simple2025 Mar 6, 2021
个人项目,14C48G,估计挣了钱了,什么时候我能有副业呀
|
15
isCyan Mar 6, 2021
SSH 连不上的话很难排查啊,先 ping 确认一下到底是断网还是程序问题?
|
16
whitehack Mar 6, 2021
查监控记录,查各项指标. 然后针对性的去排查.
另外逻辑上应该也有日志的吧.这种问题只能一个一个慢慢排查 另外大佬这项目可不小 |
17
wangxn Mar 6, 2021
假如 CPU 不超,那就是内存超了吧。内存超了,也会导致完全卡死,只能重启。我也踩过这个坑。
|
19
huson Mar 6, 2021
开一台 EC2 同配置的 一台 lightsail 同时跑 看看 ec2 挂不挂 如果 ec2 挂那就是 lightsail 的问题 不需要折腾了 直接换 ec2
如果 2 个都挂 那说明是你程序问题 直接查 bug 或者环境配置问题 你先把问题大类给分了 |
20
bullfrog Mar 6, 2021
对,我能想到比较笨的排查方法就是把 cpu 和内存占用每几秒钟就写到 log 里,死机之后查看
|
21
sampeng Mar 6, 2021 via iPhone
cpu,内存,磁盘 io 。都看一下。网络基本很难你能把 aws 的弄满了。
|
22
defunct9 Mar 7, 2021 via iPhone
开 ssh,让我上去看看
|