Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
naoh1000
V2EX  ›  云计算

AWS Lightsail 生产服务器频繁断网如何排查?

  •  
  •   naoh1000 · Mar 6, 2021 via iPhone · 6338 views
    This topic created in 1920 days ago, the information mentioned may be changed or developed.
    个人项目,规模大了一个月前迁移到 AWS Lightsail,用了 2 台 VPS,8c32g 跑业务,4c16g 跑数据库,都是 Ubuntu 20.04 LTS,都跑在 Docker 容器里。最近发现每隔 5 天左右 8c32g 那台机器就会断网,SSH 和业务都连接不上,必须重启才能恢复正常。现在想到的应急解决方案是用 4c16g 那台监控 8c32g 那台,发现掉线就调 API 重启。请问可能是什么问题,有没有更好的解决方案?机器都是自己账号正价买的,没用过任何码。
    22 replies    2021-03-07 21:30:44 +08:00
    msg7086
        1
    msg7086  
       Mar 6, 2021
    固定 IP 还是 DHCP ?换一下试试。
    另外连接数大不大? 1:1 NAT 可能会炸。
    sampeng
        2
    sampeng  
       Mar 6, 2021 via iPhone
    aws 没这么脆弱。带宽是 5G…你能跑满?
    大概率是 cpu 跑满了。所以 ssh 都回不去了
    em998
        3
    em998  
       Mar 6, 2021 via iPhone
    CPU 用超了吧
    kerro1990
        4
    kerro1990  
       Mar 6, 2021 via iPhone
    估计是 cpu 积分用完了吧
    celeron533
        5
    celeron533  
       Mar 6, 2021
    我记得 lightsail 虽然便宜,但是对于 CPU 使用有一定限制
    aec4d
        6
    aec4d  
       Mar 6, 2021 via iPhone
    lightsail 适合开发,或者低占用场景,长时间高负载就会无响应 https://forums.aws.amazon.com/thread.jspa?threadID=269360
    jadec0der
        7
    jadec0der  
       Mar 6, 2021
    lightsail 背后是低成本,可以应付突发性能的 T 实例,平时 CPU 用的很少的时候给你加积分,CPU 高的时候扣积分,如果积分用完了就要卡死了。如果需要持续使用 CPU,建议换成 EC2 的 M 实例或者 C 实例
    jadec0der
        8
    jadec0der  
       Mar 6, 2021
    你看一下 lightsail Manage - Metrics 里的 CPU,如果 Remaining CPU burst capacity 没有了,那 CPU 性能就只能维持在 sustainable zone 区间
    naoh1000
        9
    naoh1000  
    OP
       Mar 6, 2021 via iPhone
    感谢回复,刚才看了下 `Remaining CPU burst capacity` 还有 40%,应该不是 CPU 的问题。跑的是普通 Web 服务,端对端加密是在客户端实现的,应该不需要太高服务器 CPU 性能。

    @sampeng
    @wancaibida
    @kerro1990
    @celeron533
    @aec4d
    @jadec0der
    kerro1990
        10
    kerro1990  
       Mar 6, 2021 via iPhone
    @naoh1000 那就是 ubuntu 的问题,换成 centos 试试
    jadec0der
        11
    jadec0der  
       Mar 6, 2021
    @naoh1000 40% 不算高了,把时间拉到 2 weeks 最低的时候有多少?
    Kinnice
        12
    Kinnice  
       Mar 6, 2021 via Android
    感觉是内存泄露,检查一下程序吧,开个监测,看一下出问题的时候,各项系统占用
    iamv2er
        13
    iamv2er  
       Mar 6, 2021 via iPhone
    不好用 买了退了
    simple2025
        14
    simple2025  
       Mar 6, 2021
    个人项目,14C48G,估计挣了钱了,什么时候我能有副业呀
    isCyan
        15
    isCyan  
       Mar 6, 2021
    SSH 连不上的话很难排查啊,先 ping 确认一下到底是断网还是程序问题?
    whitehack
        16
    whitehack  
       Mar 6, 2021
    查监控记录,查各项指标. 然后针对性的去排查.
    另外逻辑上应该也有日志的吧.这种问题只能一个一个慢慢排查


    另外大佬这项目可不小
    wangxn
        17
    wangxn  
       Mar 6, 2021
    假如 CPU 不超,那就是内存超了吧。内存超了,也会导致完全卡死,只能重启。我也踩过这个坑。
    bullfrog
        18
    bullfrog  
       Mar 6, 2021
    @naoh1000 40%不多,正常应该一直是 100%,除非偶尔执行个 cronjob 可能会降下来点
    huson
        19
    huson  
       Mar 6, 2021
    开一台 EC2 同配置的 一台 lightsail 同时跑 看看 ec2 挂不挂 如果 ec2 挂那就是 lightsail 的问题 不需要折腾了 直接换 ec2

    如果 2 个都挂 那说明是你程序问题 直接查 bug 或者环境配置问题 你先把问题大类给分了
    bullfrog
        20
    bullfrog  
       Mar 6, 2021
    对,我能想到比较笨的排查方法就是把 cpu 和内存占用每几秒钟就写到 log 里,死机之后查看
    sampeng
        21
    sampeng  
       Mar 6, 2021 via iPhone
    cpu,内存,磁盘 io 。都看一下。网络基本很难你能把 aws 的弄满了。
    defunct9
        22
    defunct9  
       Mar 7, 2021 via iPhone
    开 ssh,让我上去看看
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3126 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 181ms · UTC 13:34 · PVG 21:34 · LAX 06:34 · JFK 09:34
    ♥ Do have faith in what you're doing.