google 爬虫爬起来真的就是 cc 攻击,以前的 google 的站长后台可以控制爬取频率,被下了,真是无语,在服务端 nginx 控制频率不理想,因为限制了 google 爬虫的频率,大部分时候是返回 502 ,google 站长后台就一直提示 502 ,不给排名
1
qqjt Jun 5, 2024 怎么能被 bot 爬死啊,这体量羡慕了
|
2
dzdh Jun 5, 2024 同问。啥体量能让 bot 爬死。啥服务器配置啊。
|
3
potatowish Jun 5, 2024 via iPhone
字节的 bot 才叫疯狂
|
4
biumall Jun 5, 2024
我都多来爬一下,你倒好,不需要。。。
|
6
herozzm OP @potatowish 字节的反而不咋地,一天 10 个以内,流量根本没有
|
7
darkengine Jun 5, 2024
谷歌一秒上百次的爬?什么站这么牛啊 。。。
|
8
herozzm OP @darkengine 不是一个站,是几个站放在一台服务器,每个站 10 个左右,加起来的并发,他们共用 cpu 资源
|
9
HackerQED Jun 5, 2024 via iPhone
|
10
nomagick Jun 5, 2024 垃圾站是吧。。
|
12
knva Jun 5, 2024
垃圾站能不能 414
|
13
wonderfulcxm Jun 5, 2024 via iPhone
没经历的哥们很难想象,它是真的会很疯狂,我们网站也经历过,只能限制速率,不要返回 502 ,返回 503 。就一个新闻网站,有编辑团队和纸版杂志,不是什么垃圾站,话说这跟垃圾站有什么关系?
|
14
WilliamBlue Jun 5, 2024
不能升级一下服务器的配置吗?
|
15
NewYear Jun 5, 2024
robots.txt 不是可以规定爬取频率么,实在觉得占用性能,搞缓存啊,静态化啊
|
17
herozzm OP @wonderfulcxm 我将 503 改成 429 ,应该也没问题吧
|
18
e3c78a97e0f8 Jun 5, 2024
搞个 cache 呗,每次 GoogleBot 访问都给几分钟甚至几小时前的结果,这 CPU 利用率就能降下去了吧。
|
19
linyongxin Jun 5, 2024
如果可以,生成静态化或缓存,减少数据库读取
|
20
nx6Ta67v2A43frV2 Jun 5, 2024
在前面挂 1 个 cloudflare cdn 试试。
|
21
oIMOo Jun 5, 2024
OP 并没有回应关于“垃圾站”的回复 - -
|