1
lyragosa Jun 9, 2014 那些好的爬虫还会在agent声明自己的spider或者bot,屏蔽掉就是
有些无良爬虫直接写Mozlia/5.0 更无良的直接伪造一个标准的用户访问的agnet,根本没得破。 |
2
sanddudu Jun 9, 2014 遇到 UA 伪造的话你可以通过分析 log 来找,一般他们的访问操作不会像正常的用户
|
3
iannil Jun 9, 2014 自己写个程序分析流量,凡是流量异常的ip一律封掉24小时。
|
4
codingpp Jun 9, 2014
我就是流氓爬虫,你破不了我的
|
5
webflier OP 又block了一家主机商,整个世界清静了。。。
目前block了online.net,datashack/WSI,hetzner |
6
imn1 Jun 9, 2014
能封掉的爬虫都不算流氓
|
7
dong3580 Jun 9, 2014 via Android
直接伪造成浏览器,各种该有的都有,你要怎么屏蔽?
|
8
mywaiting Jun 9, 2014 via iPhone 计算访问频率,输出个reCAPTCHA验证码吧
|
9
humiaozuzu Jun 9, 2014
@webflier 主机商ip段如何获得的呢?
|
10
xiaocsl Jun 9, 2014 0.0 前段时间爬慧慧,表明是机器人.但自动的会限制访问频率.直接换成adsl,自动断线重连换IP.这也没法破哈..
|
11
greatghoul Jun 9, 2014 |
12
tumutanzi Jun 9, 2014 我用的是incapsula服务,CDN,然后就没有垃圾评论了。他们有专门应付垃圾爬虫的设置。
|
13
Lelouchcr Jun 9, 2014
限制频率,多个ua,n个匿名代理,你破不了的~
|
14
webflier OP |
16
hanchengluo Jun 10, 2014
|