用 python3 的 requests 库写的爬虫,今天试了好多家代理 IP,没有爬几次就被拒绝访问。
UA 是动态的,cookie 是 session 获取的,IP 也是高匿的,究竟是怎么被检测出来的呢?百思不得其解
用 python3 的 requests 库写的爬虫,今天试了好多家代理 IP,没有爬几次就被拒绝访问。
UA 是动态的,cookie 是 session 获取的,IP 也是高匿的,究竟是怎么被检测出来的呢?百思不得其解
1
66CCFF Nov 24, 2019
前端搞个 js 很容易检测你这种呀。
|
2
yankebupt Nov 24, 2019
你先找几台高匿 VNC 上去手动爬下试试……
有的行为检测连手动爬都过不了,更别提 python 了...... 话说某剁手站我正常使用时都有 5%以上的验证码弹出率,不知是不是我长得很像爬虫…… |
3
nnnToTnnn Nov 25, 2019
很简单,行为分析啊。 鼠标移动的轨迹,还有敏感的 IP 地址等等一些参数。
详细项目请参考 Google 的 “我不是机器人” |
4
Lunatic1 Nov 25, 2019
如果被封说明 IP 的高匿还是失败的,假设开代理被检测也只是会封当前代理吧?可以先测试一下
|
5
hardcattle Nov 25, 2019
亲,pyppeteer 了解一下,还有什么不能爬的网点。
|
6
chengran630 Nov 25, 2019
不要用代理 本机直接爬,速度慢点
代理都是服务器的 ip 都是机房的,不说别的 判断你访问的 ip 是机房 ip 就要弹验证码了 |
7
letitbesqzr Nov 25, 2019
先不说根据你的行为来判定的是否爬虫,就拿你代理 ip 来说,现在做风控的,都会把 ip 因素考虑进去,比如 ip 是否来自于机房 是否来自于 adsl 等等一系列,他们的大数据远比我们想到的丰富。
|
10
heyhumor OP @hardcattle pyppeteer 好像已经不维护了,问题很多吧
|
14
superrichman Nov 26, 2019 via iPhone
估计是你的 header 没处理好吧
|
16
heyhumor OP @superrichman header 没处理好的话应该都不会返回数据吧,可是我返回了几次正确数据后才 403 的
|
18
676529483 Nov 26, 2019
爬的是要登陆网站吗?如果是要登陆的,你 cookie 用的同一账号的,怎么代理也没用啊
|
19
scukmh Nov 26, 2019 via iPhone
代理怎么加的代码有吗? requests 的代理有点小坑的。
|
20
QUIOA Nov 30, 2019 via Android
如果是国外网站你可以去买那些住宅代理 IP
|
21
laball May 15, 2020
@hardcattle 想请教,如何解决 IP 被封的问题。
|