推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
heyhumor
V2EX  ›  Python

爬虫使用高匿代理会被服务器检测到本机吗?

  •  
  •   heyhumor · Nov 24, 2019 · 6880 views
    This topic created in 2389 days ago, the information mentioned may be changed or developed.

    用 python3 的 requests 库写的爬虫,今天试了好多家代理 IP,没有爬几次就被拒绝访问。

    UA 是动态的,cookie 是 session 获取的,IP 也是高匿的,究竟是怎么被检测出来的呢?百思不得其解

    22 replies    2020-05-15 08:10:38 +08:00
    66CCFF
        1
    66CCFF  
       Nov 24, 2019
    前端搞个 js 很容易检测你这种呀。
    yankebupt
        2
    yankebupt  
       Nov 24, 2019
    你先找几台高匿 VNC 上去手动爬下试试……
    有的行为检测连手动爬都过不了,更别提 python 了......
    话说某剁手站我正常使用时都有 5%以上的验证码弹出率,不知是不是我长得很像爬虫……
    nnnToTnnn
        3
    nnnToTnnn  
       Nov 25, 2019
    很简单,行为分析啊。 鼠标移动的轨迹,还有敏感的 IP 地址等等一些参数。

    详细项目请参考 Google 的 “我不是机器人”
    Lunatic1
        4
    Lunatic1  
       Nov 25, 2019
    如果被封说明 IP 的高匿还是失败的,假设开代理被检测也只是会封当前代理吧?可以先测试一下
    hardcattle
        5
    hardcattle  
       Nov 25, 2019
    亲,pyppeteer 了解一下,还有什么不能爬的网点。
    chengran630
        6
    chengran630  
       Nov 25, 2019
    不要用代理 本机直接爬,速度慢点
    代理都是服务器的 ip 都是机房的,不说别的 判断你访问的 ip 是机房 ip 就要弹验证码了
    letitbesqzr
        7
    letitbesqzr  
       Nov 25, 2019
    先不说根据你的行为来判定的是否爬虫,就拿你代理 ip 来说,现在做风控的,都会把 ip 因素考虑进去,比如 ip 是否来自于机房 是否来自于 adsl 等等一系列,他们的大数据远比我们想到的丰富。
    heyhumor
        8
    heyhumor  
    OP
       Nov 26, 2019
    @66CCFF 我的请求可以返回正常数据的,而且每次请求都更换 IP,存在 js 检测吗
    heyhumor
        9
    heyhumor  
    OP
       Nov 26, 2019
    @Lunatic1 代理 IP 是动态更换的
    heyhumor
        10
    heyhumor  
    OP
       Nov 26, 2019
    @hardcattle pyppeteer 好像已经不维护了,问题很多吧
    heyhumor
        11
    heyhumor  
    OP
       Nov 26, 2019
    @nnnToTnnn 还有这种骚操作吗
    heyhumor
        12
    heyhumor  
    OP
       Nov 26, 2019
    @lcy630409 数据量挺大的,说实话
    heyhumor
        13
    heyhumor  
    OP
       Nov 26, 2019
    @lcy630409 我的倒不是验证码,正常返回几次之后直接 403 拒绝访问
    superrichman
        14
    superrichman  
       Nov 26, 2019 via iPhone
    估计是你的 header 没处理好吧
    wildplant
        15
    wildplant  
       Nov 26, 2019
    @heyhumor 那试一下 puppeteer 吧。反正写爬虫不也得会点 js 嘛。
    heyhumor
        16
    heyhumor  
    OP
       Nov 26, 2019
    @superrichman header 没处理好的话应该都不会返回数据吧,可是我返回了几次正确数据后才 403 的
    heyhumor
        17
    heyhumor  
    OP
       Nov 26, 2019
    @wildplant 好的,我试试
    676529483
        18
    676529483  
       Nov 26, 2019
    爬的是要登陆网站吗?如果是要登陆的,你 cookie 用的同一账号的,怎么代理也没用啊
    scukmh
        19
    scukmh  
       Nov 26, 2019 via iPhone
    代理怎么加的代码有吗? requests 的代理有点小坑的。
    QUIOA
        20
    QUIOA  
       Nov 30, 2019 via Android
    如果是国外网站你可以去买那些住宅代理 IP
    laball
        21
    laball  
       May 15, 2020
    @hardcattle 想请教,如何解决 IP 被封的问题。
    heyhumor
        22
    heyhumor  
    OP
       May 15, 2020
    @laball IP 被封就只能换 IP 了,买代理 IP,套上就行了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4541 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 62ms · UTC 04:06 · PVG 12:06 · LAX 21:06 · JFK 00:06
    ♥ Do have faith in what you're doing.