V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
omg21
V2EX  ›  Python

在要求登录的网站如何防止被封?

  •  
  •   omg21 · Jun 10, 2016 · 3711 views
    This topic created in 3609 days ago, the information mentioned may be changed or developed.
    爬虫在爬取网站时为了防止被封 IP ,可以使用代理、伪装 user agent 、降低访问频率等方法来避免被对方识别出来。
    但如果对方是需要登录的网站怎么办呢?有些网站是必须在登录之后才能显示内容,那么在登录之后再使用代理、伪装 user agent 都已经没有了意义。
    如果是这样的情况,应该怎样做才能不被对方识别呢?
    14 replies    2016-06-11 23:53:53 +08:00
    x8
        1
    x8  
       Jun 10, 2016
    在要求登录的情况下,无论怎样,对方都可以统计单个 cookie 在单位时间内的访问量从而做出限制。所以,要么降低访问频率,要么获取足够多的 cookie
    qqmishi
        2
    qqmishi  
       Jun 10, 2016 via Android
    多注册几个号,过一段时间就切换
    omg21
        3
    omg21  
    OP
       Jun 10, 2016
    @qqmishi 收费网站,一个帐户一年好几千呢。
    omg21
        4
    omg21  
    OP
       Jun 10, 2016
    @lizon 是的,我也想不出更好的方法了,降低频率的话,每天的采集量根本没法完成。
    murmur
        5
    murmur  
       Jun 10, 2016
    好几千的采集。。在盗抄别人的资料么 那不得多投资一点 毕竟抄来就是免费复制了
    eoo
        6
    eoo  
       Jun 10, 2016 via Android
    看情况
    lslqtz2
        7
    lslqtz2  
       Jun 10, 2016
    只能选择降低频率,别无他法。
    因为账号要钱,要封号分分钟爽。
    或者你可以试试看爆弱口令,但希望渺茫。。
    lslqtz2
        8
    lslqtz2  
       Jun 10, 2016
    打 osu 打了一半,突然想到一个好点子,暂停时还 miss 了一个。。
    可以把标题采集下来,不采集内容,当用户访问时实时采集并保存。
    lslqtz2
        9
    lslqtz2  
       Jun 10, 2016
    一年可以换成月吗?非得年》
    haozibi
        10
    haozibi  
       Jun 10, 2016 via Android
    目测某论文网站,某知
    x8
        11
    x8  
       Jun 11, 2016
    @omg21 转变下思路,如果确实有需要,不如联系下网站,看看能不能有偿提供你需要的东西
    dynaguy
        12
    dynaguy  
       Jun 11, 2016
    看到像樓主這樣厚顏無恥,然後被封 IP ,我只有 2333333333333
    omg21
        13
    omg21  
    OP
       Jun 11, 2016
    @lizon 看来也只有这样了
    badcode
        14
    badcode  
       Jun 11, 2016
    假想:你爬的站的站长也在看你发的贴?
    有趣
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5842 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 06:34 · PVG 14:34 · LAX 23:34 · JFK 02:34
    ♥ Do have faith in what you're doing.