V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
tianxiacangshen
V2EX  ›  PHP

网站日志找到大量 Python -urllib/2.7 之类的,是爬虫吗?

  •  
  •   tianxiacangshen · May 4, 2017 · 7751 views
    This topic created in 3279 days ago, the information mentioned may be changed or developed.
    2017-05-04 06:08:14 120.xx.xxx.xxx GET / - 80 - 58.211.2.120 Python-urllib/2.7 200 0 0 54

    持续两三天了,每秒钟几十次记录,这是网站被攻击还是有人采集内容?
    32 replies    2017-07-16 11:44:37 +08:00
    misaka19000
        1
    misaka19000  
       May 4, 2017 via Android
    这爬虫还把自己给暴露出来。。。神奇
    woshinide300yuan
        2
    woshinide300yuan  
       May 4, 2017
    这不是明显的该屏蔽的吗 - -
    billlee
        3
    billlee  
       May 4, 2017   ❤️ 2
    耿直的爬虫
    notes
        4
    notes  
       May 4, 2017 via Android
    目测新手,用的还是自带的 urllib
    bytenoob
        5
    bytenoob  
       May 4, 2017 via Android   ❤️ 1
    脚本小子
    wspsxing
        6
    wspsxing  
       May 4, 2017
    UA 都不改一下,差评妥妥的。
    ywgx
        7
    ywgx  
       May 4, 2017
    留着过年?
    LokiSharp
        8
    LokiSharp  
       May 4, 2017
    估计故意的。。。看看有没有人处理
    richardma
        9
    richardma  
       May 5, 2017
    猖狂的爬虫,23333
    tonychow
        10
    tonychow  
       May 5, 2017
    显然爬虫, 都不知道隐藏下 UA
    araraloren
        11
    araraloren  
       May 5, 2017
    ~~
    再明显不过的爬虫了。。
    封了 IP 呗
    crackhopper
        12
    crackhopper  
       May 5, 2017
    666666
    yanzixuan
        13
    yanzixuan  
       May 5, 2017
    连 UA 都不知道改的,估计是新手。另外你们的网站不设置一个 Limiter,限制一下一天的总的访问次数么?
    如果对方换 IP,你就限制下 1 分钟 /1 小时之内的访问次数吧。
    tttty
        14
    tttty  
       May 5, 2017
    请问一下,如果遇到爬虫直接封 IP,这样不是会导致共用公网 IP 的用户误伤吗.. 比如校园网、网吧什么的?
    hard2reg
        15
    hard2reg  
       May 5, 2017 via iPhone
    弱弱的问下,requests 的默认 ua 是啥
    jy02201949
        16
    jy02201949  
       May 5, 2017
    真是耿直啊,而且还在用 urllib,新手随便抄了网上哪个教程弄的爬虫吧
    eycfsjd
        17
    eycfsjd  
       May 5, 2017
    使用验证码机制啊
    pyufftj
        18
    pyufftj  
       May 5, 2017
    @hard2reg 和 urllib 差不多,也带着 python 字样的,反正一眼就能识别出来的那种。。
    pyufftj
        19
    pyufftj  
       May 5, 2017
    @tttty 只封一个不就行了吗。。
    kinghui
        20
    kinghui  
       May 5, 2017
    @tttty 有可能封一个省市, 因为某些省市的某个运行商可能就一个出口 ip.
    hard2reg
        21
    hard2reg  
       May 5, 2017 via iPhone
    @kinghui 就一个出口😂 ip 是多稀缺
    em70
        22
    em70  
       May 5, 2017
    @tttty 只封 24 小时,不会有太大影响,别考虑太多小概率事件
    tttty
        23
    tttty  
       May 5, 2017
    @kinghui 太可怕了...
    @em70 嗯 好的
    liuxu
        24
    liuxu  
       May 5, 2017
    我虽然是个爬虫,但我行事坦荡,从不遮遮掩掩
    fuxkcsdn
        25
    fuxkcsdn  
       May 5, 2017   ❤️ 1
    @hard2reg
    >>> import requests
    >>> requests.get('http://httpbin.org/user-agent').text
    u'{\n "user-agent": "python-requests/2.12.3"\n}\n'
    hsmocc
        26
    hsmocc  
       May 5, 2017 via iPhone
    封 IP 显然是下策啊,一段时间内访问次数达到一个上限后出验证码吧
    tianxiacangshen
        27
    tianxiacangshen  
    OP
       May 5, 2017
    @hsmocc 这样的话 每一次访问都要查询(次数)+插入数据库,不是很占用资源吗
    doublleft
        28
    doublleft  
       May 5, 2017
    @tttty 是啊,会误伤! 我们公司不知道哪个傻比天天疯狂刷 v 站,我现在挂着代理上的……
    dsg001
        29
    dsg001  
       May 5, 2017
    这种 UA 直接返回乱码数据呗
    qinbingchen
        30
    qinbingchen  
       May 5, 2017
    难道这是我?
    flyshu
        31
    flyshu  
       May 6, 2017
    新手刚看了知乎的入门教程来练手了
    dreamcountry
        32
    dreamcountry  
       Jul 16, 2017
    我的网站也有大量的这种日志,这些人真是闲的蛋疼
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   844 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 84ms · UTC 21:22 · PVG 05:22 · LAX 14:22 · JFK 17:22
    ♥ Do have faith in what you're doing.