• 请不要在回答技术问题时复制粘贴 AI 生成的内容
easychen
V2EX  ›  程序员

这种专门索引百度网盘的搜索,它的爬虫不会被 ban 掉么?

  •  
  •   easychen ·
    easychen · Oct 11, 2015 · 12136 views
    This topic created in 3892 days ago, the information mentioned may be changed or developed.

    最近一直在用 http://kaopu.so/ 看样子索引了很大量的内容,话说百度本身不对访问 IP 做频次控制么?

    Supplement 1  ·  Oct 11, 2015
    发现百度 site:pan.baidu.com 70 多页以后就没数据了 T_T
    30 replies    2016-08-22 23:12:07 +08:00
    lizheming
        1
    lizheming  
       Oct 11, 2015
    看过之前一个爬虫的帖子,说是 5 分钟一次,做好频率控制多 IP 轮流就好了吧…
    d7101120120
        2
    d7101120120  
       Oct 11, 2015
    嘘小声点~~~~
    pathletboy
        3
    pathletboy  
       Oct 11, 2015
    频次控制不大好做的,现在网络很多都内网了,出口都是一个 IP 。
    gzlock
        4
    gzlock  
       Oct 11, 2015 via Android
    也没法证明是用同一 IP 爬的啊
    easychen
        5
    easychen  
    OP
       Oct 11, 2015
    @lizheming 最近看这类网盘的索引量都到千万级了。感觉计算轮着来,也要抓好久来着……
    easychen
        6
    easychen  
    OP
       Oct 11, 2015
    @gzlock 除非用客户端爬,否则都会有 IP 的问题吧。( 就算是多个 IP ,也是蛮有限的。
    kslr
        7
    kslr  
       Oct 11, 2015
    比如 Coding 支持运行程序的,可以做个 Proxy ,类似的还很多,也很稳定。
    lizheming
        8
    lizheming  
       Oct 11, 2015
    @easychen https://www.v2ex.com/t/226413 刚才回顾了下这个帖子,他上面说的是 30w/天,如果是有 3 -5 个 IP 的话也就半个月就能爬到千万数量级了吧....
    easychen
        9
    easychen  
    OP
       Oct 11, 2015
    @lizheming thanks :) 百度自己给出来的总量也就在 6000 万。
    wbingeek
        10
    wbingeek  
       Oct 11, 2015
    最近用的是这个 http://www.bdybbs.com/
    cevincheung
        11
    cevincheung  
       Oct 11, 2015 via Android
    代理 ip 资源十几块一大把还是高质量高出口带宽的
    easychen
        12
    easychen  
    OP
       Oct 11, 2015
    @cevincheung 求个链接看看~
    cdwyd
        13
    cdwyd  
       Oct 11, 2015 via Android
    @cevincheung
    求地址
    zdyx123
        14
    zdyx123  
       Oct 11, 2015
    @cevincheung 同求一个地址
    gzlock
        15
    gzlock  
       Oct 11, 2015   ❤️ 1
    @easychen
    @cdwyd
    @zdyx123
    淘*搜 拨号
    Coxxs
        16
    Coxxs  
       Oct 11, 2015
    曾经抓过一年左右,索引过一亿+文件,每秒都在抓,用 1 、 2 个 IP 没被封。 https://so.cqp.cc/
    easychen
        17
    easychen  
    OP
       Oct 11, 2015
    @Coxxs 偷偷问一句从哪个入口开始抓比较方便哇…… 搜索结果页好像限制显示页数……
    Coxxs
        18
    Coxxs  
       Oct 11, 2015
    @easychen 以前每个文件有“相关文件”,可以通过相关文件抓,但是现在没有了。后来用的方法就是获取用户 ID ( uk ),然后遍历用户分享的文件。
    easychen
        19
    easychen  
    OP
       Oct 11, 2015
    @Coxxs thanks :)
    techyan
        20
    techyan  
       Oct 11, 2015
    @Coxxs 网站已收藏。。
    cevincheung
        21
    cevincheung  
       Oct 11, 2015   ❤️ 1
    fighter2011
        22
    fighter2011  
       Oct 11, 2015
    这种不会被 ban 吧,有很多都是磁力搜索的啊。
    easychen
        23
    easychen  
    OP
       Oct 11, 2015
    @cevincheung thanks :)
    gamecreating
        24
    gamecreating  
       Oct 11, 2015   ❤️ 2
    来吧.... 把百度云搞瘫..
    http://yun.baidu.com/share/homerecord?uk=1848672288&page=1&pagelength=60
    看连接 你懂的
    Pepsigold
        25
    Pepsigold  
       Oct 12, 2015 via Android
    @gamecreating 怎么进去都是代码了?
    starAsh
        26
    starAsh  
       Oct 12, 2015
    直接 google 搜 xxx site:pan.baidu.com 即可,然后对搜索出来的结果处理就行了
    Roope
        27
    Roope  
       Oct 12, 2015
    @gamecreating 这个好啊。
    xgdy
        28
    xgdy  
       Oct 12, 2015
    @wbingeek 这个是什么程序?
    dotmark
        29
    dotmark  
       Jul 19, 2016
    这个也不错 12so.cc
    3023369823
        30
    3023369823  
       Aug 22, 2016
    失效链接怎么判断,这才是关键,求解释?@dotmark @Coxxs @Pepsigold @cdwyd @d7101120120 @dotmark @easychen @gamecreating @fighter2011
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2847 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 72ms · UTC 08:08 · PVG 16:08 · LAX 01:08 · JFK 04:08
    ♥ Do have faith in what you're doing.