spice630
V2EX  ›  问与答

图片爬虫 laosj(老司机),支持分布式,可以自定义下载并发量

  •  
  •   spice630 · Dec 7, 2016 · 3635 views
    This topic created in 3473 days ago, the information mentioned may be changed or developed.

    最近在做鉴黄方面的东西,自己写了个图片爬虫爬点图。

    功能不算强大,但是非常轻量 好用,临时需要爬些数据是极好的。

    有现成的示例,编译完可用。

    https://github.com/songtianyi/laosj

    Supplement 1  ·  Feb 13, 2017
    新加内容:
    aiss-darwin 根据接口下载爱丝图片(依赖 redis 作为 url 队列)
    jav 获取番号列表及根据番号获取种子文件 (无依赖)
    haixiuzu.go 豆瓣害羞组图片抓取和下载(依赖 redis 作为 url 队列)
    Supplement 2  ·  Sep 21, 2017
    5 replies    2017-02-13 14:43:25 +08:00
    ofblyt
        1
    ofblyt  
       Dec 8, 2016
    能说一下怎么支持分布式的么?
    spice630
        2
    spice630  
    OP
       Dec 8, 2016
    @ofblyt
    redis, 采集 url 放入 redis ,下载器从 redis 取 url 。
    spice630
        3
    spice630  
    OP
       Dec 8, 2016
    @ofblyt
    分布式爬取的话,目前并没有很好地支持(因为自己目前还用不上),需要自己写任务分发。
    spice630
        4
    spice630  
    OP
       Dec 8, 2016
    @ofblyt 多机部署 /运行是没问题的。
    spice630
        5
    spice630  
    OP
       Feb 13, 2017
    新加内容:
    aiss-darwin 根据接口下载爱丝图片(依赖 redis 作为 url 队列)
    jav 获取番号列表及根据番号获取种子文件 (无依赖)
    haixiuzu.go 豆瓣害羞组图片抓取和下载(依赖 redis 作为 url 队列)
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3130 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 62ms · UTC 13:30 · PVG 21:30 · LAX 06:30 · JFK 09:30
    ♥ Do have faith in what you're doing.