V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
cqcn1991
V2EX  ›  问与答

跑在客户端的分布式爬虫?

  •  
  •   cqcn1991 · Dec 18, 2018 · 3612 views
    This topic created in 2691 days ago, the information mentioned may be changed or developed.

    自己有一个小爬虫网站 ( http://learnbyreading.herokuapp.com/)

    但感觉 Amazon 的数据太难爬了,容易被封

    所以,有没有可能把爬虫的一部分写到客户端,通过用户的浏览器去爬,然后返回一部分数据给我,这样我就不用去买 IP 了。。。。。

    20 replies    2019-08-08 14:53:36 +08:00
    chwhsen
        1
    chwhsen  
       Dec 18, 2018
    木马爬虫?
    chengxiao
        2
    chengxiao  
       Dec 18, 2018
    兄弟 你这个跟肉鸡有什么区别?
    哪天 high 了 一波 DDOS 带走~
    kruskal
        3
    kruskal  
       Dec 18, 2018
    醒醒,把用户当肉鸡是违法行为
    freed
        4
    freed  
       Dec 18, 2018
    你能做到这个肯定有比较大的控制权限了,还靠他来爬东西?

    啥时候开始了告诉一声啊.我看看有没有达到量刑标准,要判几年
    cqcn1991
        5
    cqcn1991  
    OP
       Dec 18, 2018
    @chwhsen
    @chengxiao
    @kruskal
    我想的是跑在 js 里面...然后浏览器去爬某个网页,把数据返回给我。。。
    orangeade
        6
    orangeade  
       Dec 18, 2018
    不如先爬免费的 IP 代理池
    gamexg
        7
    gamexg  
       Dec 18, 2018
    感觉比价插件是一个很好的分布式爬虫。
    用户打开商品页面显示价格历史时自动将商品当前价格上传。
    t6attack
        8
    t6attack  
       Dec 18, 2018
    浏览器的 跨域限制 就是针对你的。
    Trim21
        9
    Trim21  
       Dec 18, 2018
    你想问的是无头浏览器吗, 还是真的像楼上说的那样想用某些正常用户的浏览器爬数据
    westoy
        10
    westoy  
       Dec 18, 2018
    不可能, 但是可以让用户通过类似 yahoo YQL 的方法给你提供数据, 问题是验证数据真实性的成本可能比多搞一个 IP 池高......
    freed
        11
    freed  
       Dec 19, 2018
    @gamexg 不一样,比价插件是用户自己打开某些网页读取到了数据的,楼主是想控制用户打开他指定的网页爬取数据再回传给服务器..
    akafeng
        12
    akafeng  
       Dec 19, 2018 via iPhone
    楼主大概需要什么量级的代理池呢?
    agdhole
        13
    agdhole  
       Dec 19, 2018
    京价保插件不就是这个原理吗
    onedayoneapple
        14
    onedayoneapple  
       Dec 19, 2018 via iPhone
    @orangeade 这个怎么爬
    cqcn1991
        15
    cqcn1991  
    OP
       Dec 19, 2018 via Android
    @Trim21 对,我以为在浏览器里的 console 里写爬虫就行,类似在浏览器里挖矿
    wly19960911
        16
    wly19960911  
       Dec 19, 2018 via Android
    js 的话浏览器跨域怎么解决
    woshipanghu
        17
    woshipanghu  
       Dec 19, 2018
    electron nightmare 你去看看 可能是你要的
    没什么浏览器跨域的问题,直接往页面里面注入你的 js 都行
    zhchyu999
        18
    zhchyu999  
       Dec 19, 2018
    有 refer 的
    gamexg
        19
    gamexg  
       Dec 19, 2018
    @freed #11 浏览器插件也能做到后台悄悄的按照楼主需求去爬,不过这么做会不会被下架就不知道了....
    boweixiaobang
        20
    boweixiaobang  
       Aug 8, 2019
    小帮软件机器人,是做客户端软件数据的自动采集和写入的。
    CS 的采集和写入小帮都有优势。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2602 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 71ms · UTC 06:11 · PVG 14:11 · LAX 23:11 · JFK 02:11
    ♥ Do have faith in what you're doing.