跑在客户端的分布式爬虫？

This topic created in 2749 days ago, the information mentioned may be changed or developed.

自己有一个小爬虫网站 ( http://learnbyreading.herokuapp.com/)

但感觉 Amazon 的数据太难爬了，容易被封

所以，有没有可能把爬虫的一部分写到客户端，通过用户的浏览器去爬，然后返回一部分数据给我，这样我就不用去买 IP 了。。。。。

爬虫

客户端

Amazon

分布式

20 replies • 2019-08-08 14:53:36 +08:00

chwhsen

Dec 18, 2018

木马爬虫？

chengxiao

Dec 18, 2018

兄弟你这个跟肉鸡有什么区别？
哪天 high 了一波 DDOS 带走~

kruskal

Dec 18, 2018

醒醒，把用户当肉鸡是违法行为

freed

Dec 18, 2018

你能做到这个肯定有比较大的控制权限了,还靠他来爬东西?

啥时候开始了告诉一声啊.我看看有没有达到量刑标准,要判几年

cqcn1991

Dec 18, 2018

@chwhsen
@chengxiao
@kruskal
我想的是跑在 js 里面...然后浏览器去爬某个网页，把数据返回给我。。。

orangeade

Dec 18, 2018

不如先爬免费的 IP 代理池

gamexg

Dec 18, 2018

感觉比价插件是一个很好的分布式爬虫。
用户打开商品页面显示价格历史时自动将商品当前价格上传。

t6attack

Dec 18, 2018

浏览器的跨域限制就是针对你的。

Trim21

Dec 18, 2018

你想问的是无头浏览器吗, 还是真的像楼上说的那样想用某些正常用户的浏览器爬数据

westoy

Dec 18, 2018

不可能，但是可以让用户通过类似 yahoo YQL 的方法给你提供数据，问题是验证数据真实性的成本可能比多搞一个 IP 池高......

freed

Dec 19, 2018

@gamexg 不一样,比价插件是用户自己打开某些网页读取到了数据的,楼主是想控制用户打开他指定的网页爬取数据再回传给服务器..

akafeng

Dec 19, 2018 via iPhone

楼主大概需要什么量级的代理池呢？

agdhole

Dec 19, 2018

京价保插件不就是这个原理吗

onedayoneapple

Dec 19, 2018 via iPhone

@orangeade 这个怎么爬

cqcn1991

Dec 19, 2018 via Android

@Trim21 对，我以为在浏览器里的 console 里写爬虫就行，类似在浏览器里挖矿

wly19960911

Dec 19, 2018 via Android

js 的话浏览器跨域怎么解决

woshipanghu

Dec 19, 2018

electron nightmare 你去看看可能是你要的
没什么浏览器跨域的问题，直接往页面里面注入你的 js 都行

zhchyu999

Dec 19, 2018

有 refer 的

gamexg

Dec 19, 2018

@freed #11 浏览器插件也能做到后台悄悄的按照楼主需求去爬，不过这么做会不会被下架就不知道了....

boweixiaobang

Aug 8, 2019

小帮软件机器人，是做客户端软件数据的自动采集和写入的。
CS 的采集和写入小帮都有优势。