在做一个爬虫程序,图片的服务器用的是qiniu。
要求:
- 能够在比较短的时间内完成一个链接的爬取。
- 最终,可以把图片文件,存在我们自己的七牛服务器上。
现在碰到一个问题,就是爬一个链接的时候,大量的时间都耗费在了上传图片上。怎么样提高爬取单个链接的效率?
我先提一种解决方案:
先爬站的内容,然后图片用原始的图片链接。然后用工作线程循环查找还有哪些图片没有上传的,依次上传。但是感觉这种设计很复杂,工作线程要查找每个图片的字段,如果以后有新的图片字段,那么这部分逻辑又需要改。
在做一个爬虫程序,图片的服务器用的是qiniu。
要求:
现在碰到一个问题,就是爬一个链接的时候,大量的时间都耗费在了上传图片上。怎么样提高爬取单个链接的效率?
我先提一种解决方案:
先爬站的内容,然后图片用原始的图片链接。然后用工作线程循环查找还有哪些图片没有上传的,依次上传。但是感觉这种设计很复杂,工作线程要查找每个图片的字段,如果以后有新的图片字段,那么这部分逻辑又需要改。
1
myoula Feb 16, 2016 |
2
ufo22940268 OP |
3
virusdefender Feb 16, 2016
异步和多线程
|
4
sarices Feb 16, 2016
放到队列处理啊
|
5
Karblue Feb 16, 2016
1.多线程爬和传(可以一个队列专门处理爬虫投递过来的链接)
2.先爬。爬完再批量传 |
6
cloverstd Feb 16, 2016
|
7
muziyue Feb 16, 2016
根本不用下载再上传呀,设置好镜像可以直接存到七牛里面的
|
8
jedyu Feb 16, 2016
爬链接和爬图片不要线性执行,多线程或多进程都可以
|