推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
bestehen
V2EX  ›  Python

爬虫效率问题

  •  
  •   bestehen · Jun 17, 2018 · 4200 views
    This topic created in 2919 days ago, the information mentioned may be changed or developed.
    行业领域
    不限
    人工智能 区块链 大数据 医疗健康 教育培训 文娱传媒 消费升级 金融 电子商务 企业服务 VR/AR 旅游户外 餐饮业 房产家居 汽车交通 体育健身 生活服务 食品饮料 物联网 硬件 游戏 生产制造 物流运输 农业 批发零售 先进制造 社交社区 工具软件 服装纺织 建筑 开采 环保 能源电力 政务及公共服务 科研及技术服务

    下面是 时间 一年的循环

    这样 365 天*35 行业。在 selenium 点击 如何提高效率? aiohttp ? 如果是多台机器是是不是 dokcer+spalsh ?
    16 replies    2018-06-26 07:20:16 +08:00
    golmic
        1
    golmic  
       Jun 17, 2018 via Android
    如果考虑 selenium 或者 splash 的话就不要追求效率了
    bestehen
        2
    bestehen  
    OP
       Jun 17, 2018
    @golmic 现在就是点击的,因为如果每天都点击 就是 365 天 再加上 35 个行业,数字很大,那么 chrome 吃不消的
    golmic
        3
    golmic  
       Jun 17, 2018 via Android
    建议分析一下请求...直接请求的方式做
    lhx2008
        4
    lhx2008  
       Jun 17, 2018 via Android
    35 个栏目又不多,开 35 个 chrome 就 ok
    bestehen
        5
    bestehen  
    OP
       Jun 17, 2018
    @golmic 分析请求加密很麻烦的,企名片 短信登录什么的,很累
    bestehen
        6
    bestehen  
    OP
       Jun 17, 2018
    @lhx2008 你的意思是可以用 aiohttp 做了!
    lhx2008
        7
    lhx2008  
       Jun 17, 2018 via Android
    @bestehen 你对 aio 有什么执念,我说的是多线程 /进程 selenium 直接干
    bestehen
        8
    bestehen  
    OP
       Jun 18, 2018
    @lhx2008 你试过嘛
    xpresslink
        9
    xpresslink  
       Jun 18, 2018
    你都用 selenium 了就不要问效率的问题了。
    你应该会 xpath 语法吧,要效率直接上 scrapy 之类,解析每个类别的 url,直接异步发送请求,要担心的不是效率问题了,而是别把人家 web 服务器给爆了。
    JCZ2MkKb5S8ZX9pq
        10
    JCZ2MkKb5S8ZX9pq  
       Jun 18, 2018
    一直用的 requests,昨天试了下 selenium,结果被淘宝的滑块拦下了,唉。
    搭车问问,有啥老版本的 ff 可以绕过 robot 模式嘛,主力用 chrome 不想降。
    bestehen
        11
    bestehen  
    OP
       Jun 18, 2018
    @xpresslink 我是说 再 selenium 基础上提高效率啊。365*35 这个数字很庞大啊。还有就是 2 个 365*35
    bestehen
        12
    bestehen  
    OP
       Jun 18, 2018
    @JCZ2MkKb5S8ZX9pq 滑块也可以 selenium 滑动的
    bestehen
        13
    bestehen  
    OP
       Jun 18, 2018
    @lhx2008 那你的意思是标签分开点击啊
    beforeuwait
        14
    beforeuwait  
       Jun 19, 2018
    能自己撸代码模拟的,为啥非要去 selenium 呢
    bestehen
        15
    bestehen  
    OP
       Jun 19, 2018
    @beforeuwait 企名片 你去看看,纯接口难
    lt921002191
        16
    lt921002191  
       Jun 26, 2018 via Android
    能获取到请求就尽量获取请求,直接发请求效率最快
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2924 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 15:08 · PVG 23:08 · LAX 08:08 · JFK 11:08
    ♥ Do have faith in what you're doing.