推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
allencode
V2EX  ›  Python

Python 爬取拉勾策略的疑问

  •  
  •   allencode · Aug 9, 2016 · 4328 views
    This topic created in 3588 days ago, the information mentioned may be changed or developed.

    各位好。小弟最近用 python 爬拉勾数据。也大致做出来了。但是遇到一个数据量不够的问题。按照我的策略只能爬取 1.2w 左右的数据。但是我看见过有人爬到 10w 左右。不知道是什么策略呢? 我的策略就是先爬取职位关键词。然后一个一个请求。如下图。比如 java 。大概这个职位有 30 pages 左右,每页 15 items 这样总的也才 450 左右。但是我个人猜想 java 职位应该不止这么多吧?

    所以来此提问。还请知道的哥们指导一下。谢谢啦

    8 replies    2016-08-10 08:53:53 +08:00
    wang9571
        1
    wang9571  
       Aug 9, 2016
    应该是网站限制最大显示 30 页。按城市、行政区、工作年限等条件组合搜索才会有更多内容
    l0wkey
        2
    l0wkey  
       Aug 9, 2016
    学习搜索引擎爬虫策略,递归来爬嘛.
    sukai0me
        3
    sukai0me  
       Aug 9, 2016
    #1 一楼方法是可行的,之前爬大众点评也是这样,它为了保护数据,每个条件下最多显示 N 条数据。
    你可以算一下数量的,组合下来的数据量是远远大于网站上显示的
    namco1992
        4
    namco1992  
       Aug 9, 2016
    我的办法很简单...遍历全站数据,然后根据关键词分类。你可以看到拉钩的职位页面地址都是 /jobs/{job_id},并且 job_id 是连续的。我当时爬的时候拉钩大概有两百多万页面,然后硬生生爬下来就好了,技术岗位貌似是从五万开始。
    sniper1211
        5
    sniper1211  
       Aug 10, 2016
    之前爬过,两个思路:
    ①按照其他筛选条件去爬
    ②直接去找 ID ,不过有些早期的职位不存在了
    liulongfei
        7
    liulongfei  
       Aug 10, 2016
    你参考一下吧,大致的思路是先把首页的 job 都爬下来,然后在遍历这些 job 。
    取招聘数据的时候,向一个地址 post 提交数据,一页一页的提交直到不返回数据的时候这个 job 的数据就没了。
    获取到的数据我是放到 es 里面的方便分析。
    allencode
        8
    allencode  
    OP
       Aug 10, 2016
    谢谢各位的耐心解答。目前已经解决了。我把一些重要的城市趴下来了。大概三十左右。然后再依次在这些指定的城市下面查询大致 40 个职位。目前爬虫正跑着呢。谢谢啦。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   838 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 21:18 · PVG 05:18 · LAX 14:18 · JFK 17:18
    ♥ Do have faith in what you're doing.