Python 爬取拉勾策略的疑问 - V2EX

Home Sign Up Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3588 days ago, the information mentioned may be changed or developed.

各位好。小弟最近用 python 爬拉勾数据。也大致做出来了。但是遇到一个数据量不够的问题。按照我的策略只能爬取 1.2w 左右的数据。但是我看见过有人爬到 10w 左右。不知道是什么策略呢？我的策略就是先爬取职位关键词。然后一个一个请求。如下图。比如 java 。大概这个职位有 30 pages 左右，每页 15 items 这样总的也才 450 左右。但是我个人猜想 java 职位应该不止这么多吧？

所以来此提问。还请知道的哥们指导一下。谢谢啦

8 replies • 2016-08-10 08:53:53 +08:00

1

wang9571

Aug 9, 2016

应该是网站限制最大显示 30 页。按城市、行政区、工作年限等条件组合搜索才会有更多内容

2

l0wkey

Aug 9, 2016

学习搜索引擎爬虫策略，递归来爬嘛.

3

sukai0me

Aug 9, 2016

#1 一楼方法是可行的，之前爬大众点评也是这样，它为了保护数据，每个条件下最多显示 N 条数据。
你可以算一下数量的，组合下来的数据量是远远大于网站上显示的

4

namco1992

Aug 9, 2016

我的办法很简单...遍历全站数据，然后根据关键词分类。你可以看到拉钩的职位页面地址都是 /jobs/{job_id}，并且 job_id 是连续的。我当时爬的时候拉钩大概有两百多万页面，然后硬生生爬下来就好了，技术岗位貌似是从五万开始。

5

sniper1211

Aug 10, 2016

之前爬过，两个思路：
①按照其他筛选条件去爬
②直接去找 ID ，不过有些早期的职位不存在了

6

liulongfei

Aug 10, 2016

https://github.com/liulongfei/web_spider_lagou

7

liulongfei

Aug 10, 2016

你参考一下吧，大致的思路是先把首页的 job 都爬下来，然后在遍历这些 job 。
取招聘数据的时候，向一个地址 post 提交数据，一页一页的提交直到不返回数据的时候这个 job 的数据就没了。
获取到的数据我是放到 es 里面的方便分析。

8

allencode

OP

Aug 10, 2016

谢谢各位的耐心解答。目前已经解决了。我把一些重要的城市趴下来了。大概三十左右。然后再依次在这些指定的城市下面查询大致 40 个职位。目前爬虫正跑着呢。谢谢啦。

About · Help · Advertise · Blog · API · FAQ · Solana · 838 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 43ms · UTC 21:18 · PVG 05:18 · LAX 14:18 · JFK 17:18
♥ Do have faith in what you're doing.