各位好。小弟最近用 python 爬拉勾数据。也大致做出来了。但是遇到一个数据量不够的问题。按照我的策略只能爬取 1.2w 左右的数据。但是我看见过有人爬到 10w 左右。不知道是什么策略呢? 我的策略就是先爬取职位关键词。然后一个一个请求。如下图。比如 java 。大概这个职位有 30 pages 左右,每页 15 items 这样总的也才 450 左右。但是我个人猜想 java 职位应该不止这么多吧?
所以来此提问。还请知道的哥们指导一下。谢谢啦

各位好。小弟最近用 python 爬拉勾数据。也大致做出来了。但是遇到一个数据量不够的问题。按照我的策略只能爬取 1.2w 左右的数据。但是我看见过有人爬到 10w 左右。不知道是什么策略呢? 我的策略就是先爬取职位关键词。然后一个一个请求。如下图。比如 java 。大概这个职位有 30 pages 左右,每页 15 items 这样总的也才 450 左右。但是我个人猜想 java 职位应该不止这么多吧?
所以来此提问。还请知道的哥们指导一下。谢谢啦

1
wang9571 Aug 9, 2016
应该是网站限制最大显示 30 页。按城市、行政区、工作年限等条件组合搜索才会有更多内容
|
2
l0wkey Aug 9, 2016
学习搜索引擎爬虫策略,递归来爬嘛.
|
3
sukai0me Aug 9, 2016
#1 一楼方法是可行的,之前爬大众点评也是这样,它为了保护数据,每个条件下最多显示 N 条数据。
你可以算一下数量的,组合下来的数据量是远远大于网站上显示的 |
4
namco1992 Aug 9, 2016
我的办法很简单...遍历全站数据,然后根据关键词分类。你可以看到拉钩的职位页面地址都是 /jobs/{job_id},并且 job_id 是连续的。我当时爬的时候拉钩大概有两百多万页面,然后硬生生爬下来就好了,技术岗位貌似是从五万开始。
|
5
sniper1211 Aug 10, 2016
之前爬过,两个思路:
①按照其他筛选条件去爬 ②直接去找 ID ,不过有些早期的职位不存在了 |
6
liulongfei Aug 10, 2016
|
7
liulongfei Aug 10, 2016
你参考一下吧,大致的思路是先把首页的 job 都爬下来,然后在遍历这些 job 。
取招聘数据的时候,向一个地址 post 提交数据,一页一页的提交直到不返回数据的时候这个 job 的数据就没了。 获取到的数据我是放到 es 里面的方便分析。 |
8
allencode OP 谢谢各位的耐心解答。目前已经解决了。我把一些重要的城市趴下来了。大概三十左右。然后再依次在这些指定的城市下面查询大致 40 个职位。目前爬虫正跑着呢。谢谢啦。
|