python 模拟各大网站登陆方式,以及一些爬虫程序
-
写在最前面,欢迎各位大佬来提 PR,也可以来讲自己做爬虫的心得与体会,一些小技巧都可以!可以联系我!
-
啊!第三次发了,希望你们不要觉得烦,只是想做一些有意义的事情,勿怪!!多谢!!!
-
增加糗事百科,链家!
-
如果喜欢的话可以给个 star 谢谢
-
🌟分享一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过 selenium 登录,有的是通过抓包直接模拟登录,有的是利用 scrapy,脚本几乎都不太大,很容易上手,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。
关于
-
模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,bilibili 等如果采用 selenium 就相对轻松一些。
-
虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。
项目地址
Completed
- [x] Facebook
- [x] 无需身份验证即可抓取 Twitter 前端 API
- [x] 微博网页版
- [x] 知乎
- [x] QQZone
- [x] CSDN
- [x] 淘宝
- [x] Baidu
- [x] 果壳
- [x] JingDong 模拟登录和自动申请京东试用
- [x] 163mail
- [x] 拉钩
- [x] Bilibili
- [x] 豆瓣
- [x] Baidu2
- [x] 猎聘网
- [x] 微信网页版登录并获取好友列表
- [x] Github
- [x] 爬取图虫相应的图片
- [x] 网易云音乐
- [x] 糗事百科
show
Bilibili 自动登录测试正常,成功率 98%


web 微信


图虫 Spider


淘宝 web
- taobao.py 为模拟登录
- 剩下的文件为爬虫
Github

新增链家 Spider

1. 爬取淘宝各子标签,按销量排名商品信息,按分类保存至 MongoDB
2. 通过 pandas 进行数据分析
3 .将商品在各省分布、销量排行、地图分布等通过 matplotlib 绘图显示
guoke.spider 使用需谨慎,下载的比较快! 10 秒能下载一堆,截图我就不展示了,已经删除,东西太多了😝
微博
- sina.py 为模拟登录
- spider 文件夹中为爬虫
1. 输入要爬取的博主 ID,获取 ajax 请求
2. 解析 json 数据,爬取博主所有微博,保存至 MySQL
网易云音乐
- 新增网易云音乐下载,之前的一个小 demo 应该还可以用,Crypto 包应该挺难搞的,安装之后还是导入不了,推荐去百度一下,百度上的这个解决方法有很多,我就不多赘述了嘿嘿!
知乎
-
知乎登录没有问题,不过要手动输入验证码
-
知乎登录遇到“ execjs._exceptions.ProgramError: TypeError: 'exports' 未定义”
-
原因以及解决办法:
1. 由于是你本地的 JScript 引擎只有一个默认的 JScript,所以会造成 json 未定义的错误。
2. execjs 会自动使用当前电脑上的运行时环境
3. 解决办法:安装一个 nodejs 的 V8 引擎就可以了

糗事百科


tips of pull request
-
欢迎大家一起来 pull request 💗
-
很重要很重,欢迎大家来提 PR
-
喜欢的记得过来给小弟个 star 支持一下哦!