项目地址
https://github.com/maliubiao/simple_htttp
其中baidu_music.py的用法
python baidu_music.py -a 歌手id 就可以自动下载其所有的歌
python baidu_music.py -i 歌曲id 就可以下载单首歌
歌手id从http://music.baidu.com/artist/7898取得
歌曲id从http://music.baidu.com/song/14945107取得
这个是为了测试自写的http库而写的,下了几个G的歌,用着确实很好,分享给各位
这个项目里还有一些好玩的东西
simple_http.py 是http库, 我个人非常讨厌标准库里的urllib2, requests代码又乱效率又低, 不喜欢。
这个库支持http代理,socks5代理, 以及全部的http方法, 代码量少, 效率高。
post文件也很简单,
比如simple_http.post("http://url.com", payload{"file": open("test", "r")})
encrypted.client.py encrypted.server.py是socks5转发代理
这个是epoll异步非阻塞模型+随机密码表, 在linux上工作的极好,翻墙用的,在我的笔记本上使用CPU占用从来不过0.3%。
pretty.py是html formatter, 把乱七八糟,经过混淆的html整理干净
etree_utils.py是为了快速定位静态html文件里的XPATH写的, 做爬虫时非常好用
http_request_simulator.py 是用多进程模型模拟浏览器并发取网页用的,主要测试网页的整体响应, 以及服务的正确性。
这些工具是我写爬虫时用的,我个人是etree_util.py 定位XPATH, simple_http下载, lxml提取, 比Beautifulsoup之流好太多。
欢迎star, 欢迎反馈, 不懂的地方给我留言,我给你解释。
我的微博 weibo.com/maliubiao
https://github.com/maliubiao/simple_htttp
其中baidu_music.py的用法
python baidu_music.py -a 歌手id 就可以自动下载其所有的歌
python baidu_music.py -i 歌曲id 就可以下载单首歌
歌手id从http://music.baidu.com/artist/7898取得
歌曲id从http://music.baidu.com/song/14945107取得
这个是为了测试自写的http库而写的,下了几个G的歌,用着确实很好,分享给各位
这个项目里还有一些好玩的东西
simple_http.py 是http库, 我个人非常讨厌标准库里的urllib2, requests代码又乱效率又低, 不喜欢。
这个库支持http代理,socks5代理, 以及全部的http方法, 代码量少, 效率高。
post文件也很简单,
比如simple_http.post("http://url.com", payload{"file": open("test", "r")})
encrypted.client.py encrypted.server.py是socks5转发代理
这个是epoll异步非阻塞模型+随机密码表, 在linux上工作的极好,翻墙用的,在我的笔记本上使用CPU占用从来不过0.3%。
pretty.py是html formatter, 把乱七八糟,经过混淆的html整理干净
etree_utils.py是为了快速定位静态html文件里的XPATH写的, 做爬虫时非常好用
http_request_simulator.py 是用多进程模型模拟浏览器并发取网页用的,主要测试网页的整体响应, 以及服务的正确性。
这些工具是我写爬虫时用的,我个人是etree_util.py 定位XPATH, simple_http下载, lxml提取, 比Beautifulsoup之流好太多。
欢迎star, 欢迎反馈, 不懂的地方给我留言,我给你解释。
我的微博 weibo.com/maliubiao