分享一个百度音乐下载器以及一个很好的 http 库

项目地址
https://github.com/maliubiao/simple_htttp

其中baidu_music.py的用法
python baidu_music.py -a 歌手id 就可以自动下载其所有的歌
python baidu_music.py -i 歌曲id 就可以下载单首歌

歌手id从http://music.baidu.com/artist/7898取得
歌曲id从http://music.baidu.com/song/14945107取得

这个是为了测试自写的http库而写的，下了几个G的歌，用着确实很好，分享给各位

这个项目里还有一些好玩的东西
simple_http.py 是http库，我个人非常讨厌标准库里的urllib2， requests代码又乱效率又低，不喜欢。
这个库支持http代理，socks5代理，以及全部的http方法，代码量少，效率高。
post文件也很简单,
比如simple_http.post("http://url.com", payload{"file": open("test", "r")})

encrypted.client.py encrypted.server.py是socks5转发代理
这个是epoll异步非阻塞模型+随机密码表，在linux上工作的极好，翻墙用的，在我的笔记本上使用CPU占用从来不过0.3%。

pretty.py是html formatter, 把乱七八糟，经过混淆的html整理干净

etree_utils.py是为了快速定位静态html文件里的XPATH写的，做爬虫时非常好用

http_request_simulator.py 是用多进程模型模拟浏览器并发取网页用的，主要测试网页的整体响应，以及服务的正确性。

这些工具是我写爬虫时用的，我个人是etree_util.py 定位XPATH, simple_http下载， lxml提取，比Beautifulsoup之流好太多。

欢迎star, 欢迎反馈，不懂的地方给我留言，我给你解释。
我的微博 weibo.com/maliubiao

爬虫

HTML

xpath

13 replies • 2014-10-21 15:45:39 +08:00