需要抓取很多新闻网站,但这些页面很多是极其不规范的使用 html ,那么如何自动化提取这些网页中的正文部分呢?
试用了几个,感觉还是有一些问题。。。。求推荐
1
shierji May 27, 2015 via Android
额 XPath选取还行啊
我遇到的主要是改版问题 不过我感觉逻辑上多处理一下也行 我遇到的问题是很多新闻网站旧链接是孤岛 没法从当前时间递归抓取 不知道楼主有这个问题没有? |
2
Valyrian May 27, 2015
每个网站单独处理。。我上个实习就是干这个的,没有什么好办法
|
3
binux May 27, 2015
现在正常一点的 html 库都能做到兼容不规范的 html
要不你试试 lxml |
5
fy May 27, 2015
= = 好像也并不是来着,如果是这样的话lxml的xpath确实已经够用了。
|
6
alexapollo May 27, 2015
web extractor
|
8
TuxcraFt May 27, 2015
你需要人工智能黑科技…… (逃
|
9
zts1993 May 27, 2015 via Android
招点实习生吧
|
10
simo May 27, 2015
看下qq收藏网页助手,插件应该能反编吧
|
11
nbndco May 27, 2015
libextract
|
12
hewigovens May 27, 2015
Diffbot?
|
13
xixijun May 27, 2015 via iPhone
不知道楼主说的不规则具体指的是什么。
bootstrap可以自动补全 |
14
zog May 27, 2015
pip install html2text
|
15
zhicheng May 27, 2015
|
16
13k May 27, 2015
|
17
zztt168 May 27, 2015 via Android
在学习爬虫,感谢楼主和楼上的分享!
|
18
bigbook May 27, 2015
|
19
pango May 27, 2015
楼主遇到点什么小问题?请具体说说。
一直在用python-goose爬youtube,从来没有出过什么问题。 |
20
shiznet May 27, 2015 via iPhone
印象笔记在chrome的插件可以实现类似的功能
|