大家都是怎么解析抓取到的 HTML 文件的？

This topic created in 4289 days ago, the information mentioned may be changed or developed.

有的网站没有API接口，如果要想抓取数据的话就必须解析HTML自己提取内容了。

一般来说我会直接遍历，找到特定的标签（或者字符），然后再自己提取内容。如果标签比较多的话就觉得有点烦，毕竟写起来自己也麻烦。所以想问一下有没有什么更好的方法（或者是那种脑洞大开的方法）？

抓取

提取

HTML

46 replies • 2014-09-10 11:00:17 +08:00

ZzFoo

Sep 8, 2014

用Xpath吧

mhycy

Sep 8, 2014

正则表达式

mthli

Sep 8, 2014

@ZzFoo 看上去好像很不错的样子。值得一试 :)

mthli

Sep 8, 2014

@mhycy 嗯，我原来是打算正则的。

paulw54jrn

Sep 8, 2014

xpath, xquery , xslt 都可以~

mthli

Sep 8, 2014

@paulw54jrn 嗯嗯，thx~

Automan

Sep 8, 2014

有很多HTML DOM parser，用起来比正则方便多了。。

mthli

Sep 8, 2014

@Automan 正是如此，主要我也懒得写正则，哈哈。

paulw54jrn

Sep 8, 2014

beautifulSoup 挺方便的~

mthli

Sep 8, 2014

@paulw54jrn 嗯，收下了。不过我是打算用Java。以后写Python的时候再用。

ghy459

Sep 8, 2014

@mthli java 有类似 bs 的 htmlunit。

kafei0421

Sep 8, 2014

@mthli java的话jsoup也算一个。都很方便。

ericls

Sep 8, 2014

pyquery

scusjs

Sep 8, 2014

jsoup

icanfork

Sep 8, 2014 via Android

什么语言好像都有**query之类的库。

tinyhill

Sep 8, 2014

node + jquery

mthli

Sep 8, 2014

@ghy459 嗯，刚搜到。

neverno

Sep 8, 2014

beautifulsoup

baka

Sep 8, 2014 via iPhone

在用beautifulsoup之前一直都是粗暴split的

mthli

Sep 8, 2014

@baka 啊哈哈哈。

ccbikai

PRO

Sep 8, 2014

http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

wwttc

Sep 8, 2014

正则，beautifulsoup，xpath，都可以。最方便的还是xpath

ceclinux

Sep 8, 2014

nodejs可以用jsdom

refresh

Sep 8, 2014

node.js + cherrio，jsdom太重了

dofaith09

Sep 8, 2014

beautifulSoup

Comdex

Sep 8, 2014 via Android

goquery

lightening

Sep 8, 2014

Ruby 的话就用 Nokogiri (鋸).

cxshun

Sep 8, 2014

xpath是最好的方案，正则的话就太麻烦了。但遇到不规范的html时，这也比较杯具了，只能先处理一下再用xpath。

txlty

Sep 8, 2014

那个。。难道说拆数组，很土很落后？

mthli

Sep 9, 2014 via Android

@txlty 不是呀，也很不错呀。

scola

Sep 9, 2014

python + lxml

RangerWolf

Sep 9, 2014

了解到有些比价软件的页面解析用的是正则~ 不过个人一直是Java + JSoup。再加上xpath的话，不知道哪个效率更高一点~

djyde

Sep 9, 2014

看我V2HOT的第一个版本记录，用的是Jsoup。

https://github.com/djyde/V2HOT

ZzFoo

Sep 9, 2014

对了，配合火狐的Xpath Checker插件，可以检查你的表达式选取到的结果

binux

Sep 9, 2014

[如何从 WEB 页面中提取信息](http://blog.binux.me/2014/07/how-to-extract-data-from-web/)

miao

Sep 9, 2014

如果是抓取到本地(win环境) 请用火车头

mthli

Sep 9, 2014

@ZzFoo 嗯哼～

Yannis1990

Sep 9, 2014

pyquery +1

master

Sep 9, 2014

node.js + cherrio

bigtan

Sep 9, 2014

bs4

imn1

Sep 9, 2014

网页数量很多的话（过万），建议还是尽可能用正则吧

mthli

Sep 9, 2014 via Android

@imn1 没那么多啦，最多也就10来页。

jsq2627

Sep 9, 2014

正则高效，xquery 容易

jedihy

Sep 9, 2014 via iPhone

最好正则，其它库会根据html构造一棵dom树，效率极低。这些厚重的库并不是用来做这种简单的html抓取

mthli

Sep 9, 2014

@jedihy 嗯，了解。

mucid

Sep 10, 2014

xpath，不要用正则