我想监控一个网页的更新。
我想用wget或者curl获取网页后,然后用C++来分析网页Html,然后再提取出自己想到的信息。
我想是用find()函数来寻找特殊的关键字后再来提取,请问下有没有其他有效的分析网页更新的方法?
我想用wget或者curl获取网页后,然后用C++来分析网页Html,然后再提取出自己想到的信息。
我想是用find()函数来寻找特殊的关键字后再来提取,请问下有没有其他有效的分析网页更新的方法?
1
soulsaunter Feb 19, 2012
一般需要使用到一个htmlparser 的东西来对网页构造出一个可操作的对象,然后,根据自己的分析,写一个算法来从对象中获取你想要的。说到底,分析(算法)是关键。
|
2
ligyxy Feb 19, 2012
@soulsaunter 是否有入门的小例子?
|
3
avatasia Feb 19, 2012
既然你会用c++,那么自己包装一个IE壳,你可以去greenbrower的代码里扒,然后用一个网页AppContainer,内嵌iframe获取你的目标网页,AppContainer里写一些操作iframe的dom的脚本。
|
4
ehaagwlke Feb 19, 2012
找工具的话,有一个叫URLy Warning的东东,http://tech.sina.com.cn/down 里有。会把页面扒到本地,定时更新,有变化的部分会高亮显示。
|