比如一个页面 上面就是一个表格 不定时的会增加一行信息 如何对这样的类型进行增量爬取呢,只爬取增加的内容?
比如一个页面 上面就是一个表格 不定时的会增加一行信息 如何对这样的类型进行增量爬取呢,只爬取增加的内容?
1
hardman Mar 27, 2018 via Android
判断行数固定时间就 OK 不停检测行数
|
2
kkzxak47 Mar 27, 2018 via Android
不可能只爬取增加的内容,你不把网页拿下来,怎么知道有没有变化?
自己做去重 |
4
locoz Mar 27, 2018 via Android
每一行有没有 id 之类的标识 有的话可以把 id 存到 redis 增量的时候查 redis 就行了 速度比较快
|
6
ebingtel Mar 28, 2018
根据链接,保存的时候 INSERT IGNORE?
|