增量爬取,肯定要先读取页面,或接口,才能知道目标源是否更新。我觉得这就像一个黑洞一样,你不把头伸进去,是不会知道里面情况是否变化的。 可我一直发现有人吹,可以在不请求的情况下,得知目标网站是否变化? 实在想不通其中原理,求大佬们解惑。
增量爬取,肯定要先读取页面,或接口,才能知道目标源是否更新。我觉得这就像一个黑洞一样,你不把头伸进去,是不会知道里面情况是否变化的。 可我一直发现有人吹,可以在不请求的情况下,得知目标网站是否变化? 实在想不通其中原理,求大佬们解惑。
1
wintercoder May 31, 2018
对方调你接口,然而这是不太可能的
|
2
xiaoke0718 May 31, 2018
用 Python
|
3
whoami9894 May 31, 2018 via Android
要不问问吹的那个人怎么做到的
|
4
Kendall May 31, 2018 via Android
访问 archive 或者 Google 的缓存页面?
|
6
Foolt May 31, 2018
原理很简单,只要敢吹,什么都有可能。
|
7
jiangnanyanyu May 31, 2018 via Android
去他们公司工作
|
8
LukeChien May 31, 2018 via Android
静态页面用 head 方法读响应头的 etag,可以节约流量。部分情况下有效。
|
9
opengps May 31, 2018
可以啊,变相实现,请求百度的快照#######
|
10
a7a2 May 31, 2018
这些都是你自己写代码实现的一部分。。。
每次访问取 body 然后 md5 写入数据库,下次同样方式然后对比 md5 即可 “可以在不请求的情况下,得知目标网站是否变化?“是不可能的,对自己掌握的技术及一些基本原理要有信心。 爬虫在页面停留,页面自动刷新已经算是接收了数据。 |
11
gamexg May 31, 2018
访问列表页,列表页按更新时间排序?
|
12
night98 May 31, 2018
http 304 ?否则不请求怎么可能知道有没有变化,就跟你不去执行方法你怎么知道方法的返回值是什么?
|
13
qsnow6 May 31, 2018 via iPhone http header 的 tag md5 length 都可以 不需要读取 body
|
14
shiny PRO 用算法预测网站的更新时间
|
15
xkeyideal Jun 1, 2018
买通对方的程序员即可
|
16
Sylv Jun 1, 2018 via iPhone
量子。。。量子纠缠?
|
18
Len1133 Jun 1, 2018
建立预测模型
|