关于爬虫，现在有没有技术可以实现，不请求连接，而能知道目标网站是否更新的技术？

This topic created in 2933 days ago, the information mentioned may be changed or developed.

增量爬取，肯定要先读取页面，或接口，才能知道目标源是否更新。我觉得这就像一个黑洞一样，你不把头伸进去，是不会知道里面情况是否变化的。可我一直发现有人吹，可以在不请求的情况下，得知目标网站是否变化？实在想不通其中原理，求大佬们解惑。

是否

请求

目标

更新

18 replies • 2018-06-01 16:46:19 +08:00

wintercoder

May 31, 2018

对方调你接口，然而这是不太可能的

xiaoke0718

May 31, 2018

用 Python

whoami9894

May 31, 2018 via Android

要不问问吹的那个人怎么做到的

Kendall

May 31, 2018 via Android

访问 archive 或者 Google 的缓存页面？

jakeyfly

May 31, 2018

@Kendall。。。缓存怎么可能有实时信息

Foolt

May 31, 2018

原理很简单，只要敢吹，什么都有可能。

jiangnanyanyu

May 31, 2018 via Android

去他们公司工作

LukeChien

May 31, 2018 via Android

静态页面用 head 方法读响应头的 etag，可以节约流量。部分情况下有效。

opengps

May 31, 2018

可以啊，变相实现，请求百度的快照#######

a7a2

May 31, 2018

这些都是你自己写代码实现的一部分。。。

每次访问取 body 然后 md5 写入数据库，下次同样方式然后对比 md5 即可

“可以在不请求的情况下，得知目标网站是否变化？“是不可能的，对自己掌握的技术及一些基本原理要有信心。

爬虫在页面停留，页面自动刷新已经算是接收了数据。

gamexg

May 31, 2018

访问列表页，列表页按更新时间排序？

night98

May 31, 2018

http 304 ？否则不请求怎么可能知道有没有变化，就跟你不去执行方法你怎么知道方法的返回值是什么？

qsnow6

May 31, 2018 via iPhone

http header 的 tag md5 length 都可以不需要读取 body

shiny

PRO

May 31, 2018

用算法预测网站的更新时间

xkeyideal

Jun 1, 2018

买通对方的程序员即可

Sylv

Jun 1, 2018 via iPhone

量子。。。量子纠缠？

jakeyfly

Jun 1, 2018

@qsnow6 这样也算请求了吧

Len1133

Jun 1, 2018

建立预测模型