jakeyfly
V2EX  ›  问与答

关于爬虫,现在有没有技术可以实现,不请求连接,而能知道目标网站是否更新的技术?

  •  
  •   jakeyfly · May 31, 2018 · 2267 views
    This topic created in 2933 days ago, the information mentioned may be changed or developed.

    增量爬取,肯定要先读取页面,或接口,才能知道目标源是否更新。我觉得这就像一个黑洞一样,你不把头伸进去,是不会知道里面情况是否变化的。 可我一直发现有人吹,可以在不请求的情况下,得知目标网站是否变化? 实在想不通其中原理,求大佬们解惑。

    18 replies    2018-06-01 16:46:19 +08:00
    wintercoder
        1
    wintercoder  
       May 31, 2018
    对方调你接口,然而这是不太可能的
    xiaoke0718
        2
    xiaoke0718  
       May 31, 2018
    用 Python
    whoami9894
        3
    whoami9894  
       May 31, 2018 via Android
    要不问问吹的那个人怎么做到的
    Kendall
        4
    Kendall  
       May 31, 2018 via Android
    访问 archive 或者 Google 的缓存页面?
    jakeyfly
        5
    jakeyfly  
    OP
       May 31, 2018
    @Kendall。。。缓存怎么可能有实时信息
    Foolt
        6
    Foolt  
       May 31, 2018
    原理很简单,只要敢吹,什么都有可能。
    jiangnanyanyu
        7
    jiangnanyanyu  
       May 31, 2018 via Android
    去他们公司工作
    LukeChien
        8
    LukeChien  
       May 31, 2018 via Android
    静态页面用 head 方法读响应头的 etag,可以节约流量。部分情况下有效。
    opengps
        9
    opengps  
       May 31, 2018
    可以啊,变相实现,请求百度的快照#######
    a7a2
        10
    a7a2  
       May 31, 2018
    这些都是你自己写代码实现的一部分。。。

    每次访问取 body 然后 md5 写入数据库,下次同样方式然后对比 md5 即可

    “可以在不请求的情况下,得知目标网站是否变化?“是不可能的,对自己掌握的技术及一些基本原理要有信心。

    爬虫在页面停留,页面自动刷新已经算是接收了数据。
    gamexg
        11
    gamexg  
       May 31, 2018
    访问列表页,列表页按更新时间排序?
    night98
        12
    night98  
       May 31, 2018
    http 304 ?否则不请求怎么可能知道有没有变化,就跟你不去执行方法你怎么知道方法的返回值是什么?
    qsnow6
        13
    qsnow6  
       May 31, 2018 via iPhone   ❤️ 1
    http header 的 tag md5 length 都可以 不需要读取 body
    shiny
        14
    shiny  
    PRO
       May 31, 2018
    用算法预测网站的更新时间
    xkeyideal
        15
    xkeyideal  
       Jun 1, 2018
    买通对方的程序员即可
    Sylv
        16
    Sylv  
       Jun 1, 2018 via iPhone
    量子。。。量子纠缠?
    jakeyfly
        17
    jakeyfly  
    OP
       Jun 1, 2018
    @qsnow6 这样也算请求了吧
    Len1133
        18
    Len1133  
       Jun 1, 2018
    建立预测模型
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2731 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 57ms · UTC 11:50 · PVG 19:50 · LAX 04:50 · JFK 07:50
    ♥ Do have faith in what you're doing.