syahd
V2EX  ›  Google

谷歌的爬虫是怎么爬取到那些孤立的网站的

  •  
  •   syahd · Nov 17, 2016 · 4023 views
    This topic created in 3489 days ago, the information mentioned may be changed or developed.

    我建了两个网站,没有任何被任何博客添加友链,没有在任何网站上留下过 url ,但是我都在这两个服务器里的 access.log 里看到了谷歌爬虫(虽然我设置了 robots.txt 不让爬取)。难不成是靠遍历 ip 地址吗?

    Supplement 1  ·  Nov 17, 2016
    顺便再多问个问题,我在阿里云备了案,但是把域名解析到了国外一个搭建了 sspanel 的服务器,这不要紧吧?
    11 replies    2016-12-15 00:09:24 +08:00
    xzem
        1
    xzem  
       Nov 17, 2016
    比如说 chrome
    DesignerSkyline
        2
    DesignerSkyline  
       Nov 17, 2016 via iPad
    Google chrome 的安全检测服务可能会导致这个现象
    yankebupt
        3
    yankebupt  
       Nov 17, 2016 via Android
    爬的时候不遵循 robots.txt 的也有可能是伪造成谷歌爬虫的其他爬虫,比如安全机构
    yushiro
        4
    yushiro  
       Nov 17, 2016 via iPhone
    网站有域名,根据域名注册商的列表爬。
    syahd
        5
    syahd  
    OP
       Nov 17, 2016
    @DesignerSkyline 什么意思?
    syahd
        6
    syahd  
    OP
       Nov 17, 2016
    @yushiro 这个列表域名注册商可以随便就给别人吗?
    DesignerSkyline
        7
    DesignerSkyline  
       Nov 17, 2016
    @whwq2012 safebrowsing probes
    yushiro
        8
    yushiro  
       Nov 17, 2016
    @whwq2012 你注册域名的时候是不是要查询域名是否被注册? 这都是公开的
    syahd
        9
    syahd  
    OP
       Nov 18, 2016
    @yushiro 虽然是这样的,但是也不会给整个数据库吧
    julyclyde
        10
    julyclyde  
       Nov 18, 2016
    @whwq2012 跟给数据库有啥区别?让它挨个试还影响注册商性能呢,比如直接给数据库
    flynaj
        11
    flynaj  
       Dec 15, 2016 via Android
    看 ip 地址,如果不是 google 的服务器就是伪造的,可能是扫描
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5298 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 09:21 · PVG 17:21 · LAX 02:21 · JFK 05:21
    ♥ Do have faith in what you're doing.