• 请不要在回答技术问题时复制粘贴 AI 生成的内容
alwayshere
V2EX  ›  程序员

为防采集,目前有哪些 js 检测 headless 浏览器的方法?

  •  
  •   alwayshere · Nov 27, 2018 · 5596 views
    This topic created in 2753 days ago, the information mentioned may be changed or developed.

    后端防采集感觉已经不行了,稍微猛一点会把可爱的搜索引擎爬虫误伤了,准备采用前端 js 生成 token 后端验证来防采集,现在就是想把所有的 headless 浏览器给 ban 掉,有没有最全的方法检测 headless 浏览器的特征?

    13 replies    2018-11-27 22:49:47 +08:00
    photon006
        1
    photon006  
       Nov 27, 2018
    用户行为分析?
    找一些 headless 特征作为样本,训练一个神经网络来识别?
    linhua
        2
    linhua  
       Nov 27, 2018   ❤️ 2
    IT IS *NOT* POSSIBLE TO DETECT AND BLOCK CHROME HEADLESS
    https://intoli.com/blog/not-possible-to-block-chrome-headless/
    orangeChar
        3
    orangeChar  
       Nov 27, 2018
    我现在正在用 webdriver 操控 ie 浏览器写脚本 这个不是 Headless 奥 怎么防 验证码接入打码平台 滑动验证码都能解决 怎么防 老铁 ?
    glacer
        4
    glacer  
       Nov 27, 2018
    不存在完美的反爬虫措施,只要爬虫想绕过反爬必然是有办法的。
    简单的反 headless 爬虫,以 puppeteer 为例,可设置检查 navigator.webdriver 值
    glacer
        5
    glacer  
       Nov 27, 2018
    @glacer 更靠谱的还是埋点做行为分析
    luozic
        6
    luozic  
       Nov 27, 2018 via iPhone   ❤️ 1
    行为分析,哪有人每个链接都看的,还是更新了就天天看
    des
        7
    des  
       Nov 27, 2018 via Android
    收集 vps 网段,全封了
    meso5533
        8
    meso5533  
       Nov 27, 2018 via Android
    去观察常见的 headless 的 navigator 和 window 对象的属性,是有一些特征的
    orcusfox
        9
    orcusfox  
       Nov 27, 2018 via iPhone
    想问一下 headless 浏览器是除了渲染页面以外都可以做吗?之前有见过在 js 里面设置 Cookie,这样可以隔绝掉没有执行能力和没有 CookieStore 的客户端。
    agagega
        10
    agagega  
       Nov 27, 2018
    @napsterwu 应该是也能渲染的,我还见过用 headless 浏览器渲染页面截图用来做前端测试的
    sunchen
        11
    sunchen  
       Nov 27, 2018
    点评和美团的网站下边都有一个 xohr.js 的文件,你看看能了解到一部分
    nonoroazoro
        12
    nonoroazoro  
       Nov 27, 2018
    只要 headless 做的足够完善,想要在内部检测理论上不可能。
    Sparetire
        13
    Sparetire  
       Nov 27, 2018
    如楼上所说理论上是不可能, 不过正巧前几天也有这个需求, 搜集了些写了个库 https://github.com/ta7sudan/secan, 对付小白应该够用
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5385 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 90ms · UTC 08:13 · PVG 16:13 · LAX 01:13 · JFK 04:13
    ♥ Do have faith in what you're doing.