• 请不要在回答技术问题时复制粘贴 AI 生成的内容
kumasama
V2EX  ›  程序员

请问各位大佬,微信公众号的文章最近是爬不了了吗?

  •  
  •   kumasama · Feb 7, 2020 · 3464 views
    This topic created in 2312 days ago, the information mentioned may be changed or developed.

    之前的是 div class="rich_media_content " id="js_content">(.*?)</div>/s

    现在 html 代码加了些东西 div class="rich_media_content " id="js_content" style="visibility: visible;">,在正则上也加了,为啥爬到空数据---

    5 replies    2020-02-08 00:55:17 +08:00
    airyland
        2
    airyland  
       Feb 7, 2020
    正则应该有 bug。我用的是 DOM(cheerio) 的方式解析 https://github.com/airyland/we-extract
    wangyzj
        3
    wangyzj  
       Feb 8, 2020
    敢问你是从 sogou 爬的吗?
    Pyjamas
        4
    Pyjamas  
       Feb 8, 2020
    @aihimmel 这个有意思
    EPr2hh6LADQWqRVH
        5
    EPr2hh6LADQWqRVH  
       Feb 8, 2020
    连 HTML 都不 parse 就直接正则这是谁教会的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1032 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 55ms · UTC 18:11 · PVG 02:11 · LAX 11:11 · JFK 14:11
    ♥ Do have faith in what you're doing.