csx163
V2EX  ›  问与答

求解这种非标准 html 如何提取有效数据

  •  
  •   csx163 · Nov 22, 2018 · 2598 views
    This topic created in 2755 days ago, the information mentioned may be changed or developed.


    近 10W+的文本文件,如何正确取出里面的姓名、地址、身份证号等信息,是不是只能用正则?
    4 replies    2018-11-22 23:50:36 +08:00
    ClutchBear
        1
    ClutchBear  
       Nov 22, 2018
    我记得 pyquery 某个参数可以把没有闭合标签自动解析出闭合的
    fox1955
        2
    fox1955  
       Nov 22, 2018
    npm install sax
    imn1
        3
    imn1  
       Nov 22, 2018
    建议正则吧,10w+用 dom 解析是难以想象的
    用 xml sax 流式解析也可以
    night98
        4
    night98  
       Nov 22, 2018 via Android
    格式完全一致还是说其中有部分缺斤少两的?先写个正则把 html 元素干掉,剩下的看规律写正则搞定。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5819 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 02:47 · PVG 10:47 · LAX 19:47 · JFK 22:47
    ♥ Do have faith in what you're doing.