推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
guoguobaba
V2EX  ›  Python

一个文本解析的问题请教

  •  
  •   guoguobaba · Sep 25, 2023 · 1431 views
    This topic created in 986 days ago, the information mentioned may be changed or developed.

    有一个文章模板,基本就是目录,内容,树状格式,章节之间的关系用 json 定义

    章节 1
        内容
        章节 1.1
            内容
            章节 1.1.1
               。。。
        章节 1.2
            内容
    章节 2
        。。。
    

    基于这个模板的文章,某些章节和内容都可能缺失

    想把这个文章按照章节模板转化成这样的 json

    章节 1                      内容
    章节 1/章节 1.1              内容
    章节 1/章节 1.1/章节 1.1.1    内容
    章节 1/章节 1.2              内容
    

    怎么设置匹配方案

    注意到,章节和内容在形式上没有区别,章节是字符串表示,而内容可能是字符串也可能 是字符串数组。

    3 replies    2023-09-26 14:14:13 +08:00
    coderluan
        1
    coderluan  
       Sep 25, 2023
    得先找到一个办法去区分章节和内容吧,然后遍历内容,向前获取章节就行了。


    如果没办法区分章节和内容,而章节和内容又都可能缺失,你这个就相当于,内容内容内容,没办法知道是内容/内容内容,还是内容内容/内容。
    opengps
        2
    opengps  
       Sep 25, 2023
    如果可以确认所有末节点的内容是单行的,那么 tab 就是你的识别符了
    NoOneNoBody
        3
    NoOneNoBody  
       Sep 26, 2023
    json -> nested dict -> xpath ,后面这步网上有,搜一下能找到,基本上就是 key 递归
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2936 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 07:28 · PVG 15:28 · LAX 00:28 · JFK 03:28
    ♥ Do have faith in what you're doing.