V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
SteadyHua
V2EX  ›  问与答

为什么网络上很少有文档结构化的资料,求文档结构化配置经验分享

  •  
  •   SteadyHua · Sep 23, 2022 · 990 views
    This topic created in 1313 days ago, the information mentioned may be changed or developed.

    最近在做文档结构化相关工作,各位大佬能分享下( Word/Excel/Pdf )文档结构化配置的经验或有什么类似的产品可以参考吗?

    4 replies    2022-09-24 11:28:24 +08:00
    jr55475f112iz2tu
        1
    jr55475f112iz2tu  
       Sep 23, 2022
    不如你解释一下什么是 文档结构化
    SteadyHua
        2
    SteadyHua  
    OP
       Sep 23, 2022
    @czfy
    转自百科
    结构化数据(Structured data)-可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

    对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。

    结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。

    非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容( operationalcontent ):如合约、发票、书信与采购记录;部门内容( workgroupcontent ):如文书处理、电子表格、简报档案与电子邮件; Web 内容:如 HTML 与 XML 等格式的信息;多媒体内容( RichMediaContent ):如声音、影片、图形等。

    通俗的解释就是将非结构化数据结构化后入库,例如将 Word 解析成 HTML 展示,保存其中所需要结构为后续同类型 Word 批量解析,解析成结构化数据入库。
    jr55475f112iz2tu
        3
    jr55475f112iz2tu  
       Sep 23, 2022
    如果是这样的话,excel 本来就是结构化数据居多吧
    word/pdf 的场景我就不懂了,看其他人吧
    LiubaiQ
        4
    LiubaiQ  
       Sep 24, 2022
    如果是微软 office 系列,可以看下官方文档,之前我记得看到过有提供工具库,可以解析成结构化数据,貌似还有一个公司专门做文档解析为结构化数据的,提供网络 Api 和包(貌似是 java ),不过是收费的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3586 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 61ms · UTC 10:59 · PVG 18:59 · LAX 03:59 · JFK 06:59
    ♥ Do have faith in what you're doing.