V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
mclxly
V2EX  ›  问与答

请教 v 友如何分辨一个 pdf 文档是扫描版还是文字版?速度优先,准确率其次

  •  
  •   mclxly · Dec 10, 2024 · 1966 views
    This topic created in 503 days ago, the information mentioned may be changed or developed.

    问了大模型,目前用 pdfinfo/pdffonts/pdfimages 结合来,准确度不理想。

    12 replies    2024-12-11 13:56:53 +08:00
    tool2dx
        1
    tool2dx  
       Dec 10, 2024
    纯扫描版就是 jpg 内嵌大图,没有具体文字可以选中,用 pdf 文字提取工具,很容易识别的吧。
    shintendo
        2
    shintendo  
       Dec 10, 2024
    文件体积除以页数
    gpt5
        3
    gpt5  
       Dec 10, 2024
    @tool2dx 很多扫描都是带 ocr 的,可以选文字。
    paopjian
        4
    paopjian  
       Dec 10, 2024
    直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版
    mclxly
        5
    mclxly  
    OP
       Dec 10, 2024
    @tool2dx 有大量文件,得程序自动识别

    @shintendo 文件 1:25 页/588K 文件 2:334 页/1.7M 文件 3:141 页/3.3M ,你说这三本书咋区分?
    mclxly
        6
    mclxly  
    OP
       Dec 10, 2024
    @paopjian 我遇到过可以提取少量文字的电子书(主要是扫描图片)
    sketcherly
        7
    sketcherly  
       Dec 10, 2024
    直接解析 pdf 统计字数呢
    CLMan
        8
    CLMan  
       Dec 10, 2024
    就算是用 文件大小/页 ,准确率应该也差不到哪里去。
    cowcomic
        9
    cowcomic  
       Dec 10, 2024
    如果是大面上的区分的话,大小除以页数应该就是比较迅速的方式了
    除非要求比较精确,百分之多少是图片之类的
    mclxly
        10
    mclxly  
    OP
       Dec 10, 2024
    @sketcherly 扫描版大部分是图片

    @CLMan 单页大小阈值不好确定

    @cowcomic 百分比阈值不好确定,我遇到过每页都有背景图的文字版电子书
    xiaomageit
        11
    xiaomageit  
       Dec 10, 2024
    降精
    israinbow
        12
    israinbow  
       Dec 11, 2024 via Android
    文字版 pdf 转成 html 看起来会很有逻辑.
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1510 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 16:49 · PVG 00:49 · LAX 09:49 · JFK 12:49
    ♥ Do have faith in what you're doing.