V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
kgdb00
V2EX  ›  程序员

pdf 文件的文本不能搜索,但导入到 google docs 里就可以搜索,怎么使 pdf 文件解除不能搜索文本的限制?

  •  
  •   kgdb00 · Feb 28, 2022 · 3732 views
    This topic created in 1520 days ago, the information mentioned may be changed or developed.
    22 replies    2022-03-01 14:22:28 +08:00
    imldy
        1
    imldy  
       Feb 28, 2022 via Android
    换个浏览器或者 pdf 阅读器
    kgdb00
        2
    kgdb00  
    OP
       Feb 28, 2022
    @imldy 试了 chrome ,firefox ,evince 都不行,而且我这个 pdf 是要发给别人看的,所以应该要保证所有工具都能搜索。
    pendulum
        3
    pendulum  
       Feb 28, 2022   ❤️ 1
    可能你这个 PDF 是扫描件,本身没有文字。但传 Google 后,它帮你 OCR 了,所以你能搜索
    kgdb00
        4
    kgdb00  
    OP
       Feb 28, 2022
    @pendulum 文档看起来很清晰,不像是扫描件。
    shxxy
        5
    shxxy  
       Feb 28, 2022
    什么叫「不能搜索」,是搜索了没有任何结果,还是按 Ctrl F 弹个提示框出来说该文档不支持搜索
    如果是搜索了没有任何结果,那多半就是你 pdf 没有把字连成句之类的问题。
    lekai63
        6
    lekai63  
       Feb 28, 2022 via iPhone
    有些 pdf “已加密”就会能看但不能搜索

    ctrl+p 打印为 pdf 试试
    kgdb00
        7
    kgdb00  
    OP
       Feb 28, 2022
    @qwq11 用 chrome 搜索没有任何结果
    kgdb00
        8
    kgdb00  
    OP
       Feb 28, 2022
    @lekai63 用 chrome 试了,不行。
    mikewang
        9
    mikewang  
       Feb 28, 2022
    如果是加密文件,可 Unlock PDF: https://www.ilovepdf.com/unlock_pdf
    如果是内嵌图片(文件大小一般在 MB 级别,不一定是扫描件),你需要 OCR 。
    illl
        10
    illl  
       Feb 28, 2022 via iPhone
    用 adobe 的一款软件做一下光学文字识别,再保存一下就可以了
    kgdb00
        11
    kgdb00  
    OP
       Feb 28, 2022
    @mikewang Unlock PDF 试了,不行
    MacDows
        12
    MacDows  
       Feb 28, 2022 via Android
    @kgdb00 那就 acrobat 识别一下,大概率能用了
    duke807
        13
    duke807  
       Feb 28, 2022
    inkscape 導入看一下
    dingwen07
        14
    dingwen07  
       Mar 1, 2022
    使用 Okular ,设置里的“遵循 DRM”关掉
    kgdb00
        15
    kgdb00  
    OP
       Mar 1, 2022
    @dingwen07 试了,也不行。
    leaves7i
        16
    leaves7i  
       Mar 1, 2022
    上传 google docs 分享链接
    Tilie
        17
    Tilie  
       Mar 1, 2022
    acrobat 右侧有个开关 “所有页面可编辑” 打开之后会一页一页的 ocr 识别
    适用于扫描出来的
    danny1900
        18
    danny1900  
       Mar 1, 2022
    ABBYY FineReader ,试下这个 pdf 编辑器,自带 ocr 可以让你搜索
    luny
        19
    luny  
       Mar 1, 2022
    看一下文档的属性,里面有一些安全项
    有软件可以解除限制
    nanvon
        20
    nanvon  
       Mar 1, 2022
    那就说明这个 pdf 内不是文字,是图片。图片需要被 OCR 后才能被搜索文字
    nanvon
        21
    nanvon  
       Mar 1, 2022
    @kgdb00 如果光标能够选中文字,那才可以搜索。如果不能选中,那就说明是比较清晰的图片
    emhhb2ppy
        22
    emhhb2ppy  
       Mar 1, 2022
    “双层 PDF”,“可检索 PDF”是你需要的 PDF 。这种文件在创建的时候每个字符对应了带坐标信息的 OCR 步骤。所以才可以检索到。不是阅读软件的问题。上传 g doc ,是 g 自己 OCR 了一遍,所以才可以检索到。g 还开源了 OCR 引擎,叫 Tesseract Open Source OCR Engine ( https://github.com/tesseract-ocr/tesseract)
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3560 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 62ms · UTC 10:56 · PVG 18:56 · LAX 03:56 · JFK 06:56
    ♥ Do have faith in what you're doing.