一个中文扫描版 PDF ,我用 OCR 软件,比如 AABY Fine Reader 转换成了可以复制文字的版本,但是对于这种版本,使用 calibre 转换成 mobi 或者 epub 格式,都是失败的。
我觉得可能的原因是,OCR 软件并没有改变 PDF 的外观。每个文字仍然是原来的图像,只不过可以复制。这种和纯文字版非扫描版的还是有区别。
如果想转化成移动设备友好的格式,该怎么做呢?
一个中文扫描版 PDF ,我用 OCR 软件,比如 AABY Fine Reader 转换成了可以复制文字的版本,但是对于这种版本,使用 calibre 转换成 mobi 或者 epub 格式,都是失败的。
我觉得可能的原因是,OCR 软件并没有改变 PDF 的外观。每个文字仍然是原来的图像,只不过可以复制。这种和纯文字版非扫描版的还是有区别。
如果想转化成移动设备友好的格式,该怎么做呢?
1
Tuwofie Jun 3, 2022
之前大概了解过,pdf 和 epub 底层好像完全是两个东西吧
|
2
ygchy Jun 3, 2022 via iPhone
扫描版 PDF 用 OCR 识别出来的文本准确度还是比较低的吧,但如果能接受……或许可以先把 PDF 转换成 Word ,然后再用 Word 文档制作 epub ?新版本的 Word 可以直接选择 PDF 文档打开进行转换。但总的来说这个过程要不得花很多时间校对,要不就只能忍受 OCR 出来有大量错误的文本……自己阅读用的话感觉并划不来。
|
3
whileFalse Jun 4, 2022 via iPhone
AABY 只能导出 pdf 吗?能不能导出 word
|
4
shinsekai Jun 4, 2022 via Android
foxit 高级 pdf 编辑器可以直接 ocr 成“可编辑的文字”然后支持导出 html 格式,转 epub 应该就方便了
|
5
i3x Jun 4, 2022 via Android
@ygchy 印刷体不至于。哪怕直接扫书。。。
十几年前的打印机光盘内置的汉王我觉得都可以接受。。。正常的书没什么,包括图的注那么小的都能认,除了书压不平可能里面一排字不认。。。几百个字错一两个还好了。 楼主如果是安卓之类的移动设备就直接缩放 pdf 对付着看吧。。。。如果是电纸书,劝退。。。。这种大 pdf 打开可能就死机了。转成其他的格式整理工作量太大 |
6
xyjincan Jun 4, 2022
orc_pdf 原理,应该是在原有 pdf 基础上添加了一层不可见的可复制逐个字符,不具备原生 pdf 文本的重排版能力
|
8
ltkun Jun 4, 2022 via Android
koreader 了解一下
|
9
kongkx Jun 4, 2022 via iPhone
想办法导出 html 。校对是个问题,保留段落排版的格式应该现在有工具可以做,之前看到的这个单一图片处理的 https://www.v2ex.com/t/851543?p=2 。
|
10
felixcode PRO 可以用 abbyy fine reader 这样的软件导出成 word 文档,再做转换。
|