找高人帮忙写一个 iOS 平台上的 PDF 解析器，有酬！

This topic created in 3100 days ago, the information mentioned may be changed or developed.

想将 PDF 页面上的文本和图片提取出来，并按它们出现的先后顺序进行排序。

在网上找了很多方案都达不到理想的效果：

苹果官方的 PDFKit 可“准确”（不含不必要的换行符）地提出页面上的文本，但是无法提取图片, 提取出的文字也不含其在页面上的位置信息。
PSPDFKit 可提出含位置信息的文本，但它是按行而不是按段落提取，此外它还可以提取页面上的图片，不过不完美，时有提取不到的情况发生。

还试了其它的一些 PDF 资源提取工具，发现取出来的文本都含有不必要的按行符，页面上的图片也不是所有的都能取到。

现在想找人写一个可以用在我的 iOS 项目里的 PDF 解析器，开源闭源都可以，有报酬，可开价。

关于这个解析器，我希望给它一个 PDF 文档和指定的页码就能返回一个包含排好序的文本和图片信息（如果有的话）的数组。

提取

PDF

文本

页面

15 replies • 2018-01-31 00:11:37 +08:00

laobaozi

Jan 30, 2018

如果没找到合适的 iOS 提取,是不是可以考虑服务器提取之后返回

forkon

Jan 30, 2018

@laobaozi 这也是一个思路，不过我想让我的 App 离线也能用。

laobaozi

Jan 30, 2018

https://developer.apple.com/library/content/documentation/GraphicsImaging/Conceptual/drawingwithquartz2d/dq_pdf_scan/dq_pdf_scan.html 看看这个有没有帮助

forkon

Jan 30, 2018

@laobaozi 谢谢啦不过这个我已经看过了讲得不够深入

发现 pdf 的解析真的很复杂……

shuson

Jan 30, 2018

https://github.com/garnele007/SwiftOCR
注意 license

forkon

Jan 30, 2018

@shuson 我要处理的是非扫描生成的 pdf 所以用不上 ocr

3a3Mp112

Jan 30, 2018

你这个活，放在 V2EX 要 5W，猪八戒都要 1W

forkon

Jan 30, 2018

@3a3Mp112 你能写吗

znood

Jan 30, 2018 via iPhone

转 word ？

3a3Mp112

Jan 30, 2018

@forkon 重新想了一下，没什么好思路，写不出。猪八戒 2 万可以试试。

forkon

Jan 30, 2018

@znood 每打开一个都转一遍？ iOS 平台上有好用的 pdf 转 word 的 lib ？ word 的解析很容易？

yyrj

Jan 30, 2018 via iPhone

5 万可以试试

hackpro

Jan 30, 2018 via iPhone

有无 PDF 样张提供是否需要处理页眉页脚脚注页码信息，可以尝试下

forkon

Jan 31, 2018

@hackpro 只要不是扫描类的 pdf 都可以只好是能把页眉页脚脚注页码信息去掉只保留正文

forkon

Jan 31, 2018

@yyrj 你要是能做得比 PSPDFKit 好，然后像他们那内闭源卖 license，何止赚 5 万？