想将 PDF 页面上的文本和图片提取出来,并按它们出现的先后顺序进行排序。
在网上找了很多方案都达不到理想的效果:
- 苹果官方的 PDFKit 可“准确”(不含不必要的换行符)地提出页面上的文本,但是无法提取图片, 提取出的文字也不含其在页面上的位置信息。
- PSPDFKit 可提出含位置信息的文本,但它是按行而不是按段落提取,此外它还可以提取页面上的图片,不过不完美,时有提取不到的情况发生。
还试了其它的一些 PDF 资源提取工具,发现取出来的文本都含有不必要的按行符,页面上的图片也不是所有的都能取到。
现在想找人写一个可以用在我的 iOS 项目里的 PDF 解析器,开源闭源都可以,有报酬,可开价。
关于这个解析器,我希望给它一个 PDF 文档和指定的页码就能返回一个包含排好序的文本和图片信息(如果有的话)的数组。