问了大模型,目前用 pdfinfo/pdffonts/pdfimages 结合来,准确度不理想。
1
tool2dx Dec 10, 2024
纯扫描版就是 jpg 内嵌大图,没有具体文字可以选中,用 pdf 文字提取工具,很容易识别的吧。
|
2
shintendo Dec 10, 2024
文件体积除以页数
|
4
paopjian Dec 10, 2024
直接用脚本尝试提取文字不可以吗?多于几个字就算是文字版
|
5
mclxly OP |
7
sketcherly Dec 10, 2024
直接解析 pdf 统计字数呢
|
8
CLMan Dec 10, 2024
就算是用 文件大小/页 ,准确率应该也差不到哪里去。
|
9
cowcomic Dec 10, 2024
如果是大面上的区分的话,大小除以页数应该就是比较迅速的方式了
除非要求比较精确,百分之多少是图片之类的 |
10
mclxly OP |
11
xiaomageit Dec 10, 2024
降精
|
12
israinbow Dec 11, 2024 via Android
文字版 pdf 转成 html 看起来会很有逻辑.
|