草庐IT

pdffonts

全部标签

java - 如何找到所有基于图像的 PDF?

我的系统中有很多PDF文档,有时我注意到文档是基于图像的,没有编辑功能。在这种情况下,我在FoxitPhantomPDF中进行OCR以更好地搜索,您可以在其中对多个文件进行OCR。我想找到我的所有基于图像的PDF文档。我不明白PDF阅读器如何识别文档的OCR不是文本。这些读者必须访问某些字段。这也可以在终端中访问。这个答案给出了如何在线程CheckifaPDFfileisascannedone中进行的公开建议。:Yourbestbetmightbetochecktoseeifithastextandalsoseeifitcontainsalargepagesizedimageorlot