草庐IT

PDFMiner3

全部标签

python - 使用 PDFMiner 解析没有/Root 对象的 PDF

我正在尝试使用PDFMinerpython绑定(bind)从大量PDF中提取文本。我编写的模块适用于许多PDF,但对于一部分PDF,我遇到了这个有点神秘的错误:ipython堆栈跟踪:/usr/lib/python2.7/dist-packages/pdfminer/pdfparser.pycinset_parser(self,parser)331break332else:-->333raisePDFSyntaxError('No/Rootobject!-IsthisreallyaPDF?')334ifself.catalog.get('Type')isnotLITERAL_CATAL

Python:特殊字符给我带来问题(来自 PDFminer)

我使用PDFminer的pdf2text将PDF缩减为文本。不幸的是它包含特殊字符。让我显示控制台的输出>>>a=pdf_to_text("ap.pdf")这里是它的一个样本,有点截断>>>a[5000:5500]'fonearchitect.Decades......buttore\xef\xac\x82ect\nonesetofdesignideas,thantohaveonethatcontainsmany\ngoodbutindependentanduncoordinatedideas.\n1JoshuaBloch,\xe2\x80\x9cHowtoDesignaGoodAPI

python - 如何使用 PDFMiner 获取 PDF 中文本的位置?

这个问题在这里已经有了答案:HowtoextracttextandtextcoordinatesfromaPDFfile?(4个答案)关闭上个月。PDFMiner的文档说:PDFMinerallowsonetoobtaintheexactlocationoftextinapage但是,我一直没能找到如何做到这一点。PDFMiner的“文档”相当稀疏,所以我不明白如何做到这一点。
12