草庐IT

PdfMiner

全部标签

python - 如何从 PDF 文件中提取文本和文本坐标?

我想用PDFMiner从PDF文件中提取所有文本框和文本框坐标。许多其他StackOverflow帖子解决了如何以有序方式提取所有文本,但我如何执行获取文本和文本位置的中间步骤?给定一个PDF文件,输出应该类似于:489,41,"Signature"500,52,"b"630,202,"a_g_i_r" 最佳答案 这是一个可以复制粘贴的示例,它列出了PDF中每个文本block的左上角,我认为它适用于任何不包含具有文本的“FormXObjects”的PDF其中:frompdfminer.layoutimportLAParams,LTT

python - 如何从 PDF 文件中提取文本和文本坐标?

我想用PDFMiner从PDF文件中提取所有文本框和文本框坐标。许多其他StackOverflow帖子解决了如何以有序方式提取所有文本,但我如何执行获取文本和文本位置的中间步骤?给定一个PDF文件,输出应该类似于:489,41,"Signature"500,52,"b"630,202,"a_g_i_r" 最佳答案 这是一个可以复制粘贴的示例,它列出了PDF中每个文本block的左上角,我认为它适用于任何不包含具有文本的“FormXObjects”的PDF其中:frompdfminer.layoutimportLAParams,LTT

python - 如何使用 pdfminer 作为库

我正在尝试使用pdfminer从pdf中获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功地将这些数据提取到.txt文件中。我目前这样做,然后使用python脚本清理.txt文件。我想将pdf提取过程合并到脚本中并为自己节省一步。IthoughtIwasontosomethingwhenIfoundthislink,但我在任何解决方案上都没有成功。也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer。Ialsotriedthefunctionshownhere,butitalsodidnotwork.我尝试的另一种方法是使用os.system

python - 如何使用 pdfminer 作为库

我正在尝试使用pdfminer从pdf中获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功地将这些数据提取到.txt文件中。我目前这样做,然后使用python脚本清理.txt文件。我想将pdf提取过程合并到脚本中并为自己节省一步。IthoughtIwasontosomethingwhenIfoundthislink,但我在任何解决方案上都没有成功。也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer。Ialsotriedthefunctionshownhere,butitalsodidnotwork.我尝试的另一种方法是使用os.system

python - 在python中使用PDFMiner从PDF文件中提取文本?

我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例。看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已更改)。我发现使从PDF文件中提取文本的任务更容易的库正在使用旧的PDFMiner语法,所以我不知道该怎么做。事实上,我只是在查看源代码,看看我是否能弄清楚。 最佳答案 这是一个使用当前版本的PDFMiner(2016年9月)从PDF文件中提取文本的工作示例frompdfminer.pdfinterpimportPDFResourceManager,PDFP

python - 在python中使用PDFMiner从PDF文件中提取文本?

我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例。看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已更改)。我发现使从PDF文件中提取文本的任务更容易的库正在使用旧的PDFMiner语法,所以我不知道该怎么做。事实上,我只是在查看源代码,看看我是否能弄清楚。 最佳答案 这是一个使用当前版本的PDFMiner(2016年9月)从PDF文件中提取文本的工作示例frompdfminer.pdfinterpimportPDFResourceManager,PDFP

python - PDF Parsing Using Python - 提取格式化文本和纯文本

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题,以便用事实和引用来回答它。关闭7年前。Improvethisquestion我正在寻找可以让我从PDF文档中提取文本的PDF库。我看过PyPDF,它可以很好地从PDF文档中提取文本。这样做的问题是,如果文档中有表格,表格中的文本将与文档的其余部分一起被提取。这可能会产生问题,因为它会生成无用且看起来乱码的文本部分(例如,大量数字混在一起)。我想从PDF文档中提取文本,排除任何表格和特殊格式。有没有图书馆可以做到这一点?

python - PDF Parsing Using Python - 提取格式化文本和纯文本

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题,以便用事实和引用来回答它。关闭7年前。Improvethisquestion我正在寻找可以让我从PDF文档中提取文本的PDF库。我看过PyPDF,它可以很好地从PDF文档中提取文本。这样做的问题是,如果文档中有表格,表格中的文本将与文档的其余部分一起被提取。这可能会产生问题,因为它会生成无用且看起来乱码的文本部分(例如,大量数字混在一起)。我想从PDF文档中提取文本,排除任何表格和特殊格式。有没有图书馆可以做到这一点?

python - PDFminer:提取带有字体信息的文本

这个问题在这里已经有了答案:HowtoextracttextandtextcoordinatesfromaPDFfile?(4个答案)关闭上个月。我找到了thisquestion,但它使用命令行,我不想使用子进程在命令行中调用Python脚本并解析HTML文件以获取字体信息。我想使用PDFminer作为一个库,我找到了thisquestion,但它们只是提取纯文本,没有其他信息,如字体名称、字体大小等。

python - 使用 Python pdfMiner 每页提取文本?

我已经尝试使用pyPdf和pdfMiner从pdf文件中提取文本。我有一些不友好的pdf,只有pdfMiner能够成功提取。我正在使用代码here提取整个文件的文本。但是,我真的很想在每页的基础上提取文本,例如pyPdf中的getPage(i).extractText()功能。有谁知道如何使用pdfMiner提取每页的文本? 最佳答案 forpageNumber,pageinenumerate(PDFDocument.get_pages()):ifpageNumber==42:#dosomethingwiththepage有篇不错的