doc2pdf_草庐IT

python - 使用 python PyPDF2 从 PDF 中提取图像

有什么方法可以从pdf文档中提取图像作为流(使用PyPDF2库)？是否可以将一些图像替换为另一个图像(例如使用PIL生成或从文件加载)？我能够从pdf对象树中获取EncodedStreamObject并获取编码流(通过调用getData()方法)，但看起来它只是原始内容，没有任何图像标题和其他元信息。>>>importPyPDF2>>>#sample.pdfcontainspngimages>>>reader=PyPDF2.PdfFileReader(open('sample.pdf','rb'))>>>reader.resolvedObjects[0][9]{'/BitsPerCom

python PyPDF2 39 gt section pdf image-processing reportlab

python之pdfminer:从PDF文档中抽取信息的工具

pdfminer是一个用于从PDF文档中抽取信息的Python库。它提供了一系列的功能，使我们能够读取和解析PDF文件，并从中提取文本内容、元数据、页面布局和图片等。本文将详细介绍pdfminer库的使用示例，包括安装、解析文档、提取文本和图片等操作。首先，我们需要安装pdfminer库。可以使用以下命令使用pip安装：pipinstallpdfminer.sixpdfminer.six是pdfminer的Python3版本。安装完成后，我们可以开始使用pdfminer库。下面是一些常用功能的示例代码：1.解析PDF文档：frompdfminer.pdfparserimportPDFParse

抽取 pdfminer 文档 import python 开发语言

python - 如何使用 OCR 有效地从 PDF 文件目录中提取文本？

我有一个包含PDF文件(图像)的大目录，如何从目录中的所有文件中有效地提取文本？。到目前为止，我尝试:importmultiprocessingimporttextractdefextract_txt(file_path):text=textract.process(file_path,method='tesseract')p=multiprocessing.Pool(2)file_path=['/Users/user/Desktop/sample.pdf']list(p.map(extract_txt,file_path))但是，它不起作用……它需要很多时间(我有一些文档有600页)

python OCR code 39 file python-3.x parallel-processing tesseract apache-tika

python - 如何使用 OCR 有效地从 PDF 文件目录中提取文本？

我有一个包含PDF文件(图像)的大目录，如何从目录中的所有文件中有效地提取文本？。到目前为止，我尝试:importmultiprocessingimporttextractdefextract_txt(file_path):text=textract.process(file_path,method='tesseract')p=multiprocessing.Pool(2)file_path=['/Users/user/Desktop/sample.pdf']list(p.map(extract_txt,file_path))但是，它不起作用……它需要很多时间(我有一些文档有600页)

python OCR code 39 file python-3.x parallel-processing tesseract apache-tika

python - 在 Windows Python 中将不可搜索的 Pdf 转换为可搜索的 Pdf

需要一个解决方案来将每个页面都是图像并且页面可以包含文本、表格或两者的组合的PDF文件转换为可搜索的pdf。我使用过ABBYFineReaderOnline，它的工作非常出色，但我正在寻找可以通过WindowsPython实现的解决方案我已经做了详细的分析，下面是接近我想要的但不完全是我想要的链接:ScannedImage/PDFtoSearchableImage/PDF说是先用Ghost脚本转成图片，然后直接转成文字。我不相信tesseract会将不可搜索的PDF转换为可搜索的PDF。ConvertingsearchablePDFtoanon-searchablePDF上述解决方案有

Pdf Windows strong section noreferrer python python-3.x ocr

python - 在 Windows Python 中将不可搜索的 Pdf 转换为可搜索的 Pdf

需要一个解决方案来将每个页面都是图像并且页面可以包含文本、表格或两者的组合的PDF文件转换为可搜索的pdf。我使用过ABBYFineReaderOnline，它的工作非常出色，但我正在寻找可以通过WindowsPython实现的解决方案我已经做了详细的分析，下面是接近我想要的但不完全是我想要的链接:ScannedImage/PDFtoSearchableImage/PDF说是先用Ghost脚本转成图片，然后直接转成文字。我不相信tesseract会将不可搜索的PDF转换为可搜索的PDF。ConvertingsearchablePDFtoanon-searchablePDF上述解决方案有

Pdf Windows strong section noreferrer python python-3.x ocr

python - 如何从重命名脚本中提取 PDF 文档的标题？

我的电脑里有几千个PDF文件，文件名从a0001.pdf到a3621.pdf，每个里面都有一个标题；例如a0001.pdf中的“碳酸铝”、a0002.pdf中的“硝酸铝”等，我想提取它们以重命名我的文件。我用这个程序重命名一个文件:path=r"C:\Users\YANN\Desktop\..."old='string1'new='string2'defrename(path,old,new):forfinos.listdir(path):os.rename(os.path.join(path,f),os.path.join(path,f.replace(old,new)))renam

从重命名 code path section python python-3.x file pdf

python - 如何从重命名脚本中提取 PDF 文档的标题？

我的电脑里有几千个PDF文件，文件名从a0001.pdf到a3621.pdf，每个里面都有一个标题；例如a0001.pdf中的“碳酸铝”、a0002.pdf中的“硝酸铝”等，我想提取它们以重命名我的文件。我用这个程序重命名一个文件:path=r"C:\Users\YANN\Desktop\..."old='string1'new='string2'defrename(path,old,new):forfinos.listdir(path):os.rename(os.path.join(path,f),os.path.join(path,f.replace(old,new)))renam

从重命名 code path section python python-3.x file pdf

python - Python 中的 Pdf 类似 Jinja

我正在寻找Python中最准确的PDF工具，其工作方式类似于Jinja对HTML的工作方式。你有什么建议？最佳答案正如jbochi所回答的，ReportLab是几乎所有生成PDF的Python项目的基础。但根据您的需要，您可能需要查看Pisa/xhtml2pdf.您将使用Jinja模板生成HTML，然后使用Pisa将HTML转换为PDF。Pisa建立在ReportLab之上。编辑:我忘记的另一个选项是wkhtmltopdf 关于python-Python中的Pdf类似Jinja，我们

python section strong noreferrer pdf-generation jinja2

python - Python 中的 Pdf 类似 Jinja

我正在寻找Python中最准确的PDF工具，其工作方式类似于Jinja对HTML的工作方式。你有什么建议？最佳答案正如jbochi所回答的，ReportLab是几乎所有生成PDF的Python项目的基础。但根据您的需要，您可能需要查看Pisa/xhtml2pdf.您将使用Jinja模板生成HTML，然后使用Pisa将HTML转换为PDF。Pisa建立在ReportLab之上。编辑:我忘记的另一个选项是wkhtmltopdf 关于python-Python中的Pdf类似Jinja，我们

python section strong noreferrer pdf-generation jinja2