草庐IT

write_pdf

全部标签

python - 如何使用 OCR 有效地从 PDF 文件目录中提取文本?

我有一个包含PDF文件(图像)的大目录,如何从目录中的所有文件中有效地提取文本?。到目前为止,我尝试:importmultiprocessingimporttextractdefextract_txt(file_path):text=textract.process(file_path,method='tesseract')p=multiprocessing.Pool(2)file_path=['/Users/user/Desktop/sample.pdf']list(p.map(extract_txt,file_path))但是,它不起作用……它需要很多时间(我有一些文档有600页)

python - 在 Windows Python 中将不可搜索的 Pdf 转换为可搜索的 Pdf

需要一个解决方案来将每个页面都是图像并且页面可以包含文本、表格或两者的组合的PDF文件转换为可搜索的pdf。我使用过ABBYFineReaderOnline,它的工作非常出色,但我正在寻找可以通过WindowsPython实现的解决方案我已经做了详细的分析,下面是接近我想要的但不完全是我想要的链接:ScannedImage/PDFtoSearchableImage/PDF说是先用Ghost脚本转成图片,然后直接转成文字。我不相信tesseract会将不可搜索的PDF转换为可搜索的PDF。ConvertingsearchablePDFtoanon-searchablePDF上述解决方案有

python - 在 Windows Python 中将不可搜索的 Pdf 转换为可搜索的 Pdf

需要一个解决方案来将每个页面都是图像并且页面可以包含文本、表格或两者的组合的PDF文件转换为可搜索的pdf。我使用过ABBYFineReaderOnline,它的工作非常出色,但我正在寻找可以通过WindowsPython实现的解决方案我已经做了详细的分析,下面是接近我想要的但不完全是我想要的链接:ScannedImage/PDFtoSearchableImage/PDF说是先用Ghost脚本转成图片,然后直接转成文字。我不相信tesseract会将不可搜索的PDF转换为可搜索的PDF。ConvertingsearchablePDFtoanon-searchablePDF上述解决方案有

python - 如何从重命名脚本中提取 PDF 文档的标题?

我的电脑里有几千个PDF文件,文件名从a0001.pdf到a3621.pdf,每个里面都有一个标题;例如a0001.pdf中的“碳酸铝”、a0002.pdf中的“硝酸铝”等,我想提取它们以重命名我的文件。我用这个程序重命名一个文件:path=r"C:\Users\YANN\Desktop\..."old='string1'new='string2'defrename(path,old,new):forfinos.listdir(path):os.rename(os.path.join(path,f),os.path.join(path,f.replace(old,new)))renam

python - 如何从重命名脚本中提取 PDF 文档的标题?

我的电脑里有几千个PDF文件,文件名从a0001.pdf到a3621.pdf,每个里面都有一个标题;例如a0001.pdf中的“碳酸铝”、a0002.pdf中的“硝酸铝”等,我想提取它们以重命名我的文件。我用这个程序重命名一个文件:path=r"C:\Users\YANN\Desktop\..."old='string1'new='string2'defrename(path,old,new):forfinos.listdir(path):os.rename(os.path.join(path,f),os.path.join(path,f.replace(old,new)))renam

python - 如何使用 out.write() 将整数值写入文件?

我正在生成一些数字(比方说,num)并使用outf.write(num)将这些数字写入输出文件。但是解释器抛出一个错误:outf.write(num)TypeError:argument1mustbestringorread-onlycharacterbuffer,notint.我该如何解决这个问题? 最佳答案 write()只需要一个单个字符串参数,所以你可以这样做:outf.write(str(num))或outf.write('{}'.format(num))#more"modern"outf.write('%d'%num)#

python - 如何使用 out.write() 将整数值写入文件?

我正在生成一些数字(比方说,num)并使用outf.write(num)将这些数字写入输出文件。但是解释器抛出一个错误:outf.write(num)TypeError:argument1mustbestringorread-onlycharacterbuffer,notint.我该如何解决这个问题? 最佳答案 write()只需要一个单个字符串参数,所以你可以这样做:outf.write(str(num))或outf.write('{}'.format(num))#more"modern"outf.write('%d'%num)#

python - Python 中的 Pdf 类似 Jinja

我正在寻找Python中最准确的PDF工具,其工作方式类似于Jinja对HTML的工作方式。你有什么建议? 最佳答案 正如jbochi所回答的,ReportLab是几乎所有生成PDF的Python项目的基础。但根据您的需要,您可能需要查看Pisa/xhtml2pdf.您将使用Jinja模板生成HTML,然后使用Pisa将HTML转换为PDF。Pisa建立在ReportLab之上。编辑:我忘记的另一个选项是wkhtmltopdf 关于python-Python中的Pdf类似Jinja,我们

python - Python 中的 Pdf 类似 Jinja

我正在寻找Python中最准确的PDF工具,其工作方式类似于Jinja对HTML的工作方式。你有什么建议? 最佳答案 正如jbochi所回答的,ReportLab是几乎所有生成PDF的Python项目的基础。但根据您的需要,您可能需要查看Pisa/xhtml2pdf.您将使用Jinja模板生成HTML,然后使用Pisa将HTML转换为PDF。Pisa建立在ReportLab之上。编辑:我忘记的另一个选项是wkhtmltopdf 关于python-Python中的Pdf类似Jinja,我们

.netCore后台将数据生成为PDF文件

几种常见的操作文档的方式OLEDB        把整个Excel文件当做一个数据源来进行数据的读取操作。优点:实现方式简单,读取速度快。缺点:读取Excel数据的过程不太灵活,对内存的占用比较高,当数据量变的很大时,容易由于内存空间不足导致内存溢出异常。COM组件通过COM组件Microsoft.Office.Interop.Excel.dll实现Excel文件的操作。优点:读取Excel数据非常灵活,可以实现Excel具有的各种数据处理功能。缺点:对数据的访问时基于单元格方式实现的,所以读写数据较慢,特别是当数据量较大时,访问效率问题更为突出。另一点是要求本机安装了Office组件。NPO