草庐IT

write_pdf

全部标签

python - 这是什么(cid :51) in the output of pdf2txt?

所以我想从pdf文件中提取文本,我需要它的位置、宽度、高度、字体。我已经尝试了很多,但最有用和最完整的解决方案看起来是PDFMiner,在这种情况下,更准确地说是pdf2txt.py.我已经按照文档和示例进行操作,并尝试使用以下命令从我的pdf中提取文本了解更多:pdf2txt.py-Ynormal-txml-obuttons.xmlbuttons.pdf输出buttons.xml如下所示:(cid:51)(cid:76)(cid:72)(cid:89)(cid:85)(cid:3)(cid:52)(cid:86)(cid:89)(cid:76)第一个字符应该是L和51(cid:51)

python - 初学者 Python : Reading and writing to the same file

一周前开始使用Python,我有一些关于读取和写入相同文件的问题要问。我已经在线浏览了一些教程,但我仍然对此感到困惑。我能看懂简单的读写文件。openFile=open("filepath","r")readFile=openFile.read()printreadFileopenFile=open("filepath","a")appendFile=openFile.write("\nTest123")openFile.close()但是,如果我尝试以下操作,我在写入的文本文件中会得到一堆未知文本。任何人都可以解释为什么我会收到这样的错误以及为什么我不能按照下面显示的方式使用相同的o

vue 实现 pdf 预览功能

1技术背景1.1Vue.js简介和特点Vue.js是一种用于构建用户界面的渐进式框架。它具有以下特点:易学易用:Vue.js的API设计简单直观,使得开发者可以快速上手。响应式数据绑定:Vue.js使用了响应式的数据绑定机制,当数据发生变化时,页面会自动更新。组件化开发:Vue.js支持组件化开发,将界面拆分为多个独立可复用的组件,提高代码的可维护性和复用性。虚拟DOM:Vue.js使用虚拟DOM技术,在内存中维护一个虚拟的DOM树,通过比较新旧DOM树的差异,最小化操作真实DOM的次数,提升性能。1.2PDF.js库简介和功能概述PDF.js是一个由Mozilla开发的JavaScript库

python - 使用 Python 将 Pandas DataFrame 导出为 PDF 文件

在Pandas中为数据框生成PDF的有效方法是什么? 最佳答案 首先使用matplotlib绘制表格,然后生成pdfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfrommatplotlib.backends.backend_pdfimportPdfPagesdf=pd.DataFrame(np.random.random((10,3)),columns=("col1","col2","col3"))#https://stackoverflow.com/ques

Python静默打印PDF到特定打印机

我有一个PDF文档,我想用我的python应用程序打印它。我已经尝试了here(PrintPDFdocumentwithpython'swin32printmodule?)中的解决方案但是当我安装实际版本的Ghostscript9.15时,它没有gsprint.exe我使用的方法是使用命令os.startfile('PDFfile.pdf',"print")但它会打开默认查看器(我的是Adob​​eReader)并在打印后仍然打开,试图用os.system("TASKKILL/F/IMAcroRD32.exe")杀死进程会杀死其他打开的窗口,我不想要它。使用下一个命令,它也打印,但它也

python - Matplotlib 子图图 - savefig() 不会输出 PDF。 "NoneType"错误

以下是我正在编写的代码的精简版本,用于制作包含多个子图的图形。问题出现在最后一行,fig.savefig("foo"+".pdf",format='pdf')。我收到以下错误:AttributeError:"'NoneType'objecthasnoattribute'print_figure'"谁能告诉我这是怎么回事?谢谢!importmatplotlib.pyplotaspltfrompdbimportset_traceasstimportnumpyasnpTime=np.array([0,1,2,3,4])Load=np.array([1,2,3,4,5])Cell=np.arr

python - Pandas to_csv : suppress scientific notation in csv file when writing pandas to csv

我正在将pandasdf写入csv。当我将其写入csv文件时,其中一列中的某些元素被错误地转换为科学记数法/数字。例如,col_1中有'104D59'等字符串。字符串在csv文件中主要表示为字符串,因为它们应该如此。但是,偶尔出现的字符串(例如'104E59')会被转换为科学记数法(例如1.04E61)并在随后的csv文件中表示为整数。我正在尝试将csv文件导出到一个软件包中(即pandas->csv->software_new),这种数据类型的变化导致导出出现问题。有没有办法将df写入csv,确保df['problem_col']中的所有元素在生成的csv中都表示为字符串或不转换为科

python - 以编程方式更改PDF中文本的字体颜色

我根本不熟悉PDF规范。我想知道是否可以直接操作PDF文件,以便我认为重要的某些文本block以我选择的颜色突出显示。选择的语言是python。 最佳答案 这是可能的,但不一定容易,因为PDF格式非常丰富。您可以找到详细描述它的文档here.它给出的关于PDF如何显示文本的第一个基本示例是:BT/F1312Tf288720Td(ABC)TjETBT和ET是开始和结束文本对象的命令;tf是使用外部字体资源F13(恰好是Helvetica)的命令,大小为12;td是将光标定位在给定坐标的命令;Tj是为前一个字符串写入字形的命令。这种风格

python - Reportlab:如何向 pdf 文件添加页脚

我已经问过这个question但目前还没有答案,所以我想看看Reportlab,它似乎正在积极开发并且比fpdfpython库更好。我已经看过这个question给出的答案似乎或多或少与此相同blogpost.无论如何,显示的脚本充满了错误,但我不想否决它,OP接受了它,似乎解决了他的问题,我要争论谁,我宁愿问另一个问题。首先你需要导入fromreportlab.pdfgen.canvasimportCanvas而且它不是canvas,它是Canvas然后你不能只做Canvas.restoreState()或Canvas.saveState()也许还有更多的错误,我宁愿使用另一个例子。

python - 使用 R 抓取 PDF

我一直在成功地使用XML包来提取HTML表格,但想扩展到PDF。从以前的问题来看,似乎没有简单的R解决方案,但想知道最近是否有任何进展如果做不到这一点,Python中是否有某种方法(我是一个完全的新手)获得并处理pdf,以便我可以使用RXML包完成工作 最佳答案 从PDF中提取文本很困难,而且几乎总是需要非常小心。我将从pdftotext等命令行工具开始,看看它们输出了什么。问题是PDF可以按任何顺序存储文本,可以使用笨拙的字体编码,并且可以做一些事情,比如使用连字字符(你在正确排版中看到的连接的'ff'和'ij')让你失望。pdf