草庐IT

pdf-viewer

全部标签

Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本

前言本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主要目标都是:方便提取文件中所有文本的实现方式。这些库的更多使用方法,请到官方文档中查阅。读取PDF文本:PyPDF2importPyPDF2defread_pdf_to_text(file_path):withopen(file_path,'rb')aspdf_file:pdf_reader=PyPDF2.PdfReader(pdf_file)contents_list=[]forpageinpdf_

java - iText – HTML 到 PDF - 图像不显示在 PDF 中

我有一个包含文本、图像的html页面,我正在将HTML内容解析为iText以生成PDF。在生成的PDF中,不显示包含的图像,只显示文本。如果我传递像D:/Deiva/CRs/HTMLPage/article-101-horz.jpg这样的绝对路径,那么图像就会被打印出来。但是如果我尝试像这样从服务器打印图像http://localhost:8085/content/dam/article-101-h1.jpg或http://www.google.co.in/intl/en_ALL/images/logos/images_logo_lg.gif那么它不会打印在PDF中。注意:我正在使用i

java - PDF 页面的缩略图 (Java)

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用,以及预期结果。另请参阅:StackOverflowquestionchecklist关闭9年前。Improvethisquestion如何使用Java生成PDF文档中页面的缩略图?

java - 即使是最简单的 Jasperreport jrxml 也是空白 PDF

我有一个带有glassfish3.1+JSFforjasperreport4.0.1的EJB站点。该站点在流式传输pdf上没有问题,但是在使用runReportToPdfStream打印PDF时会生成空白PDF,下面是代码片段:EJBpublicclassBookEJB{publicvoidprintReport()throwsClassNotFoundException,IOException,JRException{MapparameterMap=newHashMap();FacesContextctx=FacesContext.getCurrentInstance();HttpS

java - 将 PDF 文件转换为图像

我想将PDF文档转换为图像。我使用的是Ghost4j。问题:Ghost4J在运行时需要gsdll32.dll文件,而我不想使用该dll文件。问题一:有什么办法,在ghost4j中可以不用dll转成图片吗?问题2:我在PDFBoxAPI中找到了解决方案。org.apache.pdfbox.pdmodel.PDPagep具有将PDF页面转换为图像格式的方法convertToImage()`。PDDocumentdoc=PDDocument.load(newFile("/document.pdf"));Listpages=doc.getDocumentCatalog().getAllPage

python - 在 PDF 文件中查找文本位置

我有一个PDF文件,我正在尝试在PDF中查找特定文本并使用Python突出显示它。我找到了PyPDF2,这可以highlightpartofaPDF当我们给出文件中想要的高亮位置的坐标时。我正在尝试找到一种工具,它可以为我提供给定文本在PDF中的位置。 最佳答案 PyMuPDF可以通过坐标查找文本。您可以将其与PyPDF2突出显示方法结合使用来完成您所描述的内容。或者你可以usePyMuPDFtohighlightthetext.这是使用PyMuPDF查找文本和突出显示的示例代码:importfitz###READINPDFdoc=

python - 用python生成pdf

我正在尝试开发一个小脚本来生成一个完整的新pdf,主要是文本和表格,结果是文件。我正在寻找最好的方法。我读过有关reportlab的文章,它看起来不错。据我所知,它只有一个缺点。没有商业版的模版很难写,而且代码看起来也很难维护。所以我搜索了一个更充分的方法并找到了xhtml2pdf,但是这个软件很旧,不能生成超过两页或更多的表格。我想到的最后一个解决方案是使用模板框架生成一个tex文件,然后调用pdftex作为子进程。我会实现最后一个,然后再检查一下LateX。你会这样做吗,你有更好的想法吗? 最佳答案 我建议使用LaTeX方法。它

python - xhtml2pdf Pisa css 损坏无功能

我正在尝试使用Django使用xhtml2pdf.pisa使用html+css生成PDF。但是,我遇到了CSS的各种奇怪问题。下面是我的代码:fromdjango.template.loaderimportrender_to_stringimportcStringIOasStringIOimportxhtml2pdf.pisaaspisaimportcgi,osdeffetch_resources(uri,rel):path=os.path.join(settings.STATIC_ROOT,uri.replace(settings.STATIC_URL,""))returnpathd

【笑小枫的SpringBoot系列】【十六】SpringBoot生成PDF

关于笑小枫💕Hello,我是笑小枫,欢迎来到我的世界,喜欢的朋友关注一下我呦,大伙的支持,就是我坚持写下去的动力。笑小枫个人博客:https://www.xiaoxiaofeng.com本文源码:https://github.com/hack-feng/maple-demo本文简介本文主要介绍了在SpringBoot项目下,通过代码和操作步骤,详细的介绍了如何操作PDF。希望可以帮助到准备通过JAVA操作PDF的你。项目框架用的SpringBoot,但在JAVA中代码都是通用的。本文涉及pdf操作,如下:PDF模板制作基于PDF模板生成,并支持下载自定义中文字体完全基于代码生成,并保存到指定目

Python3 Django -> HTML 到 PDF

有很多不同的方法可以从python2中的django网页生成pdf。最干净的可能是pisa和reportlab。但是这些不适用于python3。到目前为止,我唯一成功的方法是呈现模板,将其写入文件,然后通过subprocess.popen使用wkhtmltopdf。这工作正常,但它不会加载我的任何静态文件,例如css和图像。有什么好的解决办法吗?wkhtmltopdf可以从命令行以某种方式读取我的静态文件,还是有像pisa/reportlab这样支持python3的库?我没能找到这样的图书馆 最佳答案 你可以使用Weasyprint