草庐IT

pdf-viewer

全部标签

python - 从 PDF 文件中提取标题?

我想写一个脚本来自动重命名下载的论文及其标题,我想知道是否有任何库或技巧我可以利用?PDF都是由TeX生成的,应该有一些“正式”的结构。 最佳答案 您可以尝试使用pyPdf和thisexample.例如:frompyPdfimportPdfFileWriter,PdfFileReaderdefget_pdf_title(pdf_file_path):withopen(pdf_file_path)asf:pdf_reader=PdfFileReader(f)returnpdf_reader.getDocumentInfo().titl

python - 使用 Scrapy 从网站查找和下载 pdf 文件

我的任务是使用Scrapy从网站上提取pdf文件。我对Python并不陌生,但Scrapy对我来说是一个非常新的东西。我一直在试验控制台和一些基本的蜘蛛。我找到并修改了这段代码:importurlparseimportscrapyfromscrapy.httpimportRequestclasspwc_tax(scrapy.Spider):name="pwc_tax"allowed_domains=["www.pwc.com"]start_urls=["http://www.pwc.com/us/en/tax-services/publications/research-and-ins

python - 如何从PDF中提取格式化的文本内容

如何从PDF中提取文本内容(而非图像),同时(大致)保持Google文档那样的样式和布局? 最佳答案 要从PDF中提取文本并获取其位置,您可以使用PDFMiner.PDFMiner还可以直接以HTML格式导出PDF,将文本保持在合适的位置。我不知道您的用例,但是执行此操作时您会遇到很多问题,因为PDF确实是面向演示而不是面向内容的,文本流不是连续的。所以,如果你想让文本可以编辑,那可不是一件容易的事。 关于python-如何从PDF中提取格式化的文本内容,我们在StackOverflow

python - 如何使用 Python 或 R 将 Excel 中带有替代文本的图形导出为 PDF?

我使用VBA在Excel中生成了大约500个图表,我需要将它们导出为pdf。这些图表有替代文本,使盲人可以访问它们。当我使用VBA(ExportAsFixedFormat)生成pdf时,pdf中将丢失替代文本。python或R中是否有代码将图形从excel转换为pdf并保留替代文本?如果我手动将图表保存为pdf,替代文本将与图表一起保存在pdf文件中。但是,由于我的图表太多,所以能够自动执行此操作会很好。ActiveSheet.ExportAsFixedFormatType:=xlTypePDF,Filename:=PdfFileName,_Quality:=xlQualityStan

python - 将XHTML转换为PDF的纯python解决方案

我正在寻找一个纯Python解决方案(用于GAE)将网页转换为pdf。我看过reportlab但文档侧重于从头开始生成pdf,而不是从HTML转换。您有什么建议?-pisa?编辑:我的用例是我有一个HTML报告,我也想以PDF格式提供。我将更新此报告结构,因此我不想维护单独的PDF版本,但(希望)自动转换。此外,因为我生成了报告HTML,所以我可以确保它是格式正确的XHTML,从而使PDF转换更容易。 最佳答案 Pisa声称支持我想做的事情:pisaisahtml2pdfconverterusingtheReportLabToolk

python - 如何使用 PDFMiner 获取 PDF 中文本的位置?

这个问题在这里已经有了答案:HowtoextracttextandtextcoordinatesfromaPDFfile?(4个答案)关闭上个月。PDFMiner的文档说:PDFMinerallowsonetoobtaintheexactlocationoftextinapage但是,我一直没能找到如何做到这一点。PDFMiner的“文档”相当稀疏,所以我不明白如何做到这一点。

html - 为什么 WebView 的 dataWithPDFInsideRect 不能在 Mavericks 上创建高质量的 PDF?

运行sampleproject并观察在名为SaveWebPage.pdf的桌面上生成的输出PDF粘贴感兴趣的代码片段NSURL*url=[[NSBundlemainBundle]URLForResource:@"Page"withExtension:@"html"];NSURLRequest*req=[NSURLRequestrequestWithURL:url];[[self.webviewmainFrame]loadRequest:req];NSView*view=[[[self.webviewmainFrame]frameView]documentView];NSData*dat

javascript - 如何检测 PDF 数据对象是否在 html 对象中加载/播放/有效

我的目标是检测PDF对象的存在(或)在PDF显示/加载失败时验证PDF/流。尝试了不同的可用/建议解决方案,但没有任何效果。非常感谢任何实现这些目标的建议(检测PDF对象的存在(或)如果PDF显示/加载失败则验证PDF/流。)这是我用来在我的页面上显示PDF的示例代码。在显示JSP时:Oops,youhavenopdfviewerenabled.在处理JSP中:StringpdfData="somedatainbase64encodedstream"byte[]byteArr=pdfData.getBytes();byteArr=Base64.decodeBase64(byteArr)

javascript - 当浏览器请求部分内容范围请求时,如何检测 pdf 何时加载到 iframe 中?

我想检测pdf何时加载,但是当浏览器在Chrome40中请求具有部分内容范围请求的pdf时,jQuery.load()事件永远不会触发。我想在pdf加载后触发浏览器print()函数。如果pdf足够小,浏览器不会请求范围,但对于较大的pdf,我如何检测pdf加载?functiondownload(src){variframe;functioncheck(){console.log('checking..');if(iframe.contentWindow&&iframe.contentWindow.document&&iframe.contentWindow.document.body

html - 使用 python pdfkit 生成的 pdf 文件没有可点击的链接?

html文件看起来像Phone:+00-0000000E-mail:zsameem@gmail.comGithub:www.github.com/zsameem生成pdf的代码很简单:importpdfkitpdfkit.from_file('mypage.html','mypdf.pdf;') 最佳答案 您是否按照安装说明中的说明安装了wkhtmltopdf?https://pypi.python.org/pypi/pdfkit这似乎是使用pdfkit时经常忽略的一点。 关于html-