pdf-viewer_草庐IT

python - 从 PDF 文件中提取标题？

我想写一个脚本来自动重命名下载的论文及其标题，我想知道是否有任何库或技巧我可以利用？PDF都是由TeX生成的，应该有一些“正式”的结构。最佳答案您可以尝试使用pyPdf和thisexample.例如:frompyPdfimportPdfFileWriter,PdfFileReaderdefget_pdf_title(pdf_file_path):withopen(pdf_file_path)asf:pdf_reader=PdfFileReader(f)returnpdf_reader.getDocumentInfo().titl

python - 使用 Scrapy 从网站查找和下载 pdf 文件

我的任务是使用Scrapy从网站上提取pdf文件。我对Python并不陌生，但Scrapy对我来说是一个非常新的东西。我一直在试验控制台和一些基本的蜘蛛。我找到并修改了这段代码:importurlparseimportscrapyfromscrapy.httpimportRequestclasspwc_tax(scrapy.Spider):name="pwc_tax"allowed_domains=["www.pwc.com"]start_urls=["http://www.pwc.com/us/en/tax-services/publications/research-and-ins

python Scrapy response insights pwc

python - 如何从PDF中提取格式化的文本内容

如何从PDF中提取文本内容(而非图像)，同时(大致)保持Google文档那样的样式和布局？最佳答案要从PDF中提取文本并获取其位置，您可以使用PDFMiner.PDFMiner还可以直接以HTML格式导出PDF，将文本保持在合适的位置。我不知道您的用例，但是执行此操作时您会遇到很多问题，因为PDF确实是面向演示而不是面向内容的，文本流不是连续的。所以，如果你想让文本可以编辑，那可不是一件容易的事。关于python-如何从PDF中提取格式化的文本内容，我们在StackOverflow

python PDF section stackoverflow text extract google-docs

python - 如何使用 Python 或 R 将 Excel 中带有替代文本的图形导出为 PDF？

我使用VBA在Excel中生成了大约500个图表，我需要将它们导出为pdf。这些图表有替代文本，使盲人可以访问它们。当我使用VBA(ExportAsFixedFormat)生成pdf时，pdf中将丢失替代文本。python或R中是否有代码将图形从excel转换为pdf并保留替代文本？如果我手动将图表保存为pdf，替代文本将与图表一起保存在pdf文件中。但是，由于我的图表太多，所以能够自动执行此操作会很好。ActiveSheet.ExportAsFixedFormatType:=xlTypePDF,Filename:=PdfFileName,_Quality:=xlQualityStan

中带 python code AlternativeText With r excel vba pdf

python - 将XHTML转换为PDF的纯python解决方案

我正在寻找一个纯Python解决方案(用于GAE)将网页转换为pdf。我看过reportlab但文档侧重于从头开始生成pdf，而不是从HTML转换。您有什么建议？-pisa？编辑:我的用例是我有一个HTML报告，我也想以PDF格式提供。我将更新此报告结构，因此我不想维护单独的PDF版本，但(希望)自动转换。此外，因为我生成了报告HTML，所以我可以确保它是格式正确的XHTML，从而使PDF转换更容易。最佳答案 Pisa声称支持我想做的事情:pisaisahtml2pdfconverterusingtheReportLabToolk

python XHTML section noreferrer HTML google-app-engine pdf

python - 如何使用 PDFMiner 获取 PDF 中文本的位置？

这个问题在这里已经有了答案:HowtoextracttextandtextcoordinatesfromaPDFfile?(4个答案)关闭上个月。PDFMiner的文档说:PDFMinerallowsonetoobtaintheexactlocationoftextinapage但是，我一直没能找到如何做到这一点。PDFMiner的“文档”相当稀疏，所以我不明白如何做到这一点。

PDFMiner python section notice text pdf position

html - 为什么 WebView 的 dataWithPDFInsideRect 不能在 Mavericks 上创建高质量的 PDF？

运行sampleproject并观察在名为SaveWebPage.pdf的桌面上生成的输出PDF粘贴感兴趣的代码片段NSURL*url=[[NSBundlemainBundle]URLForResource:@"Page"withExtension:@"html"];NSURLRequest*req=[NSURLRequestrequestWithURL:url];[[self.webviewmainFrame]loadRequest:req];NSView*view=[[[self.webviewmainFrame]frameView]documentView];NSData*dat

高质 dataWithPDFInsideRect strong Mavericks PDF html macos cocoa webview

javascript - 如何检测 PDF 数据对象是否在 html 对象中加载/播放/有效

我的目标是检测PDF对象的存在(或)在PDF显示/加载失败时验证PDF/流。尝试了不同的可用/建议解决方案，但没有任何效果。非常感谢任何实现这些目标的建议(检测PDF对象的存在(或)如果PDF显示/加载失败则验证PDF/流。)这是我用来在我的页面上显示PDF的示例代码。在显示JSP时:Oops,youhavenopdfviewerenabled.在处理JSP中:StringpdfData="somedatainbase64encodedstream"byte[]byteArr=pdfData.getBytes();byteArr=Base64.decodeBase64(byteArr)

中加 javascript 34 section PDF html css jsp

javascript - 当浏览器请求部分内容范围请求时，如何检测 pdf 何时加载到 iframe 中？

我想检测pdf何时加载，但是当浏览器在Chrome40中请求具有部分内容范围请求的pdf时，jQuery.load()事件永远不会触发。我想在pdf加载后触发浏览器print()函数。如果pdf足够小，浏览器不会请求范围，但对于较大的pdf，我如何检测pdf加载？functiondownload(src){variframe;functioncheck(){console.log('checking..');if(iframe.contentWindow&&iframe.contentWindow.document&&iframe.contentWindow.document.body

内容范围 javascript iframe section contentWindow jquery html pdf

html - 使用 python pdfkit 生成的 pdf 文件没有可点击的链接？

html文件看起来像Phone:+00-0000000E-mail:zsameem@gmail.comGithub:www.github.com/zsameem生成pdf的代码很简单:importpdfkitpdfkit.from_file('mypage.html','mypdf.pdf;') 最佳答案您是否按照安装说明中的说明安装了wkhtmltopdf？https://pypi.python.org/pypi/pdfkit这似乎是使用pdfkit时经常忽略的一点。关于html-

可点 python section pdfkit https html html-to-pdf