草庐IT

write_pdf

全部标签

如何使用PDFBox删除可选内容组与PDF的内容?

我已经实现了从PDF删除图层的功能,但是问题是,我在图层上绘制的内容没有被删除。在这里,我用来删除该图层的代码:PDDocumentCatalogdocumentCatalog=doc.getDocumentCatalog();PDOptionalContentPropertiesocgProps=documentCatalog.getOCProperties();PDOptionalContentGroupocg=ocgProps.getGroup(markupLayerName);COSDictionaryocgsDict=(COSDictionary)ocgProps.getCOSObj

java - 使用 open office 将 excel (.xlsx) 转换为 pdf (.pdf) 时缺少工作表和页面大小问题

我已经使用JodConverter和Open-Office创建了一个应用程序,用于将excel(.xlsx)转换为PDF,应用程序运行良好,但我面临两个问题输出的PDF页面为A4大小,因为某些工作表内容已被切掉。因为我希望Excel的每个工作表无论大小都像一页一样完整。缺少工作表的数量,如果我的excel有8个工作表,我在PDF输出中只得到两个或三个即使我们尝试直接从open-office转换为pdf,它也会出现上述类似问题Excel文件-ss1.xlsx输出PDF-work.pdf谁能告诉我一些解决办法我的代码如下publicclassMyConverter{publicstatic

[python]将多张图片合并为单个pdf文件

前言最近有个个人需求是要把多个图片文件合并为一个PDF文件,这样方便用PDF阅读器连续看,避免界面点一下,只会图片放大。(比如看漫画)主要思路是先把单张图片转换成单个PDF文件,然后把PDF文件进行合并。原先是用WPS的转换工具做的,但WPS每次只能批量转换30张,如果有大量图片文件,用WPS就不太方便了。现成的工具找不到,索性自己整一个。python的pillow库和pypdf2库就可以实现这样的需求。安装依赖库本地的python版本为3.11。注意pypdf2升级到3.0版本后,一些类和方法和版本2有些区别。python-mpipinstallPyPDF2==3.0.1pillow==10

java - 如何使用 Java PDFBox 2.0.8 库创建可访问的 PDF,该库也可使用 PAC 2 工具进行验证?

背景我在GitHub上有一个小项目,我正在尝试创建一个符合第508节(section508.gov)的PDF,它在复杂的表格结构中包含表单元素。推荐用于验证这些PDF的工具位于http://www.access-for-all.ch/en/pdf-lab/pdf-accessibility-checker-pac.html。我程序的输出PDF确实通过了大部分检查。我还将知道每个字段在运行时的含义,因此向结构元素添加标签应该不是问题。问题PAC2工具似乎对输出PDF中的两个特定项目有问题。特别是,我的单选按钮的小部件注释没有嵌套在表单结构元素中,我标记的内容没有标记(文本和表格单元格)。

java - 如何使用 PDFBOX 加载受密码保护的 PDF 表单

如何使用PDFBOX加载受密码保护的PDF表单我有一小段代码可以加载未protectedPDF表单PDDocumentpdfDoc;pdfDoc=PDDocument.load(filePath);谁能帮帮我..谢谢 最佳答案 试试这个代码:privatevoidopenPDFDoc(finalFilepdfFile)throwsException{FileoriginalPDF=pdfFile;PDFParserparser=newPDFParser(newBufferedInputStream(newFileInputStrea

java - 如何自动将pdf表单域导出到xml

我有一个包含表单字段的pdf文件,需要自动将数据导出到xml文件中。这是我为测试创建的示例表单的屏幕:注意:通过单击工具>表单>导出表单数据使用AcrobatProfessional手动导出它效果很好,最后选择xml扩展名作为文件输出。这是我手动导出时得到的结果:JohnDoe但是,我需要将其自动化,例如使用python脚本、Java实现或一些命令行工具。我可以使用哪些库或工具将表单字段数据导出到xml?工具或库应该开源,以便我可以将其集成到我的工作流程中。我已经尝试过pythonpdfminer库,它帮助我导出静态部分(如Staticformheader、Firstname:和Las

java - 如何使用pdfbox在pdf中添加超链接

我想在使用PDFBOX创建的PDF中添加一个超链接,这样我单击某些文本示例“单击此处”将重定向到URL。我尝试使用PDAnnotationLink和PDActionURI,但如何将其添加到contentstream中?PDBorderStyleDictionaryborderULine=newPDBorderStyleDictionary();borderULine.setStyle(PDBorderStyleDictionary.STYLE_UNDERLINE);PDAnnotationLinktxtLink=newPDAnnotationLink();txtLink.setBord

java - 使用 ITextRenderer 从具有非拉丁字符的 HTML 生成 PDF 不起作用

这是我调查的第2天,但没有结果。至少现在,我可以问一些非常具体的问题。我正在尝试使用iText在PDF文件中编写包含一些非拉丁字符的有效HTML代码更具体地说,使用来自FlyingSaucer的ITextRenderer.我的简短示例/代码首先使用此值初始化字符串变量doc:Stringdoc=""+"Somegreekcharacters:ΚαλημέραSomegreekcharacters"+"";这是我用于调试目的的代码。我将这个字符串保存到HTML文件,然后通过浏览器打开它,只是为了仔细检查HTML内容是否有效,我仍然可以阅读希腊字符://writefordebuggingp

seo - 我们可以阻止 googlebot 抓取旧的 pdf 网址吗

在我的站点中,有一个链接到PDF的按钮。假设按钮上的当前pdf网址是http://www.abc.come/wp-content/uploads/2016/09/xyz.pdf这个url谷歌机器人已经抓取了。现在晚些时候管理员从管理员上传新的pdf比方说http://www.abc.come/wp-content/uploads/2016/09/xyz-latest.pdf并更新按钮上的url。问题是googlebot仍在使用xyz.pdf抓取旧url并在网站管理员工具中给出404。我们怎样才能让googlebot停止抓取旧的url而抓取新的。谢谢。 最佳答

seo - 在谷歌上找到自己的PDF文件

我需要查找在我的一个网站上是否以及有多少PDF文档被谷歌索引。到目前为止,我没有运气。有什么方法可以“要求”谷歌只显示从我的网站索引的PDF文档吗?谢谢你。 最佳答案 试试这个搜索查询:site:yoursite.comfiletype:pdf 关于seo-在谷歌上找到自己的PDF文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/33165582/