草庐IT

xhtml2pdf

全部标签

xml - 如何将外部 OCR 嵌入到现有 PDF 中?

我有一组图像,我在这些图像上运行OCR应用程序。此过程会生成具有字符偏移量的XML文件。然后我使用Acrobat9将图像转换为PDF。现在,我想将XML文件信息作为不可见的文本层添加到PDF中,以实现可搜索的PDF。有没有简单又免费的方法?一些细节:我不想使用Acrobat的OCR功能;OCR过程生成一个XML文件,其中包含如下元素:Thisisasamplelineoftextfromanimage更新:也许可以用不同的方式做我想做的事。假设已经有一个从一组图像生成的PDF文件,并且已经包含OCRed文本。是否可以(也许以编程方式)仅访问每个页面的图像,对其进行处理(例如,将其转换为

python - 使用 lxml 生成 XHTML 文档的推荐方法

Python库lxml似乎提供了几个用于生成HTML文档的构建器。它们之间有什么区别?但是这些生成纯HTML,而不是XHTML。虽然我可以手动添加xmlns声明,但这并不优雅。那么使用lxml生成XHTML文档的推荐方法是什么?lxml.builder.E示例来自http://lxml.de/tutorial.html#the-e-factory:>>>fromlxml.builderimportE>>>defCLASS(*args):#classisareservedwordinPython...return{"class":''.join(args)}>>>html=page=(.

xml - 从 XML 生成高质量 PDF 的最佳方法是什么?

我正在考虑从XML源创建高质量PDF,作为在线相册创建工具的输出。从手动创建PDF(iText、PdfSharp等)到PrinceXML再到xsl-fo工具,有数百种选项可用于完成此任务。以下是我希望支持的一些功能:强制支持全出血PDF多格式页面组合支持封套、书脊打印、全幅图形+文本非标准页面尺寸重叠图形元素自定义字体交叉折叠布局支持——双页展开300-600dpi图像支持真正的所见即所得/可靠、可预测的输出(即从源Material到PDF的像素完美转换)margin控制颜色配置文件嵌入Unicode支持绝对定位布局元素可选支持相对布局元素图片(CMYK、RGB)HTTP字体断字支持裁

asp.net - 使用 xml 数据合并/填充 pdf 表单文件

假设我在网站上有一个pdf表单文件,由用户填写并提交给服务器。在服务器端(Asp.Net),我想将我收到的xml格式的数据与填写的空pdf表单合并并保存。我发现有几种可能的方法:使用adobeacrobat创建的pdf表单并用itextsharp填充它。使用adobeacrobat创建的pdf表单并用FDFToolkit.net填充它(它似乎在内部使用itextsharp)使用pdfkt填写表格。使用adobelivecycle创建的pdf表单文件并使用FormDataIntegrationService合并数据由于我没有完成此类任务的经验,您能否建议哪个选项更好/更容易并提供一些额外

.net - 解析具有未定义实体的 XHTML 文档

在使用Python编码时,如果我必须加载带有未定义实体的XHTML文档,我会创建一个解析器并更新实体字典(即nbsp):importxml.etree.ElementTreeasETparser=ET.XMLParser()parser.entity['nbsp']=' 'tree=ET.parse(opener.open(url),parser=parser)我尝试使用VB.Net将XHTML文档解析为LinqXDocument:DimxAsXDocument=XDocument.Load(url)引发了XmlException:Referencetoundeclare

.net - 使用 XLINQ 解析 XHTML 文件的库

当我意识到我需要为大约50个XHTML页面创建一个索引,这些页面可能会在将来被添加/删除/重命名/移动时,我想“没问题——我将使用LINQ编写一个快速索引生成器来XML,因为XHTML绝对算作XML”。当然,当我尝试运行它时,我发现了XLINQ在像 这样的XHTML实体上阻塞的事实。我使用以下算法解决了这个问题:将XHTML文件读入字符串。对该字符串使用正则表达式搜索和替换,将一个部分添加到定义所有相关实体的DOCTYPE中(因为我只关心我读取的文件中的“title”属性,而我的输出文件现在不使用任何实体,它只是将它们全部设置为空白,但我稍后可能会添加实际值)。将结果解析为XDocum

c# - 在 C# 中从 XML XSLT 创建 PDF 的最佳方式

我需要创建XML记录的PDF。我认为没有办法直接从xml创建pdf但使用XSLT或XSLFO我相信它可以完成。我一直在阅读大量文章,寻找使用C#执行此操作的好方法。-->在此期间最好的方法是什么?任何例子都会很棒。我的场景:我的XML看起来像:我如何创建一个包含显示所有这些信息的表格的pdf?我知道有很多类似的问题,但其中大部分都已过时。非常感谢任何帮助。 最佳答案 过去我使用过一个名为IbexPDFCreator的商业图书馆使用非常有效的XSL-FO标准从XML数据生成PDF文档。这是我将如何使用它的示例:XML数据:XSL-FO

xml - 多个 XML 到 PDF : best approach

我有一些用于生成我的网页的XML文件,但是我需要能够允许用户选择多个页面,然后将它们组合成一个PDF。此PDF需要与实际网页具有不同的样式(内容保存在XML文件中;))。附注PDF必须有目录......并且将包括从网站上截取的图像。 最佳答案 您将使用像iText或iTextSharp这样的库使用您的内容构建PDF。 关于xml-多个XML到PDF:bestapproach,我们在StackOverflow上找到一个类似的问题: https://stackov

xml - 为什么将 XML 转换为 pdf 如此困难?

谁能向我解释为什么从xml表创建pdf文件如此复杂?Acrobat可以创建XML文件,但是当我想以其他方式执行此操作时,它突然变得复杂起来。我想找到一些简单的应用程序,它可以让我用xml创建一个pdf文件。可能吗? 最佳答案 XML是一堆配料,PDF是成品。会做饭的人可以使用相同的食材制作出各式各样的饭菜。有了土bean,他可以做汤、土bean泥、薯片、炸薯条……几乎有无穷无尽的可能性。不会做饭的人会盯着土bean想:我到底怎样才能把这种丑陋的蔬菜变成美味的炸肉饼?答案是:您需要一份食谱。该配方可以是XSL:FO文件、XHTML规范

xml - 链接上的 namespace 前缀 xhtml 未定义 - sitemap.xml

我正在尝试将语言添加到我的sitemap.xml文件中,但我收到“未定义链接上的命名空间前缀xhtml”错误。我如何定义它?我在谷歌上找不到任何有用的东西。这是文件:https://www.leepio.dk/ 最佳答案 这样就可以了。改变解释定义xmlns:xhtml给定的。映射xmlns:xhtml到存储架构的地方http://www.w3.org/2002/08/xhtml/xhtml1-strict.xsd. 关于xml-链接上的namespace前缀xhtml未定义-sitem