草庐IT

word_tokenize

全部标签

c# - 如何使用 C# 将 Word 文档(基于 XML)转换为 PDF?

我必须执行一些将Word文档转换为PDF的自动化操作。通过研究,我发现从MicrosoftOffice2007开始,Word文档是基于XML的。此外,我发现有一个免费的解决方案ApacheFOP可以将XML转换为PDF,但是,我仍然没有设法找到使用C#将其自动化的方法。有nFOP(在.NET框架上运行的版本),但是一些关于实现它的详细解释,并不是真的。 最佳答案 你可以使用docx4j.NET这是docx4j的.NET版本,它是一个使用FOP将docx转换为PDF的Java库。参见ConvertOutPDF.java在进行下载等工作

excel - 通过 XML 读取 Word 文档的内容

上下文我正在尝试在Excel中构建一个Word文档浏览器来筛选大量文档(大约1000个)。事实证明,打开word文档的过程相当缓慢(每个文档大约需要4秒,因此在这种情况下,查看所有项目需要2小时,这对于单个查询来说太慢了),即使是禁用所有可能减慢打开速度的东西,因此我打开:只读没有打开和修复模式(这可能发生在某些文档上)禁用文档的显示到目前为止我的尝试这些文档很难浏览,因为有些关键字每次都会出现,但不会出现在相同的上下文中(这不是问题的核心,因为我可以在将文本加载到数组中时处理它)。因此,经常使用的Windows资源管理器解决方案(如link中的)不能用于我的情况。目前,我设法拥有一个

xml - 如何在 MS Word 中制作自定义引用样式?

为了在MSWord中制作自定义引用样式,我按照此网页中的说明进行操作https://msdn.microsoft.com/en-us/vba/word-vba/articles/create-custom-bibliography-styles并遵循此页面中的步骤:https://blogs.office.com/en-us/2009/04/29/bibliography-citations-102-building-custom-styles/这两种方法都不起作用,新样式没有出现在Word的样式列表中,我有word2016。如果有另一种不使用xsl创建自定义样式的方法,我想知道怎么做

html - Word XML - XSLT 到 HTML

我有WordXML文件,我使用XLST文件将其转换为html。我需要在转换过程中将Word中的Wingdings符号转换为Unicode。我的XSLT中有以下代码:☑☒font-family:&#x;&#x;&#x;我的问题是我在MicrosoftWebDeveloperExpress中收到一个错误,跨度block显示十进制数字中的无效字符。关于如何使用unicode符号并将它们正确转换为html的任何想法? 最佳答案 是的,你应该在数字后面加一个分号——否则它们就不是字符实体。至于为什么

xml - 从 str :tokenize() 循环遍历多个序列

我有来自某些硬件的类似传入XML:Item1;Item2;Item332.0;192.2;12.01;4;2我需要像这样转换:Item132.01Item1192.04Item312.02目前我已经尝试过str:tokenize(),但主要问题是构建一个简单的循环。我对XSLT的了解非常基础,我正在进行的工作也差不多到此为止: 最佳答案 一个简单的XSLT2.0样式表,它遍历所有项目并根据当前位置选择相应的价格/数量,可能如下所示:如果您想将XSLT1.0与EXSLT扩展模块strings一起使用,则只需稍微修改样式表:

xml - Word 2007 xml 文档的基本部分

我有一个xml文件,需要用MicrosoftWord2007打开。我自己写的。但是当我尝试打开它时,它显示“某些部分丢失或无效”。我认为发生这种情况是因为我的文档没有定义所有必需的属性。所以我需要知道能够使用Word2007打开xml文档的必备条件是什么。我定义了以下属性。cp:corePropertiesw:settingsw:body(正文有一个简单的文本行。)还需要包括什么?提前致谢。 最佳答案 表示为FlatOPCXML,可以简单到:Helloworld您是否包含关系,但缺少其目标部分?或者在某处包含一个relId,但完全忽

c++ - 64 位 libjingle 无法解析登录 XML 并出现 expat 错误 : ERROR_INVALID_TOKEN

仅在尝试在64位下运行我的登录代码时,我是否无法登录talk.google.com对于我的初步测试。32位工作正常。启用日志记录宏和siginput日志记录后,我可以看到它失败的XML是这样的:\232\231\377在expat内部,我可以看到有一个XML_ERROR_INVALID_TOKEN被抛出,但我不太确定从那里去哪里。有时它会进入实际登录,但不久后就会死掉。它似乎是相对随机的,但总是在前10个左右的响应中死亡。我认识到最后的垃圾数据可能是导致无效token的原因,但我不确定是什么原因导致的。我最初的想法是切换到64位时的编码问题(??),但老实说,我只是不知道什么会导致这样

xml - XSLT 1.0 : How can I format a paragraph over multiple lines whilst keeping a token intact?

我想将一个长句子分成多行,同时在句子末尾保留完整的单词。我的行长为40,所以它应该打印当前单词,如果行长超过40,则它会继续到下一行。所有的分隔符都是空格,我目前没有将单词作为标记检索。这似乎非常困难,因为我仅限于使用XSLT1.0。示例来自:Loremipsumdolorsitamet,consecteturadipiscingelit.Aeneanutmineque,sitamettinciduntmagna.Phaselluseleifendsuscipitneque,atpretiumenimfacilisisnon.Aeneanaornareeros.所需示例:Loremip

Python xml - 处理未关闭的 token

我正在读取数百个XML文件并使用xml.etree.ElementTree解析它们。快速背景只是fwiw:这些XML文件在某一时刻是完全有效的,但不知何故,在历史上处理它们时,我复制/粘贴它们的过程可能已经损坏了它们。(事实证明这是一个冲洗问题/声明未关闭,如果您关心,请参阅我在调查中获得的良好帮助...Pythonshutilcopyfile-missinglastfewlines)。回到这个问题的重点。我仍然想阅读这些有效XML文档的前100,000行左右。这些文件仅缺少6MB文件的最后4或5KB。不过,如前所述,该文件只是“删除”了。它看起来像这样:NQAtlasATLSNYSE

xml - 以@开头的变量名导致错误: Invalid token @ found on line X at column Y

我正在尝试使用来自国家气象服务API(NOAA)的数据来格式化ColdFusion页面。使用以下ColdFusion代码,我可以转储数据。在转储中,我可以使用“@”字符命名节点的XML数据。但是,当您尝试输出值时,ColdFusion不喜欢@符号。例如:#arraylen(alerts.@graph)#导致“在第X行找到无效的标记@...”错误。关于如何解决这个问题有什么想法吗? 最佳答案 使用点符号时,变量名必须遵守CF'svariablenamingrules.特别是:Avariablenamemustbeginwithalet