草庐IT

ruby - 使用 Nokogiri(而不是 Tidy)清理 HTML

tidygem不再维护并且存在多个内存泄漏问题。有些人建议使用Nokogiri。我目前正在使用以下方法清理HTML:Nokogiri::HTML::DocumentFragment.parse(html).to_html不过我有两个问题:Nokogiri删除了DOCTYPE有没有一种简单的方法可以强制清理后的HTML具有html和body标签? 最佳答案 如果您正在处理完整文档,您需要:Nokogiri::HTML(html).to_html这将强制html和body标签,并引入或保留DOCTYPE:putsNokogiri::HT

javascript - 是否有类似于 HTML Tidy for Javascript 的 Windows 实用程序?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭7年前。Improvethisquestion我想清理一些javascript文件并用漂亮的缩进等重新格式化它们,是否有实用程序在Windows下执行此操作的建议?

HTML 整洁 : how to set 'force-output' to 'yes' ?

我在Windows的命令行环境中使用HTMLTidy。我需要强制将一些html文件转换为xml,即使有错误也是如此。我执行以下步骤:创建文件“conf.txt”,其内容为:强制输出:是输入以下命令行:tidy-configconf.txt-ofilename.xmlfilename.htm但是,没有生成“filename.xml”。请注意,在http://infohound.net/tidy/tidy.pl使用tidy的在线版本时,我能够从同一个“坏”HTML文件中获取输出XML文件。.我做错了什么? 最佳答案 我想出了一个办法:t

ruby - 如何整理 ruby​​ 中格式错误的 xml

我在整理格式错误的XML代码时遇到问题我从SEC'sedgardatabase返回.出于某种原因,它们的xml格式非常糟糕。包含任何类型字符串的标签不会被关闭,它实际上可以在其他标签中包含其他xml或html文档。通常我会把这个关闭到Tidy但这并没有得到维护。我尝试过使用Nokogiri::XML::SAX::Parser,但由于标签未关闭,这似乎令人窒息。它似乎工作正常,直到它到达第一个结束标签,然后它不再触发它们。但它会吐出正确的字符。classFiling这似乎是最好的选择,因为我可以让它忽略其他xml或html文档。这也是最有意义的,因为其中一些文档可能会变得非常大,因此将整

xml:如何缩进子元素但将属性保留在新行上

我有一个xml如下。]>我需要缩进子元素,将xml文件的其余部分保持原样(即不应删除dtd部分和实体,并且属性应位于新行上)。xml最终应如下所示:]>我尝试过使用xmllint和tidy。xmllint正在缩进子元素,但它不会在新行中保留属性。另一方面,tidy可以选择将属性保留在新行中,但它无法缩进子元素。我也尝试过使用perl正则表达式。这可能可以通过XSLT来完成,但我并不精通它。 最佳答案 在我看来XML::Twig的xml_pp实用程序几乎可以用它的indented_a选项做你想做的事:$xml_pp-sindented

xml - 整洁的标签后没有换行符

您好,我有以下输入:Hiyou我想将其视为XML。我使用以下选项在cmd行上运行Tidy:input-xml:yesoutput-xml:yesindent:no我的输出是这样的:Hiyou但是我希望tidy不要漂亮地打印xml。我希望它尊重所有空白,而不是添加换行符。我似乎无法找到一种无需pretty-print即可输出XML的方法。有人知道怎么做吗? 最佳答案 我遇到了同样的问题。我找到了一个可能的解决方案并将其发布在PHPTidyremoveswhitespaceandinsertsnewlines总结是:把-围绕要修复的xm

python - 纯 Python Tidy 类应用程序/库

我正在寻找一个像Tidy一样工作的纯Python库。请指教。谢谢。 最佳答案 使用ElementTreeTidyHTMLTreeBuilder. 关于python-纯PythonTidy类应用程序/库,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/1113421/

c# - 正则表达式从字符串中删除 xml 声明

首先,我知道这是一个糟糕的解决方案,我不应该这样做。背景:随意跳过但是,我需要快速修复实时系统。我们目前有一个数据结构,它通过一系列字符串构建器创建“xml”片段,将自身序列化为一个字符串。我很怀疑这是否是有效的XML。创建此xml之后,在通过消息队列发送它之前,一些清理代码会在字符串中搜索出现的xml声明并将其删除。这样做的方式(迭代每个字符为执行indexOf)非常慢,它会导致线程超时并杀死我们的系统。最终我会尝试正确地解决这个问题(使用xml文档或类似的东西构建xml)但是今天我需要一个快速修复来替换那里的东西。请记住,我知道这远非理想的解决方案,但我需要快速修复以让我们恢复正常

java - JTidy Node.findBody() — 如何使用?

我正在尝试使用JTidy进行XHTMLDOM解析,这似乎是一项相当违反直觉的任务。特别是,有一种解析HTML的方法:NodeTidy.parse(Reader,Writer)为了获得那个节点的,我想,我应该使用NodeNode.findBody(TagTable)我应该从哪里获得该TagTable的实例?(构造函数protected,我还没找到工厂生产。)我使用JTidy8.0-SNAPSHOT。 最佳答案 我发现有很多更简单的方法来提取body:tidy=newTidy();tidy.setXHTML(true);tidy.set

windows - clang-tidy 在 Windows 上使用 MSVC2015

我尝试使用clang-tidy在Windows上-到目前为止还没有成功。作为先决条件,我已经安装了LLVM3.9.1。我的普通编译器是MSVC2015,我的构建系统是QBS1.7.2。使用QBS我生成了compile_commands.json.当然,该文件包含MSVC2015cl.exe标志/参数。以下是显示一个文件条目的摘录:{"arguments":["C:/Programs/MVS14/VC/bin/amd64/cl.exe","/nologo","/c","/EHsc","/Zi","/MDd","/IC:\\some_ci_job_folder\\src\\some_com