草庐IT

富文本html

全部标签

java - 当 HTML 文件包含 mdash 时,如何使用 Xerces 避免 SAXParseException?

我正在使用JDK6中的Xerces实现对HTML4.0过渡文档执行XPath查询。使用以下代码:XPathnewXPath=XPathFactory.newInstance().newXPath();XPathExpressionxpathExpr=newXPath.compile(expression);ObjectxPathResult=xpathExpr.evaluate(inputSource,XPathConstants.NODESET);inputSource是从FileInputStream构建的,我收到异常:Causedby:org.xml.sax.SAXParseEx

c# - 如何从 XML 文件中的位置获取文本?

我想解析HTML(您可以假设为XML,通过Tidy转换)并获取所有文本节点(这意味着Body标记中可见的节点)及其在XML文件中的位置。位置表示文本在平面XML文件中的位置。 最佳答案 XmlTextReader实现IXmlLineInfo-如果您查看IXmlLineInfo的文档它给出了一个读取XML文件并报告每个节点位置的示例。编辑:对于那些说它无关紧要的人来说,它很可能与XML无关——但很可能与人类无关。如果您试图告诉人们在XML中的何处查找特定位,报告行号和位置会非常有帮助。 关

python - 如何使用 beautifulsoup 获取原始文本?

我有这样一个xml:www.link1.comwww.link2.com我试过这段代码:fromBeautifulSoupimportBeautifulStoneSoupsoup=BeautifulStoneSoup(results2)#BeautifulSouplinklist=soup.findAll('link')printsoup使用这段代码,输出是[www.link1.com,www.link2.com]但我想要这样的输出[www.link1.com,www.link2.com] 最佳答案 你试过吗:linklist=[e

android - TextView:仅在预览中显示文本,在运行时不显示

这个问题在这里已经有了答案:Canyousetgraphicallayoutpreview-onlytextonaTextView?(2个答案)关闭5年前。有没有办法让文本显示在AndroidStudio的预览Pane中,但在手机上运行时不显示在实际应用程序中?我目前使用android:hint属性,这对于查看TextView需要多少空间或文本的大小非常有用。但是,问题是如果没有文本分配给TextView,提示会显示在应用程序中。有没有办法让文本只在androidstudio中显示而不在运行时显示?

html - HTML,XMLNS, namespace ,XML

我在用nekohtml+dom4j解析html文档时遇到了一些问题。我发现我的xpath表达式不再工作了,因为最近在html源代码中添加了一个新的默认htmlxml名称空间。规格说明:前缀xmlns仅用于声明命名空间绑定并由绑定到命名空间名称的定义http://www.w3.org/2000/xmlns/它必须不申报。其他前缀必须未绑定到此命名空间名称,它不能被宣布为默认命名空间。元素名必须没有前缀xmlns。但在我的html文档中,最近(我猜)在html标记中添加了:xmlns=“http://www.w3.org/1999/xhtml”我找到了两个解决方案:1)删除命名空间:DOM

python - 使用 XPATH 处理格式错误的 HTML 文件

我继承了别人的(糟糕的)代码库,目前正拼命地尝试修复问题。今天,这意味着收集我们模板/主页中所有无效链接的列表。我目前在Python中使用ElementTree,尝试使用xpath解析站点。不幸的是,似乎html格式不正确,ElementTree不断抛出错误。是否有更多错误友好的xpath解析器?有没有办法在非严格模式下运行ElementTree?是否有任何其他方法,例如预处理,可以用来帮助这个过程? 最佳答案 LXML可以解析一些格式错误的HTML,实现ElementTreeAPI的扩展版本,并支持XPath:>>>fromlxm

html - 将 'embedded' XML 文档转换为 XSLT (1.0) 中的 CDATA 输出

给定一个像这样的输入XML文档:Thiscontainsan'embedded'HTMLdocumentHTMLDOCHelloWorld我如何提取“内部”HTML文档;将其呈现为CDATA并包含在我的输出文档中?因此输出文档将是一个HTML文档;其中包含一个将元素显示为文本的文本框(因此它将显示内部文档的“源View”)。我试过这个:但这只会渲染文本节点。我试过这个:]]>但这逃避了实际的XSLT,我得到:<xsl:value-ofselect="*"/>我试过这个:[...]这确实插入了一个CDATA部分,但输出仍然只包含文本(剥离的元素):MydocTitle:Thi

xml - 为什么 Visual Studio(2008 和 2010)在它创建的文本和 XML 文件的开头放置三个字节?

当我使用VisualStudio(2008和2010)创建一个新的文本或XML文件时,它总是在文件的最开头包含三个看起来很奇怪的字节。除非您使用二进制编辑器,否则无法看到这三个字节。他们为什么在那里,他们做什么?有没有办法阻止VisualStudio将它们放在那里?目前我无法使用VisualStudio创建XML文件,因为这些字节会搞砸解析器。 最佳答案 它是BOM或ByteOrderMark当您使用其他编码(尤其是UTF-8)保存文件以解决问题时,通常会发生这种情况...打开文件菜单>选择高级保存选项>然后选择UTF-8无签名

html - 使用 ColdFusion 函数 XMLFormat() 时如何转义 HTML 字符实体?

我有以下HTMLblock:Thequickbrownfoxjumpsoverthelazydog—Thequickbrownfoxjumpsoverthelazydog.Thequickbrownfoxjumpsoverthelazydog—Thequickbrownfoxjumpsoverthelazydog.Thequickbrownfoxjumpsoverthelazydog—Thequickbrownfoxjumpsoverthelazydog.它不是有效的XHTML。但是,我需要将此HTML包含在XML文档中。我尝试使用XMLFormat

Python:使用 minidom 搜索具有特定文本的节点

我目前面临的XML看起来像这样:345754这包含在层次结构中。我已经解析了xml,并希望通过搜索“345754”找到ID节点。 最佳答案 vartec的回答需要更正(抱歉,我不确定我能不能做到),它应该是:xmldoc=xml.dom.minidom.parse('your.xml')matchingNodes=[nodefornodeinxmldoc.getElementsByTagName("ID")ifnode.firstChild.nodeValue=='345754']它有两处错误:(i)标签名称区分大小写,因此匹配"i