LXML

python - 如何使用 lxml 更新 XML 文件

我想使用lxml库用新信息更新xml文件。例如，我有这段代码:>>>fromlxmlimportetree>>>>>>tree=etree.parse('books.xml')其中“books.xml”文件包含以下内容:http://www.w3schools.com/dom/books.xml我想用新书更新这个文件:>>>new_entry=etree.fromstring('''...LearningXML2...ErikRay...2006...49.95...''')我的问题是，如何用new_entry树更新tree元素树并保存文件。最佳答案

python lxml gt section code xml

python - Lxml html xpath 上下文

我正在使用lxml解析HTML文件，我想知道如何设置xpath搜索的context。我的意思是我有一个节点元素，并且只想在该节点内进行xpath搜索，就好像它是根节点一样。例如，我有一个表单节点和xpath搜索//input只返回给定表单的输入，而不是页面上所有表单的所有输入。我怎样才能做到这一点？我找到了一些xpathcontext文档here，但这似乎不是我想要的。最佳答案 XPath表达式//input将匹配文档中任何位置的所有输入元素，而.//input将匹配当前上下文中的所有元素。也许如果您改进场景描述，我们可以进一步帮

python xpath section code lxml

python - 在 Python 中生成非常大的 XML 文件？

有谁知道在Python中生成非常大的xml文件(例如100-500MiB)的内存高效方法？我一直在使用lxml，但内存使用量已达到顶峰。最佳答案也许您可以使用模板引擎而不是自己生成/构建xml？Genshi例如基于xml并支持流式输出。一个非常基本的例子:fromgenshi.templateimportMarkupTemplatetpl_xml='''${i}'''tpl=MarkupTemplate(tpl_xml)stream=tpl.generate(data=xrange(10000000))withopen('out

中生 python section 39 xml lxml

Python:在 lxml.cssselect 中使用的 CSS 选择器

我正在尝试使用lxml.html并使用CSSSelector而不是XPath来解析下面给定的html代码。link=doc.cssselect('htmlbodydiv.resultsdldta)上面的代码为我提供了content-1和content-2作为输出，但我想要的输出是link1link2。所以我用替换了我的代码link=doc.cssselect('htmlbodydiv.resultsdldta[href]')但仍然得到相同的输出。所以我的问题是获取href属性的正确CSS选择器是什么。sometagsherecontent-1content-2

cssselect Python code gt section css css-selectors lxml

Python XML 解析

这个问题在这里已经有了答案:HowtoparseXMLandgetinstancesofaparticularnodeattribute?(18个答案)关闭9年前。*注意:lxml不会在我的系统上运行。我希望找到一个不涉及lxml的解决方案。我已经阅读了这里的一些文档，但很难让它按照我想要的方式工作。我想解析一些如下所示的XML文件:1375Key11375Key2SomeStringKey3AnotherstringKey4YetanotherstringKey5Stringsanyone?在我试图操作的文件中，有更多的“dict”跟在这个文件之后。我想通读XML并输出如下所示的文本

Python XML section string gt parsing lxml

python - Lxml 元素与 namespace 相等

我正在尝试使用Lxml来解析.docx文档的内容。我知道lxml将namespace前缀替换为实际的namespace，但是这使得检查我正在使用哪种元素标签变得非常痛苦。我希望能够做类似的事情if(someElement.tag=="w:p"):但由于lxml坚持在前面加上完整的命名空间，我要么必须做类似的事情if(someElemenet.tag=="{http://schemas.openxmlformats.org/wordprocessingml/2006/main}p'):或者像这样从元素的nsmap属性中查找完整的命名空间名称targetTag="{%s}p"%someEl

namespace python section code lxml xml-namespaces

Python - 使用 lxml 对多个模式进行验证

我正在使用由第三方构建的架构，我想使用lxml对其进行验证。问题是这样的模式被拆分成不同的xsd文件，这些文件引用了它们自己。例如，名为“extension.xsd”的文件(建立在“master”模式之上)有这样一行:如果我尝试使用lxml验证它(解析，然后使用XMLSchema然后验证另一个我知道已经有效的文档)，我只使用“extension”而不是“master”进行验证:换句话说，验证失败(因为在XML文件中，有些元素只存在于“master”中，而不存在于“extension”中)。我该如何解决(或解决)这个问题？谢谢! 最佳答案

Python lxml section master extension xsd

python - 在 lxml 中过滤无效 unicode 字符的主要方法？

众所周知certaincharacterranges在XML文档中是不允许的。我知道过滤掉这些字符的解决方案(例如[1]、[2])。遵循“不要重复自己”原则，我更愿意在一个中心点实现这些解决方案之一——现在，我必须在将任何可能不安全的文本提供给lxml之前对其进行清理>。有没有办法实现这一目标，例如通过子类化lxml过滤器类、捕获一些异常或设置配置开关？编辑:希望澄清一下这个问题，这里有一个示例代码:fromlxmlimportetreeroot=etree.Element("root")root.text=u'\uffff'root.text+=u'\ud800'print(etre

主要方 unicode lxml etree root python xml invalid-characters

python - 自动 XSD 验证

根据lxml文档“DTD是根据已解析文档的DOCTYPE自动检索的。您所要做的就是使用启用了DTD验证的解析器。”http://lxml.de/validation.html#validation-at-parse-time但是，如果您想根据XML架构进行验证，则需要明确引用一个架构。我想知道为什么会这样，并且想知道是否有可以执行此操作的库或函数。甚至解释如何自己实现这一目标。问题是似乎有很多方法可以引用XSD，我需要支持所有这些方法。验证不是问题。问题是如何确定要验证的模式。理想情况下，这也可以处理内联模式。更新:这是一个例子。简单测试.xsd:简单测试.xml:foo我想做如下的事

python XSD 34 39 xml lxml libxml2

python - 在python中 pretty-print xml时如何缩进属性？

假设我有这样的XML:...第一个元素名称及其所有属性都出现在一行中。我已经看到如何使用lxml漂亮地打印元素树，代码如下:fromlxmlimportetree...defprettyPrintXml(filePath):assertfilePathisnotNoneparser=etree.XMLParser(resolve_entities=False,remove_blank_text=True,strip_cdata=False)document=etree.parse(filePath,parser)print(etree.tostring(document,pretty_

python pretty-print http 34 noreferrer lxml

18 19 202122 23 24