草庐IT

emacs-for-python

全部标签

python - 带有 : in name in lxml 的标签

我正在尝试使用lxml.etree来解析Wordpress导出文档(它是XML,有点像RSS)。我只对已发布的帖子感兴趣,因此我使用以下内容循环浏览已发布的帖子:foritemindata.findall("item"):ifitem.find("wp:post_type").text!="post":continueifitem.find("wp:status").text!="publish":continuewrite_post(item)其中data是所有item标签所在的标签。item标签包含帖子、页面和草稿。我的问题是lxml找不到名称中包含:的标签(例如wp:post_t

python - 使用命名空间获取 lxml 标签属性

我的XML看起来像:......我有代码:fromlxmlimportetree...forterm_entryinroot.iterfind('.//termEntry'):printterm_entry.attrib['id']printterm_entry.nsmapforlang_setinterm_entry.iterfind('langSet'):printlang_set.nsmapprintlang_set.attribforsome_stuffinlang_set.iterfind('some_stuff'):...我得到空的nsmap字典,我的attrib字典看起来

python - 将 elementtree 转储到 xml 文件中

我用这样的东西创建了一个xml树top=Element('top')child=SubElement(top,'child')child.text='sometext'如何将其转储到XML文件中?我尝试了top.write(filename),但该方法不存在。 最佳答案 您需要实例化一个ElementTree反对并调用write()方法:importxml.etree.ElementTreeasETtop=ET.Element('top')child=ET.SubElement(top,'child')child.text='som

python - 清理 xml ==> 如果有空标签则删除行

我想清理我的xml,这样它不仅是有效的XML,而且以一种非常易于阅读的方式格式化。例如:Hello9.99我想删除所有带有空标签的行,留下:Hello9.99我尝试使用正则表达式执行此操作,但在以可读格式保留它方面运气不佳:txt=etree.tostring(self.xml_node,pretty_print=True)txt=re.sub(r'\n','',txt)完成上述任务的最佳方法是什么? 最佳答案 使用XML解析器。思路是findallemptynodes使用//*[not(node())]XPath表达式和remov

python - 解析包含默认命名空间的 xml 以使用 lxml 获取元素值

我有一个这样的xml字符串str1="""http://www.example.org/sitemap_1.xml.gz2015-07-01"""我想提取中存在的所有url节点即http://www.example.org/sitemap_1.xml.gz我试过这段代码,但没有字fromlxmlimportetreeroot=etree.fromstring(str1)urls=root.xpath("//loc/text()")printurls[]我试图检查我的根节点是否形成正确。我试过了,得到了与str1相同的字符串etree.tostring(root)'\n\nhttp://

python - 使用 Python 解析 XML 站点地图

我有这样的站点地图:http://www.site.co.uk/sitemap.xml其结构如下:http://www.site.co.uk/drag_it/dragitsitemap_static_0.xml2015-07-07http://www.site.co.uk/drag_it/dragitsitemap_alpha_0.xml2015-07-07...我想从中提取数据。首先我需要数一数有多少在xml中,然后为它们中的每一个提取和数据。有没有一种简单的方法可以在Python中执行此操作?我见过其他类似的问题,但它们都提取了例如每个xml中的元素,我需要从每个元素中单独提取数据

c# - 从 XML 声明片段 : XmlDeclaration is not supported for partial content parsing 获取 XML 编码

我正在编写一些代码来读取包含XML声明的XML片段,例如并解析编码。来自MSDN,我应该可以这样做:varnt=newNameTable();varmgr=newXmlNamespaceManager(nt);varcontext=newXmlParserContext(null,mgr,null,XmlSpace.None);varreader=newSystem.Xml.XmlTextReader(@"",System.Xml.XmlNodeType.XmlDeclaration,context);但是,我得到一个System.Xml.XmlException在调用System.X

xml - xslt中for循环的使用方法

如何在xslt中使用xsl:for-each从xml文件中迭代获取值并将其显示在表fromat中例如:xml文件是这样的输出应该是abcdefg循环应该计算项目,如果它被4整除应该关闭当前行并添加新行等等..我为此使用以下xslt但我无法以表格格式显示它1请帮我做这个提前致谢 最佳答案 这个转换:=$vNumCols)]">应用于提供的XML文档时,产生所需的正确结果:abcdefg 关于xml-xslt中for循环的使用方法,我们在StackOverflow上找到一个类似的问题:

Python + 外籍人士 : Error on � entities

我写了一个小函数,它使用ElementTree和xpath来提取xml文件中某些元素的文本内容:#!/usr/bin/envpython2.5importdoctestfromxml.etreeimportElementTreefromStringIOimportStringIOdefparse_xml_etree(sin,xpath):"""TakesasinputastreamcontainingXMLandanXPathexpression.AppliestheXPathexpressiontotheXMLandreturnsageneratoryieldingthetextco

xml - 如何在 Python 中以简单的方式拆分 XML 文件?

我有用于将XML文件解析为detailedhere的Python代码.我知道XML文件因在内存中操作时占用系统资源而臭名昭著。我的解决方案适用于较小的XML文件(比如200KB,而我有一个340MB的文件)。我开始研究StAX(拉式解析器)实现,但我的日程安排很紧,我正在寻找一种更简单的方法来完成这项任务。我了解创建较小的文件block,但我如何通过每次输出main/header标签来提取正确的元素?例如,这是模式:............................................如何为每1000个书籍元素创建包含标题数据的新XML文件?代码和数据集的具体例子可以