lxml

ruby - Ruby 中可用的网页抓取 gem /工具

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion我正尝试在我正在处理的Ruby脚本中抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合值(value)投资理念。我想抓取的一些页面示例是:http://finance.yahoo.com/q/pr?s=SPY+Profilehttp://finance.yahoo.com/q/hl?s=SPY+Holdingshttp://www.marketwatch.com/tools/mut

python - 如何防止 lxml remove 方法删除两个元素之间的文本

我正在使用lxml和python2.7来解析xml文件。我需要在某个时候使用remove方法删除一个元素，但非常奇怪的是它也删除了它后面的一些文本。输入的xml是:Webandgridservices[10,11],wheretheycanproviderichservicedescriptionsthatcanhelpinlocatingsuitableservices.然后我需要将cross-refs元素扩展为多个cross-ref并使用单独的refid。所以输出应该是这样的:Webandgridservices[10][11],wheretheycanproviderichser

python remove code cross gt xml python-2.7 lxml

python - 在 Python 中从古腾堡解析 RDF

我正在寻找解析可用的古腾堡目录here使用Python。我在网络抓取和解析HTML方面经验丰富，但我对这种格式望而却步。我已经尝试使用lxmletree和以下使用RDFlib的尝试:path='epub/10/pg%s.rdf'g=rdflib.Graph()g.parse(path)s=g.serialize(format='nt')print(g)我正在寻找各种元数据值(标题、作者、古腾堡网址等)。我在下面包含了一个示例文件。ArchivescontainingtheRDFfilesfor*all*ourbookscanbedownloadedathttp://www.gutenb

腾堡 python dcterms rdf lt xml lxml rdflib

Python写入一个xml文件

我正在尝试写入一个xml文件。我更改了代码中的特定元素，并且能够成功打印它。我需要将它写入文件，而不更改文件的结构。我的代码:importosfromlxmlimportetreedirectory='/Users/eeamesX/work/data/expert/EFTlogs/20160725/IT'XMLParser=etree.XMLParser(remove_blank_text=True)forfinos.listdir(directory):iff.endswith(".xml"):xmlfile=directory+'/'+ftree=etree.parse(xmlfi

Python xml hardwareRevisionNode 34 code lxml elementtree

python - 使用 xml.etree 解析 XML 的基本 Python - 问题

我正在尝试解析XML，但遇到了困难。我不明白为什么结果一直在打印[]我正在尝试提取Social来self的示例importxml.etree.ElementTreeasETroot=ET.parse("test.xml")results=root.findall("Results")printresults#[]#WHATISTHIS??forresultinresults:printresult.find("Social")#NoneXML看起来像这样:AAAinternet.comhttp://twitter.com/internethttp://facebook.com/inte

python code lt gt xml lxml elementtree minidom

python - 如何使用 lxml 从本地文件或 url 解析 xml？

我尝试使用lxml来解析xml，但是我遇到了一个问题:ValueError:invalid\xescape这是我的代码:fromlxmlimportetreeroot=etree.fromstring('C:\Users\hptphuong\Desktop\xmltest.xml')我是lxml的新手。请帮我解决这个问题。有我的xml内容Gambardella,MatthewXMLDeveloper'sGuideComputer44.952000-10-01Anin-depthlookatcreatingapplicationswithXML.Ralls,KimMidnightRain

python lxml gt lt publish_date xml

python - 使用 Python 和正则表达式编辑本地 XML 文件

我是python新手，正在尝试修改本地系统中存在的一些xml配置文件。输入:我有一个包含以下内容的xml文件(比如Test.xml)。5005000true我想要实现的目标:我想实现以下两件事:第1部分:我想将SocketTimeout标签(仅在composer标签下)的值修改为60，并且还想添加这样的注释(例如更改此值以减少SocketTimeout)。因此文件Test.xml应该如下所示:50060true第2部分:在文件Test.xml中，我想在Domain标签下添加一个新标签，如下所示:50060truetrue这就是我想要的:)我尝试过的:为了完成这个任务，我考虑了以下选项:

python SocketTimeout lt gt regex xml lxml elementtree

python - anchor 元素的 XPath 不在某些父元素中？

如何使用xpath获取除第二段中斜体字以外的所有anchor标记？(问题和示例已被简化。想象一个包含多个和的常规HTML页面)。ABCEFG应该得到:我有什么:root.xpath('//body//p')[1].xpath('a[not(self::i)]')我只得到:`` 最佳答案尝试以下XPath以获得所需的输出://p[2]//a[not(parent::i)] 关于python-anchor元素的XPath不在某些父元素中？，我们在StackOverflow上找到一个类似的问

python anchor lt gt code html xml xpath lxml

python - 使用 lxml 将 xml 转换为 Python 数据结构

如何使用lxml将xml转换为Python数据结构？我找遍了高处和低处，但找不到任何东西。输入示例MozillaFirefoxfirefoxLeadingOpenSourceinternetbrowser.3.6.3-1http://www.mozilla.com/en-US/legal/eula/firefox-en.htmlFalseMozillaFoundationhttp://www.mozilla.org/firefoxresources/firefox.pnghttp://download.mozilla.org/?product=firefox-3.6.3&os=

python gt lt section xml data-structures lxml

python - 使用 lxml 解析 DTD 时出错

我正在尝试编写一个验证脚本来根据NITFDTD验证XML，http://www.iptc.org/std/NITF/3.4/specification/dtd/nitf-3-4.dtd.基于thispost我提出了以下简单脚本来验证NITFXML文档。Bellow是我在运行脚本时收到的错误消息，它不是很具有描述性并且很难调试。感谢您的帮助。#!/usr/bin/envpythondefmain():fromlxmlimportetree,objectifyfromStringIOimportStringIOf=open('nitf_test.xml')xml_doc=f.read()f

时出 python code dtd etree xml lxml

12 3 4