LXML_草庐IT

python - 将 lxml 设置为默认 BeautifulSoup 解析器

我正在做一个网页抓取项目，但遇到了速度问题。为了尝试修复它，我想使用lxml而不是html.parser作为BeautifulSoup的解析器。我已经能够做到这一点:soup=bs4.BeautifulSoup(html,'lxml')但我不想每次调用BeautifulSoup时都重复输入'lxml'。有没有办法在程序开始时设置使用哪个解析器？最佳答案根据Specifyingtheparsertouse文档页面:ThefirstargumenttotheBeautifulSoupconstructorisastringorano

python - 在解析大型 XML 文件时，我应该如何处理 Python 的 lxml 中的 XMLSyntaxError？

我正在尝试使用Python的lxml库解析超过2GB的XML文件。不幸的是，XML文件没有一行告诉字符编码，所以我必须手动设置它。但是，在遍历文件时，仍然偶尔会出现一些奇怪的字符。我不确定如何确定该行的字符编码，但此外，lxml将从for循环的范围内引发XMLSyntaxError。如何正确捕获此错误并正确处理？这是一个简单的代码片段:fromlxmlimportetreeetparse=etree.iterparse(file("my_file.xml",'r'),events=("start",),encoding="CP1252")forevent,eleminetparse:i

XMLSyntaxError 何处 section code 34 python xml encoding lxml

python - 在解析大型 XML 文件时，我应该如何处理 Python 的 lxml 中的 XMLSyntaxError？

我正在尝试使用Python的lxml库解析超过2GB的XML文件。不幸的是，XML文件没有一行告诉字符编码，所以我必须手动设置它。但是，在遍历文件时，仍然偶尔会出现一些奇怪的字符。我不确定如何确定该行的字符编码，但此外，lxml将从for循环的范围内引发XMLSyntaxError。如何正确捕获此错误并正确处理？这是一个简单的代码片段:fromlxmlimportetreeetparse=etree.iterparse(file("my_file.xml",'r'),events=("start",),encoding="CP1252")forevent,eleminetparse:i

XMLSyntaxError 何处 section code 34 python xml encoding lxml

python - 如何使用 LXML 解析损坏的 HTML

我正在尝试在python2.5和2.7上使用LXML解析器解析损坏的HTML与LXML文档(http://lxml.de/parsing.html#parsing-html)不同，解析损坏的HTML不起作用:fromlxmlimportetreeimportStringIObroken_html="testpagetitle"parser=etree.HTMLParser()tree=etree.parse(StringIO.StringIO(broken_html))结果:Traceback(mostrecentcalllast):File"",line1,inFile"lxml.e

python LXML etree gt

python - 如何使用 LXML 解析损坏的 HTML

我正在尝试在python2.5和2.7上使用LXML解析器解析损坏的HTML与LXML文档(http://lxml.de/parsing.html#parsing-html)不同，解析损坏的HTML不起作用:fromlxmlimportetreeimportStringIObroken_html="testpagetitle"parser=etree.HTMLParser()tree=etree.parse(StringIO.StringIO(broken_html))结果:Traceback(mostrecentcalllast):File"",line1,inFile"lxml.e

python LXML etree gt

python - 使用 Python lxml 时出现错误 'failed to load external entity'

我正在尝试解析从Web检索到的XML文档，但在解析后出现此错误时崩溃:':failedtoloadexternalentity"这是下载的XML中的第二行。有没有办法阻止解析器尝试加载外部实体，或者另一种方法来解决这个问题？这是我到目前为止的代码:importurllib2importlxml.etreeasetreefile=urllib2.urlopen("http://www.greenbuttondata.org/data/15MinLP_15Days.xml")data=file.read()file.close()tree=etree.parse(data)

时出 amp section etree 34 python xml lxml elementtree

python - 使用 Python lxml 时出现错误 'failed to load external entity'

我正在尝试解析从Web检索到的XML文档，但在解析后出现此错误时崩溃:':failedtoloadexternalentity"这是下载的XML中的第二行。有没有办法阻止解析器尝试加载外部实体，或者另一种方法来解决这个问题？这是我到目前为止的代码:importurllib2importlxml.etreeasetreefile=urllib2.urlopen("http://www.greenbuttondata.org/data/15MinLP_15Days.xml")data=file.read()file.close()tree=etree.parse(data)

时出 amp section etree 34 python xml lxml elementtree

python - 为什么在使用 lxml(在 python 中)处理 XHTML 文档时 xpath 不起作用？

我正在根据以下测试文档进行测试:hithere如果我使用lxml.html解析文档，我可以使用xpath获取IMG:>>>root=lxml.html.fromstring(doc)>>>root.xpath("//img")[]但是，如果我将文档解析为XML并尝试获取IMG标记，我会得到一个空结果:>>>tree=etree.parse(StringIO(doc))>>>tree.getroot().xpath("//img")[]我可以直接导航到元素:>>>tree.getroot().getchildren()[1].getchildren()[0]但这当然不能帮助我处理任意文档

python XHTML gt 命名 xml xpath lxml

python - 为什么在使用 lxml(在 python 中)处理 XHTML 文档时 xpath 不起作用？

我正在根据以下测试文档进行测试:hithere如果我使用lxml.html解析文档，我可以使用xpath获取IMG:>>>root=lxml.html.fromstring(doc)>>>root.xpath("//img")[]但是，如果我将文档解析为XML并尝试获取IMG标记，我会得到一个空结果:>>>tree=etree.parse(StringIO(doc))>>>tree.getroot().xpath("//img")[]我可以直接导航到元素:>>>tree.getroot().getchildren()[1].getchildren()[0]但这当然不能帮助我处理任意文档

python XHTML gt 命名 xml xpath lxml

python - 安装 easy_install... 以安装 lxml

我已经认识到ElementTree不会做我希望它做的事情。我已经查看了lxml的文档，看来它可以满足我的目的。要获得lxml，我需要获得easy_install。所以我从here下载了它,并将其放在/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/site-packages/中。然后我去那个文件夹，运行shsetuptools-0.6c11-py2.6.egg。安装成功。然后我很兴奋，因为我认为easy_install的全部意义在于我可以通过easy_installlxml进行安装，lxml会神奇地被下载、构

easy_install install code lxml python easy-install