草庐IT

python - 法语和 lxml 文本

我正在尝试使用lxml将有效的法语文本字符串分配给文本字符串:el=etree.Element("someelement")el.text='Disponibleàpartirdu1erOctobre'我得到错误:ValueError:AllstringsmustbeXMLcompatible:UnicodeorASCII,noNULLbytesorcontrolcharacters我也试过:el.ext=etree.CDATA('Disponibleàpartirdu1erOctobre')但是我得到了同样的错误。如何处理XML中的法语,尤其是ISO-8859-1?有一些方法可以

python - 使用 lxml 有效地解析元标记?

我正在使用lxml解析HTML页面。这些页面具有如下元标记:如何使用lxml高效地查找每个页面上og:locality元标记的值?我目前有以下内容,它只是按属性手动匹配元标记:formetaindoc3.cssselect('meta'):prop=meta.get('property')ifprop==='og:locality':lat=meta.get('content')但是感觉效率不是很高。 最佳答案 您可以使用这个XPath选择器://meta[@property='og:locality']/@content

Python BeautifulSoup 相当于 lxml make_links_absolute

所以lxml有个很手的特性:make_links_absolute:doc=lxml.html.fromstring(some_html_page)doc.make_links_absolute(url_for_some_html_page)并且文档中的所有链接现在都是绝对的。BeautifulSoup中是否有一个简单的等价物,或者我只需要通过urlparse传递它并对其进行规范化:soup=BeautifulSoup(some_html_page)fortaginsoup.findAll('a',href=True):url_data=urlparse(tag['href'])ifu

python - 在 Mac OS X 10.8.1 上安装 lxml 时我做错了什么?

我在MacOSX10.8.1和Python2.7.2上构建lxml时遇到问题。(我已经克隆了Github存储库并按照此处针对MacOSX的说明进行操作:http://lxml.de/build.html)在构建libxml2时似乎有问题;以下是终端输出的尾端:configure:creating./config.statusconfig.status:creatinglibxml2.specconfig.status:creatingMakefileconfig.status:creatinginclude/Makefileconfig.status:creatinginclude/l

python 在 mac os 10.10.1 上安装 lxml

我买了一台新的macbook,我对macos很陌生。但是,我在互联网上阅读了很多关于如何安装scrap的信息我什么都做了,但我在安装lxml时遇到问题我在终端上试过了pipinstalllxml很多东西开始下载,终端上写了很多文本,但我在终端上收到了红色的错误消息1errorgenerated.error:command'/usr/bin/clang'failedwithexitstatus1----------------------------------------Cleaningup...Command/Library/Frameworks/Python.framework/V

python - 无法在 Ubuntu 12.04 上安装 lxml

我一直在尝试使用pipinstalllxml安装lxml,但出现以下错误。我之前使用过apt-getinstallpython-devlibxml2libxml2-devlibxslt-dev(在其他答案中建议),但我仍然遇到同样的错误。我没有使用control-c。pipinstalllxmlDownloading/unpackinglxmlDownloadinglxml-3.2.4.tar.gz(3.3MB):3.3MBdownloadedRunningsetup.pyegg_infoforpackagelxml/usr/lib/python2.7/distutils/dist.p

python - 如何在不返回 div 标签的情况下使用 Cleaner,lxml.html?

我有这个代码:evil="malignusscriptboldtextitalictext"cleaner=Cleaner(remove_unknown_tags=False,allow_tags=['p','br','b'],page_structure=True)printcleaner.clean_html(evil)我希望得到这个:boldtextitalictext但是我得到的是:boldtextitalictext是否有删除div标签包装器的属性? 最佳答案 lxml期望您的html具有树结构,即单个根节点。如果没有,它

python - 实体引用和 lxml

这是我的代码:fromcStringIOimportStringIOfromlxmlimportetreexml=StringIO(''']>&test;''')d1=etree.parse(xml)print'%r'%d1.find('/sub').textparser=etree.XMLParser(resolve_entities=False)d2=etree.parse(xml,parser=parser)print'%r'%d2.find('/sub').text这是输出:'Thisisatest'None如何让lxml给我'&test;',即原始实体引用?

python - 在 Mac 上的 Python 中使用 lxml 时收到 'ImportError: cannot import name etree'

我在Mac上正确安装适用于Python的lxml时遇到了困难。我已按照说明进行操作here,安装后表示安装成功(但是有一些警告,安装和警告的完整日志可以找到here)运行安装后,我试图在lxml安装目录中运行Test.py以确保它正常工作。我立即收到错误提示:ImportError"cannotimportnameetree.此错误是由行fromlxmlimportetree引起的。我似乎无法弄清楚为什么它在看似成功的安装后会在这里失败。请原谅我的无知,因为我通常不会用Python编程,当然也不会在MAC上编程(目前被迫这样做)。供引用:Python版本:2.7.2MacOSX10.8

python - HTML编码和lxml解析

我正在尝试最终解决因尝试使用lxml抓取HTML而出现的一些编码问题。以下是我遇到的三个示例HTML文档:1.UnicodeChars:은—’2.UnicodeChars:은—’3.UnicodeChars:은—’我的基本脚本:fromlxml.htmlimportfromstring...doc=fromstring(raw_html)title=doc.xpath('//title/text()')[0]printtitle结果是:UnicodeChars:ìââUnicodeChars:은—’UnicodeChars:은—’因此,样本1和缺失的显然存在问题标签。来自here的解决