草庐IT

Beautifulsoup

全部标签

python - 如何重新安装 lxml?

Python版本和使用的设备Python2,7.5Mac10.7.5BeautifulSoup4.2.1。我正在学习BeautifulSoup教程,但是当我尝试使用lxml库解析xml页面时,出现以下错误:bs4.FeatureNotFound:Couldn'tfindatreebuilderwiththefeaturesyourequested:lxml,xml.Doyouneedtoinstallaparserlibrary?我确定我已经通过所有方法安装了lxml:easy_install、pip、port等。我试图在我的代码中添加一行以查看是否安装了lxml:importlxml

python - 如何重新安装 lxml?

Python版本和使用的设备Python2,7.5Mac10.7.5BeautifulSoup4.2.1。我正在学习BeautifulSoup教程,但是当我尝试使用lxml库解析xml页面时,出现以下错误:bs4.FeatureNotFound:Couldn'tfindatreebuilderwiththefeaturesyourequested:lxml,xml.Doyouneedtoinstallaparserlibrary?我确定我已经通过所有方法安装了lxml:easy_install、pip、port等。我试图在我的代码中添加一行以查看是否安装了lxml:importlxml

python - 如何使用 Python 提取在 HTML 页面 javascript block 中定义的 JSON 对象?

我正在下载以下列方式定义了数据的HTML页面:...window.blog.data={"activity":{"type":"read"}};...我想提取在“window.blog.data”中定义的JSON对象。有没有比手动解析更简单的方法?(我正在研究BeautifulSoap,但似乎找不到无需解析即可返回确切对象的方法)谢谢编辑:使用pythonheadless浏览器(例如Ghost.py)执行此操作是否可能且更正确? 最佳答案 BeautifulSoup是一个html解析器;您还需要一个javascript解析器。顺便说

python - 如何使用 Python 提取在 HTML 页面 javascript block 中定义的 JSON 对象?

我正在下载以下列方式定义了数据的HTML页面:...window.blog.data={"activity":{"type":"read"}};...我想提取在“window.blog.data”中定义的JSON对象。有没有比手动解析更简单的方法?(我正在研究BeautifulSoap,但似乎找不到无需解析即可返回确切对象的方法)谢谢编辑:使用pythonheadless浏览器(例如Ghost.py)执行此操作是否可能且更正确? 最佳答案 BeautifulSoup是一个html解析器;您还需要一个javascript解析器。顺便说

python - Beautifulsoup 多类选择器

我想选择所有同时具有A和B作为类属性的div。下面的选择soup.findAll('div',class_=['A','B'])但是会选择所有在其类属性中具有A或B的div。类可能有许多其他属性(C、D等),顺序不限,但我只想选择那些同时具有A和B的属性。 最佳答案 改用css选择器:soup.select('div.A.B') 关于python-Beautifulsoup多类选择器,我们在StackOverflow上找到一个类似的问题: https://st

python - Beautifulsoup 多类选择器

我想选择所有同时具有A和B作为类属性的div。下面的选择soup.findAll('div',class_=['A','B'])但是会选择所有在其类属性中具有A或B的div。类可能有许多其他属性(C、D等),顺序不限,但我只想选择那些同时具有A和B的属性。 最佳答案 改用css选择器:soup.select('div.A.B') 关于python-Beautifulsoup多类选择器,我们在StackOverflow上找到一个类似的问题: https://st

python - 提取数字后跟单词

提取数字后跟单词:Stringq='ConsumerspendingintheUSrosetoabout62%ofGDPin1960,whereitstayeduntilabout1981,andhassincerisento71%in2013'q=re.findall(r'^([^\d]+)\s(\d+)\s*,\s*([^\d]+)\s(\d+)',s)它给出给定q中所有单词和数字的列表。所以现在我想要方法来获取数字和单词 最佳答案 根据您的描述,我猜您需要这样的东西:>>>importre>>>strs='Consumersp

python - 提取数字后跟单词

提取数字后跟单词:Stringq='ConsumerspendingintheUSrosetoabout62%ofGDPin1960,whereitstayeduntilabout1981,andhassincerisento71%in2013'q=re.findall(r'^([^\d]+)\s(\d+)\s*,\s*([^\d]+)\s(\d+)',s)它给出给定q中所有单词和数字的列表。所以现在我想要方法来获取数字和单词 最佳答案 根据您的描述,我猜您需要这样的东西:>>>importre>>>strs='Consumersp

python - 如何使用 BeautifulSoup 搜索标签列表,列表中的一个项目具有属性?

有谁知道如何在python中使用bs4来搜索多个标签,其中一个标签需要一个属性?例如,要搜索具有某个属性的一个标签的所有出现位置,我知道我可以这样做:tr_list=soup_object.find_all('tr',id=True)我知道我也可以这样做:tag_list=soup_object.find_all(['a','b','p','li'])但我不知道如何组合这两个语句,理论上这会给我一个列表,按照所有这些html标签的出现顺序,每个“tr”标签都有一个id。html片段如下所示:A_time_as_textsome_texta_headline_as_texta_numbe

python - 如何使用 BeautifulSoup 搜索标签列表,列表中的一个项目具有属性?

有谁知道如何在python中使用bs4来搜索多个标签,其中一个标签需要一个属性?例如,要搜索具有某个属性的一个标签的所有出现位置,我知道我可以这样做:tr_list=soup_object.find_all('tr',id=True)我知道我也可以这样做:tag_list=soup_object.find_all(['a','b','p','li'])但我不知道如何组合这两个语句,理论上这会给我一个列表,按照所有这些html标签的出现顺序,每个“tr”标签都有一个id。html片段如下所示:A_time_as_textsome_texta_headline_as_texta_numbe