草庐IT

BeautifulSoup4

全部标签

python - 使用 BeautifulSoup 删除标签但保留其内容

目前我有这样的代码:soup=BeautifulSoup(value)fortaginsoup.findAll(True):iftag.namenotinVALID_TAGS:tag.extract()soup.renderContents()除了我不想丢弃无效标签内的内容。调用soup.renderContents()时如何去掉标签但保留内容? 最佳答案 BeautifulSoup库的当前版本在Tag对象上有一个未记录的方法,称为replaceWithChildren()。所以,你可以这样做:html="Good,bad,andu

Python/BeautifulSoup - 如何从元素中删除所有标签?

如何简单地从BeautifulSoup中找到的元素中删除所有标签? 最佳答案 bs4中没有BeautifulStoneSoup,在Python3中就更简单了frombs4importBeautifulSoupsoup=BeautifulSoup(html)text=soup.get_text()print(text) 关于Python/BeautifulSoup-如何从元素中删除所有标签?,我们在StackOverflow上找到一个类似的问题: https:/

Python/BeautifulSoup - 如何从元素中删除所有标签?

如何简单地从BeautifulSoup中找到的元素中删除所有标签? 最佳答案 bs4中没有BeautifulStoneSoup,在Python3中就更简单了frombs4importBeautifulSoupsoup=BeautifulSoup(html)text=soup.get_text()print(text) 关于Python/BeautifulSoup-如何从元素中删除所有标签?,我们在StackOverflow上找到一个类似的问题: https:/

python - 使用 BeautifulSoup 查找包含特定文本的 HTML 标签

我正在尝试获取HTML文档中包含以下文本模式的元素:#\S{11}thisiscool#12345678901所以,前一个将通过使用匹配:soup('h2',text=re.compile(r'#\S{11}'))结果会是这样的:[u'blahblah#223409823523',u'thisisinteresting#293845023984']我能够得到所有匹配的文本(见上一行)。但我希望文本的父元素匹配,所以我可以使用它作为遍历文档树的起点。在这种情况下,我希望所有h2元素都返回,而不是文本匹配。想法? 最佳答案 fromBe

python - 使用 BeautifulSoup 查找包含特定文本的 HTML 标签

我正在尝试获取HTML文档中包含以下文本模式的元素:#\S{11}thisiscool#12345678901所以,前一个将通过使用匹配:soup('h2',text=re.compile(r'#\S{11}'))结果会是这样的:[u'blahblah#223409823523',u'thisisinteresting#293845023984']我能够得到所有匹配的文本(见上一行)。但我希望文本的父元素匹配,所以我可以使用它作为遍历文档树的起点。在这种情况下,我希望所有h2元素都返回,而不是文本匹配。想法? 最佳答案 fromBe

python - 使用 pip 安装 Beautiful Soup

这个问题在这里已经有了答案:python3--versionshows"NameError:name'python3'isnotdefined"(2个回答)关闭4年前。我正在尝试安装BeautifulSoup在Python2.7中使用pip。我不断收到错误消息,不明白为什么。我按照说明安装了pip,它安装到了以下目录:c:\Python27\Scripts\pip.exe。然后我尝试将它添加到路径中,并运行pipinstallpackage命令。我尝试了两种不同的方法:importsyssys.path.append('C:\\Python27\\Scripts\\pip.exe')p

python - 使用 pip 安装 Beautiful Soup

这个问题在这里已经有了答案:python3--versionshows"NameError:name'python3'isnotdefined"(2个回答)关闭4年前。我正在尝试安装BeautifulSoup在Python2.7中使用pip。我不断收到错误消息,不明白为什么。我按照说明安装了pip,它安装到了以下目录:c:\Python27\Scripts\pip.exe。然后我尝试将它添加到路径中,并运行pipinstallpackage命令。我尝试了两种不同的方法:importsyssys.path.append('C:\\Python27\\Scripts\\pip.exe')p

python - 使用 BeautifulSoup 根据 name 属性获取属性值

我想根据名字打印一个属性值,举个例子我想做这样的事情soup=BeautifulSoup(f)#fissomeHTMLcontainingtheabovemetatagformeta_taginsoup("meta"):ifmeta_tag["name"]=="City":print(meta_tag["content"])上面的代码给出了一个KeyError:'name',我相信这是因为name被BeatifulSoup使用了,所以它不能作为关键字参数。 最佳答案 很简单,使用如下:>>>frombs4importBeautifu

python - 使用 BeautifulSoup 根据 name 属性获取属性值

我想根据名字打印一个属性值,举个例子我想做这样的事情soup=BeautifulSoup(f)#fissomeHTMLcontainingtheabovemetatagformeta_taginsoup("meta"):ifmeta_tag["name"]=="City":print(meta_tag["content"])上面的代码给出了一个KeyError:'name',我相信这是因为name被BeatifulSoup使用了,所以它不能作为关键字参数。 最佳答案 很简单,使用如下:>>>frombs4importBeautifu

python - 我们可以将 XPath 与 BeautifulSoup 一起使用吗?

我正在使用BeautifulSoup抓取一个URL,并且我有以下代码,以查找其类为'empformbody'的td标记:importurllibimporturllib2fromBeautifulSoupimportBeautifulSoupurl="http://www.example.com/servlet/av/ResultTemplate=AVResult.html"req=urllib2.Request(url)response=urllib2.urlopen(req)the_page=response.read()soup=BeautifulSoup(the_page)so