BeautifulSoup4

python - 使用 BeautifulSoup 删除标签但保留其内容

目前我有这样的代码:soup=BeautifulSoup(value)fortaginsoup.findAll(True):iftag.namenotinVALID_TAGS:tag.extract()soup.renderContents()除了我不想丢弃无效标签内的内容。调用soup.renderContents()时如何去掉标签但保留内容？最佳答案 BeautifulSoup库的当前版本在Tag对象上有一个未记录的方法，称为replaceWithChildren()。所以，你可以这样做:html="Good,bad,andu

Python/BeautifulSoup - 如何从元素中删除所有标签？

如何简单地从BeautifulSoup中找到的元素中删除所有标签？最佳答案 bs4中没有BeautifulStoneSoup，在Python3中就更简单了frombs4importBeautifulSoupsoup=BeautifulSoup(html)text=soup.get_text()print(text) 关于Python/BeautifulSoup-如何从元素中删除所有标签？，我们在StackOverflow上找到一个类似的问题： https:/

BeautifulSoup Python section code

Python/BeautifulSoup - 如何从元素中删除所有标签？

如何简单地从BeautifulSoup中找到的元素中删除所有标签？最佳答案 bs4中没有BeautifulStoneSoup，在Python3中就更简单了frombs4importBeautifulSoupsoup=BeautifulSoup(html)text=soup.get_text()print(text) 关于Python/BeautifulSoup-如何从元素中删除所有标签？，我们在StackOverflow上找到一个类似的问题： https:/

BeautifulSoup Python section code

python - 使用 BeautifulSoup 查找包含特定文本的 HTML 标签

我正在尝试获取HTML文档中包含以下文本模式的元素:#\S{11}thisiscool#12345678901所以，前一个将通过使用匹配:soup('h2',text=re.compile(r'#\S{11}'))结果会是这样的:[u'blahblah#223409823523',u'thisisinteresting#293845023984']我能够得到所有匹配的文本(见上一行)。但我希望文本的父元素匹配，所以我可以使用它作为遍历文档树的起点。在这种情况下，我希望所有h2元素都返回，而不是文本匹配。想法？最佳答案 fromBe

BeautifulSoup python section code lt regex html-content-extraction

python - 使用 BeautifulSoup 查找包含特定文本的 HTML 标签

我正在尝试获取HTML文档中包含以下文本模式的元素:#\S{11}thisiscool#12345678901所以，前一个将通过使用匹配:soup('h2',text=re.compile(r'#\S{11}'))结果会是这样的:[u'blahblah#223409823523',u'thisisinteresting#293845023984']我能够得到所有匹配的文本(见上一行)。但我希望文本的父元素匹配，所以我可以使用它作为遍历文档树的起点。在这种情况下，我希望所有h2元素都返回，而不是文本匹配。想法？最佳答案 fromBe

BeautifulSoup python section code lt regex html-content-extraction

python - 使用 pip 安装 Beautiful Soup

这个问题在这里已经有了答案:python3--versionshows"NameError:name'python3'isnotdefined"(2个回答)关闭4年前。我正在尝试安装BeautifulSoup在Python2.7中使用pip。我不断收到错误消息，不明白为什么。我按照说明安装了pip，它安装到了以下目录:c:\Python27\Scripts\pip.exe。然后我尝试将它添加到路径中，并运行pipinstallpackage命令。我尝试了两种不同的方法:importsyssys.path.append('C:\\Python27\\Scripts\\pip.exe')p

Beautiful python section code beautifulsoup4 python-2.7 beautifulsoup pip

python - 使用 pip 安装 Beautiful Soup

这个问题在这里已经有了答案:python3--versionshows"NameError:name'python3'isnotdefined"(2个回答)关闭4年前。我正在尝试安装BeautifulSoup在Python2.7中使用pip。我不断收到错误消息，不明白为什么。我按照说明安装了pip，它安装到了以下目录:c:\Python27\Scripts\pip.exe。然后我尝试将它添加到路径中，并运行pipinstallpackage命令。我尝试了两种不同的方法:importsyssys.path.append('C:\\Python27\\Scripts\\pip.exe')p

Beautiful python section code beautifulsoup4 python-2.7 beautifulsoup pip

python - 使用 BeautifulSoup 根据 name 属性获取属性值

我想根据名字打印一个属性值，举个例子我想做这样的事情soup=BeautifulSoup(f)#fissomeHTMLcontainingtheabovemetatagformeta_taginsoup("meta"):ifmeta_tag["name"]=="City":print(meta_tag["content"])上面的代码给出了一个KeyError:'name'，我相信这是因为name被BeatifulSoup使用了，所以它不能作为关键字参数。最佳答案很简单，使用如下:>>>frombs4importBeautifu

BeautifulSoup python 34 section code

python - 使用 BeautifulSoup 根据 name 属性获取属性值

我想根据名字打印一个属性值，举个例子我想做这样的事情soup=BeautifulSoup(f)#fissomeHTMLcontainingtheabovemetatagformeta_taginsoup("meta"):ifmeta_tag["name"]=="City":print(meta_tag["content"])上面的代码给出了一个KeyError:'name'，我相信这是因为name被BeatifulSoup使用了，所以它不能作为关键字参数。最佳答案很简单，使用如下:>>>frombs4importBeautifu

BeautifulSoup python 34 section code

python - 我们可以将 XPath 与 BeautifulSoup 一起使用吗？

我正在使用BeautifulSoup抓取一个URL，并且我有以下代码，以查找其类为'empformbody'的td标记:importurllibimporturllib2fromBeautifulSoupimportBeautifulSoupurl="http://www.example.com/servlet/av/ResultTemplate=AVResult.html"req=urllib2.Request(url)response=urllib2.urlopen(req)the_page=response.read()soup=BeautifulSoup(the_page)so

BeautifulSoup python code lxml web-scraping xpath urllib