草庐IT

BeautifulSoup4

全部标签

python - 用 BeautifulSoup 和多个段落进行抓取

我正在尝试使用BeautifulSoup从网站上抓取一段演讲。然而,我遇到了问题,因为演讲分为许多不同的段落。我对编程非常陌生,并且无法弄清楚如何处理这个问题。该页面的HTML如下所示:Thankyouverymuch.Mr.Speaker,VicePresidentCheney,MembersofCongress,distinguishedguests,fellowcitizens:Aswegathertonight,ourNationisatwar;oureconomyisinrecession;andthecivilizedworldfacesunprecedenteddange

python - 如何使用 BeautifulSoup 从内联样式中提取 CSS 属性

我有这样的东西:我正在使用beautifulsoup来解析html。有没有办法把“background”css属性中的“url”去掉? 最佳答案 您有几个选择-快速而肮脏或正确的方法。快速而肮脏的方式(如果更改标记将很容易破坏)看起来像>>>fromBeautifulSoupimportBeautifulSoup>>>importre>>>soup=BeautifulSoup('')>>>style=soup.find('img')['style']>>>urls=re.findall('url\((.*?)\)',style)>>

python - 使用 BeautifulSoup 查找所选选项

我只想获得选择的选定选项。例如:2002/122003/122004/122005/122006/122007/12我知道我能做到theSelectTag.findAll('option',attrs={'selected':''})但这是返回所有选项。有没有办法获取属性存在的所有元素?请注意,我要求全部,因为我正在抓取的网站确实包含多个选项的selected属性。我正在使用Python2.7和BeautifulSoup4.1.2 最佳答案 传递True作为属性值将匹配所有具有该属性的元素:>>>frombs4importBeaut

python - 加速beautifulsoup

我正在运行这个类(class)网站的抓取工具,我想知道是否有更快的方法来抓取页面,一旦我将它放入beautifulsoup中。它花费的时间比我预期的要长。提示?fromseleniumimportwebdriverfromselenium.webdriver.common.keysimportKeysfromselenium.webdriver.support.uiimportSelectfromselenium.webdriver.supportimportexpected_conditionsasECfrombs4importBeautifulSoupdriver=webdrive

python - Beautifulsoup - 如何打开图片并下载它们

我想从here中获取完整尺寸的产品图片我的想法是:点击图片链接下载图片回去重复n+1张图片我知道如何打开图像缩略图,但不知道如何获取全尺寸图像。关于如何做到这一点有什么想法吗? 最佳答案 这将为您提供所有图片的URL:importurllib2frombs4importBeautifulSoupurl="http://icecat.biz/p/toshiba/pscbxe-01t00een/satellite-pro-notebooks-4051528049077-Satellite+Pro+C8501GR-17732197.htm

python - BeautifulSoup: 'lxml' 和 'html.parser' 以及 'html5lib' 解析器有什么区别?

使用BeautifulSoup时,“lxml”与“html.parser”和“html5lib”之间有什么区别?您什么时候会使用一个而不是另一个以及每个的好处?当我使用它们时,它们似乎可以互换,但这里的人纠正我说我应该使用不同的。我想加强我的理解;我在这里阅读了几篇关于此的帖子,但它们根本没有详细介绍用途。例子:soup=BeautifulSoup(response.text,'lxml') 最佳答案 来自docs优缺点汇总表:html.parser-BeautifulSoup(markup,"html.parser")优点:包含电

python - 使用 BeautifulSoup 在 HTML 中搜索和替换

我想用BeautfulSoup来搜索和替换与.我知道如何用urllib2打开然后解析以提取所有标签。我想要做的是搜索并用结束标记和分隔符替换结束标记。任何帮助,非常感谢。编辑我假设它类似于:soup.findAll('a').在文档中,有一个:find(text="ahh").replaceWith('Hooray')所以我认为它会遵循以下原则:soup.findAll(tag='').replaceWith(tag='')但这不起作用而且pythonhelp()并没有提供太多 最佳答案 这将插入一个每个...结束后的标签元素:fr

python - 格式错误的开始标记错误 - Python、BeautifulSoup 和 Sipie - Ubuntu 10.04

我刚刚在我的Ubuntu10.04机器上安装了python、mplayer、beautifulsoup和sipie来运行Sirius。我遵循了一些看似简单的文档,但遇到了一些问题。我对Python不是很熟悉,所以这可能不适合我。我能够安装所有东西,但是运行sipie会得到这个:/usr/bin/Sipie/Sipie/Config.py:12:DeprecationWarning:themd5moduleisdeprecated;usehashlibinsteadimportmd5Traceback(mostrecentcalllast):File"/usr/bin/Sipie/sip

python - 使用 BeautifulSoup 删除所有内联样式

我正在使用BeautifulSoup进行一些HTML清理。Python和BeautifulSoup的菜鸟。根据我在Stackoverflow上其他地方找到的答案,我已经正确删除了标签,如下所示:[s.extract()forsinsoup('script')]但是如何去除内联样式呢?例如以下内容:Text应该变成:Text如何删除所有元素的inlineclass,id,name&style属性?其他类似问题的答案我可以找到所有提到的使用CSS解析器来处理这个问题,而不是BeautifulSoup,但由于任务只是删除而不是操作属性,并且是所有标签的一揽子规则,我是希望找到一种在Beaut

python - 如何将此 XPath 表达式转换为 BeautifulSoup?

在回答previousquestion,几个人建议我使用BeautifulSoup为我的项目。我一直在努力处理他们的文档,但我无法解析它。有人可以指出我应该能够将此表达式转换为BeautifulSoup表达式的部分吗?hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+')以上表达式来自Scrapy.我正在尝试将正则表达式re('\.a\w+')应用于tdclassaltRow以从那里获取链接。我也很感激任何其他教程或文档的指针。我找不到。感谢您的帮助。编辑:我正在看这个page:>>>soup.head.titleWhit