beautifulSoup

python - 在 Python 的 span 标签中查找多个属性

我希望从网站上抓取两个值。它们存在于以下标签中:4.12.9我需要值spstarBig，spstarGryB。我使用的findAll表达式是-soup.findAll('span',{'class':['spstarGryB','spstarBig']}):代码没有任何错误地执行，但没有显示结果。最佳答案根据docs，假设BeautifulSoup4，用'spstarGryB'这样的字符串匹配多个CSS类是脆弱的，不应该这样做:soup.find_all('span',{'class':'spstarGryB'})#[2.9]s

python - BeautifulSoup - 获取无 HTML 内容的简单方法

我正在使用此代码查找页面中所有有趣的链接:soup.findAll('a',href=re.compile('^notizia.php\?idn=\d+'))而且它的工作做得很好。不幸的是，在a标签内有很多嵌套标签，如font、b和不同的东西......我想得到只有文本内容，没有任何其他html标记。链接示例:03-11-2009: CCSIngegneriaElettronica-Sportellostudentiedorientamento当然它很丑(而且标记并不总是相同的!)而且我想得到:03-11-2009:CCSIngegneriaElettronica

BeautifulSoup python code section strong html-parsing html-content-extraction

python - 我在哪里可以找到一些 "hello world"- 简单的 Beautiful Soup 示例？

我想用BeautifulSoup做一个非常简单的替换。假设我想访问页面中的所有A标签并将“?foo”附加到它们的href。有人可以发布或链接到如何做这样简单的事情的例子吗？最佳答案 fromBeautifulSoupimportBeautifulSoupsoup=BeautifulSoup('''TestingfooBar''')forlinkinsoup.findAll('a'):#findalllinkslink['href']=link['href']+'?foo'printsoup打印:TestingfooBardocum

amp Beautiful gt lt section python beautifulsoup

python - lxml 和 libxml2 哪个更适合在 Python 中解析格式错误的 html？

对于格式错误的html，哪个更好更有用？我找不到如何使用libxml2。谢谢。最佳答案在libxml2page你可以看到这个注释:NotethatsomeofthePythonpuristdislikethedefaultsetofPythonbindings,ratherthancomplainingIsuggesttheyhavealookatlxmlthemorepythonicbindingsforlibxml2andlibxsltandcheckthemailing-list.并且在lxml将此页设为另一页:Thelx

适合 libxml2 code lxml BeautifulSoup python html-parsing

python - 使用 BeautifulSoup 发布到页面以登录

我正在使用python和beautifulsoup(两者都是新手!)，我想登录供应商网站。所以他们的形式看起来像(简化):有没有办法跟踪cookie？最佳答案多读书。了解urllib2这就是您用来执行POST登录的内容。如果你知道名字，你不需要BeautifulSoup。http://docs.python.org/library/urllib2.htmlBeautifulSoup是您用来解析结果页面的工具。登录后。在您发布真实请求之后。关于python-使用BeautifulSo

BeautifulSoup python section code

javascript - 从 'onclick' 部分值中查找并单击一个项目

是否可以通过onclick元素的部分值通过selenium单击元素？一个页面有多个输入项，我只需要选择一个具有特定字符串的即可。例子是:如果您注意到最后，有“1居室豪华房”、“2居室豪华房”和“1居室总统房”。由于它是一个输入项，因此没有任何文本可供我过滤，但我只需要选择一个特定的项，例如2BedroomDeluxe。有什么我可以做的:buttons=driver.find_elements_by_name('booksubmit')forbuttoninbuttons:ifbutton........什么东西？我目前正在使用beautifulsoup4来解析页面上的html并检索与该

分值 javascript 39 false 34 python selenium selenium-webdriver beautifulsoup

python - BeautifulSoup:剥离指定的属性，但保留标签及其内容

我正在尝试“defrontpagify”MSFrontPage生成的网站的html，我正在编写BeautifulSoup脚本来执行此操作。但是，我在尝试从包含它们的文档中的每个标记中删除特定属性(或列表属性)时遇到了困难。代码片段:REMOVE_ATTRIBUTES=['lang','language','onmouseover','onmouseout','script','style','font','dir','face','size','color','style','class','width','height','hspace','border','valign','ali

BeautifulSoup 及其 39 section REMOVE_ATTRIBUTES python web-scraping scraper frontpage

Python BeautifulSoup 提取特定的 URL

是否可以只获取特定的URL？喜欢:next...next...next...输出应该只是来自http://www.iwashere.com/的URL例如，输出URL:http://www.iwashere.com/washere.htmlhttp://www.iwashere.com/wasnot.html我是用字符串逻辑做的。BeautifulSoup有什么直接的方法吗？最佳答案您可以匹配多个方面，包括对属性值使用正则表达式:importresoup.find_all('a',href=re.compile('http://w

BeautifulSoup Python code iwashere http python-2.7 web-scraping

涉及带有属性的 HTML 标签的 Python 网络抓取

我正在尝试制作一个网络抓取工具，它将解析出版物的网页并提取作者。网页的骨架结构如下:####Iwantwhateverislocatedhere###到目前为止，我一直在尝试使用BeautifulSoup和lxml来完成这项任务，但我不确定如何处理这两个div标签和td标签，因为它们具有属性。除此之外，我不确定我是否应该更多地依赖BeautifulSoup或lxml或两者的组合。我该怎么办？目前，我的代码如下所示:importreimporturllib2,sysimportlxmlfromlxmlimportetreefromlxml.html.soupparserimportfro

Python HTML code import beautifulsoup lxml screen-scraping

python - BeautifulSoup 查找包含特定单词的链接

我有这个链接:SantaClara,California我如何使用BeautifulSoup来具体查找包含位置“位置”一词的链接？最佳答案您可以使用简单的"contains"CSSselector来完成:soup.select("a[href*=location]")或者，如果只需要匹配一个链接，使用select_one():soup.select_one("a[href*=location]")当然，还有许多其他方式-例如，您可以使用find_all()提供可以有regularexpression的href参数值或functi

BeautifulSoup 单词 code href section python

6 7 8910 11 12