BeautifulSoup4

python - BeautifulSoup - findAll 不在特定标签内

所以我试图找到一种方法来查找BeautifulSoup对象中具有特定标签但不在特定其他标签中的所有项目。例如:29我想找到class="dayContainer"的所有迭代，这很简单，但是我如何才能找到所有不是class="中的第一个的迭代残疾”? 最佳答案对其.parent不具有该类属性的标签运行过滤器。有点像filteredDayContainers=[tagfortaginsoup.find_all('div',attrs={'class':'dayContainer'})if"disabled"notintag.paren

python - 如何用python和beautifulsoup解析html表格并写入csv

我尝试解析html页面并获取货币值并写入csv。我有以下代码:#!/usr/bin/envpythonimporturllib2fromBeautifulSoupimportBeautifulSoupcontenturl="http://www.bank.gov.ua/control/en/curmetal/detail/currency?period=daily"soup=BeautifulSoup(urllib2.urlopen(contenturl).read())table=soup.find('div',attrs={'class':'content'})rows=table

python 何用 code section 39 beautifulsoup

python - BeautifulSoup - 抓取论坛页面

我正在尝试抓取论坛讨论并将其导出为csv文件，其中包含“线程标题”、“用户”和“帖子”等行，其中后者是每个人的实际论坛帖子。我是Python和BeautifulSoup的初学者，所以我真的很难过!我目前的问题是，在csv文件中，所有文本都被分成每行一个字符。有没有人可以帮助我？如果有人能帮助我，那就太好了!这是我一直在使用的代码:frombs4importBeautifulSoupimportcsvimporturllib2f=urllib2.urlopen("https://silkroad5v7dywlc.onion.to/index.php?action=printpage;to

BeautifulSoup python 34 the csv screen-scraping

python - 在 python 中使用 beautifulsoup 单击链接

在mechanize中，我们使用follow_link或click_link单击链接。美汤有没有类似点击网页链接的事情？最佳答案 BeautifulSoup是一个HTML解析器。进一步的讨论实际上取决于您所处的具体情况和特定网页的复杂性。如果您需要与网页交互:提交表单、单击按钮、滚动等-您需要使用一个利用真实浏览器的工具，例如selenium.在某些情况下，例如，如果提交表单时不涉及javascript，mechanize也会为你工作。而且，有时您只需点击带有urllib2的链接即可处理它或requests.

python beautifulsoup section code noreferrer web-scraping

python - 使用 BeautifulSoup 在 html 中查找所有表格

我想使用BeautifulSoup在html中查找所有表格。内部表应包含在外部表中。我已经创建了一些有效的代码，它给出了预期的输出。但是，我不喜欢这个解决方案，因为它使用.decompose()来破坏'soup'对象。你知道如何以更优雅的方式做到这一点吗？fromBeautifulSoupimportBeautifulSoupasbsinput='''titleparagraphtable1inner11inner12table2inner2table3inner3table4inner4'''soup=bs(input)while(True):t=soup.find("table")

BeautifulSoup python table gt lt screen-scraping

python - 如何使用 beautifulSoup 从网站中提取和下载所有图像？

我正在尝试从url中提取和下载所有图像。我写了一个脚本importurllib2importrefromos.pathimportbasenamefromurlparseimporturlspliturl="http://filmygyan.in/katrina-kaifs-top-10-cutest-pics-gallery/"urlContent=urllib2.urlopen(url).read()#HTMLimagetag:imgUrls=re.findall('img.*?src="(.*?)"',urlContent)#downloadallimagesforimgUrli

beautifulSoup python section 39 url

python - 如何删除 BeautifulSoup 中的空格

我有一堆HTML正在使用BeautifulSoup进行解析，除了一个小问题外，它一直运行良好。我想将输出保存到单行字符串中，并将以下内容作为我当前的输出:Zazzafookybutonetwothree!Zazzafooky2Zazzafooky3理想情况下我会喜欢Zazzafookybutonetwothree!Zazzafooky2我想去掉很多多余的空格，但使用strip()不一定能删除它，我也不能公然删除所有空格，因为我需要保留文本。我该怎么做？正则表达式的杀伤力似乎是一个很常见的问题，但这是唯一的方法吗？我没有任何标签，这样我就可以在那里更有力一些。再次感谢!

BeautifulSoup python gt plaincharacterwrap lt regex html-parsing

python - 通过 BeautifulSoup 或其他基于 python 的提取器识别大量文本

给定somerandomnewsarticle,我想写一个网络爬虫来找到最大的文本主体，并提取它。目的是提取页面上的实体新闻文章。最初的计划是使用BeautifulSoupfindAll(True)并根据其.getText()值对每个标签进行排序。编辑:不要将它用于html工作，使用lxml库，它是基于python的并且比BeautifulSoup快得多。命令(这意味着提取所有html标签)但这对大多数页面都不起作用，例如我作为示例列出的页面，因为大文本被拆分成许多较小的标签，例如段落分隔符。有没有人有这方面的经验？对此类事情的任何帮助都会很棒。目前我正在使用BeautifulSoup

python BeautifulSoup noreferrer noopener web-crawler

python - 使用 beautifulsoup 查找下一个 sibling ，直到某个 sibling

网页是这样的:section1articlearticlearticlesection2articlearticlearticle如何找到包含文章的每个部分？即找到h2后，再寻找nextsiblings直到下一个h2。如果网页是这样的:(通常是这种情况)section1articlearticlearticlesection2articlearticlearticle我可以写这样的代码:forsectioninsoup.findAll('div'):...forpostinsection.findAll('p')但是如果我想获得相同的结果，我应该如何处理第一个网页呢？

sibling beautifulsoup article lt gt python find scrape siblings

python - 如何从 BeautifulSoup 中的 span 标签获取文本

我有这样的链接1GB我正在尝试从那里获取1GB。我试过了tt=[a['title']forainsoup.select(".systemRequirementsRamContentspan")]forramintt:if"RAM"inram.split():print(soup.string)它输出None。我尝试了a['text']但它给了我KeyError。我该如何解决这个问题，我的错误是什么？最佳答案您可以使用css选择器，使用标题文本拉出您想要的跨度:soup=BeautifulSoup("""1GB""","xml")

BeautifulSoup python 34 code Requirement web-scraping python-3.4

22 23 242526 27 28