草庐IT

beautifulSoup

全部标签

python - 使用 BeautifulSoup 抓取两个标签之间的所有 HTML

我有一些看起来像这样的HTML:Title//arandomamountofp/ulsortaglesstextNextTitle我想将所有HTML从第一个h1复制到下一个h1。我怎样才能做到这一点? 最佳答案 这是很明显的BeautifulSoup方式,当第二个h1标签是第一个标签的兄弟时:html=u""fortaginsoup.find("h1").next_siblings:iftag.name=="h1":breakelse:html+=unicode(tag) 关于pytho

python - 将 lxml 设置为默认 BeautifulSoup 解析器

我正在做一个网页抓取项目,但遇到了速度问题。为了尝试修复它,我想使用lxml而不是html.parser作为BeautifulSoup的解析器。我已经能够做到这一点:soup=bs4.BeautifulSoup(html,'lxml')但我不想每次调用BeautifulSoup时都重复输入'lxml'。有没有办法在程序开始时设置使用哪个解析器? 最佳答案 根据Specifyingtheparsertouse文档页面:ThefirstargumenttotheBeautifulSoupconstructorisastringorano

python - 将 lxml 设置为默认 BeautifulSoup 解析器

我正在做一个网页抓取项目,但遇到了速度问题。为了尝试修复它,我想使用lxml而不是html.parser作为BeautifulSoup的解析器。我已经能够做到这一点:soup=bs4.BeautifulSoup(html,'lxml')但我不想每次调用BeautifulSoup时都重复输入'lxml'。有没有办法在程序开始时设置使用哪个解析器? 最佳答案 根据Specifyingtheparsertouse文档页面:ThefirstargumenttotheBeautifulSoupconstructorisastringorano

python - 禁止在 beautifulsoup 中显示 url 警告

我正在使用BeautifulSoup4来解析一些从Internet上抓取的html格式的文本。有时,此文本只是指向某个网站的链接。BS4非常不满意的一个事实:UserWarning:"http://example.com"lookslikeaURL.BeautifulSoupisnotanHTTPclient.YoushouldprobablyuseanHTTPclienttogetthedocumentbehindtheURL,andfeedthatdocumenttoBeautifulSoup.我很清楚这个事实,我只想解释文本输入,而不是听讲座。我使用控制台来监视脚本的事件,它被一

python - 禁止在 beautifulsoup 中显示 url 警告

我正在使用BeautifulSoup4来解析一些从Internet上抓取的html格式的文本。有时,此文本只是指向某个网站的链接。BS4非常不满意的一个事实:UserWarning:"http://example.com"lookslikeaURL.BeautifulSoupisnotanHTTPclient.YoushouldprobablyuseanHTTPclienttogetthedocumentbehindtheURL,andfeedthatdocumenttoBeautifulSoup.我很清楚这个事实,我只想解释文本输入,而不是听讲座。我使用控制台来监视脚本的事件,它被一

python - BeautifulSoup:获取特定表的内容

Mylocalairport可耻地阻止没有IE的用户,看起来很糟糕。我想编写一个Python脚本,每隔几分钟获取到达和离开页面的内容,并以更易读的方式显示它们。我选择的工具是mechanize欺骗网站相信我使用IE和BeautifulSoup用于解析页面以获取航类数据表。老实说,我迷失在BeautifulSoup文档中,无法理解如何从整个文档中获取表(我知道其标题),以及如何从该表中获取行列表。有什么想法吗? 最佳答案 这不是你需要的具体代码,只是一个如何使用BeautifulSoup的演示。它找到id为“Table1”的表并获取其

python - BeautifulSoup:获取特定表的内容

Mylocalairport可耻地阻止没有IE的用户,看起来很糟糕。我想编写一个Python脚本,每隔几分钟获取到达和离开页面的内容,并以更易读的方式显示它们。我选择的工具是mechanize欺骗网站相信我使用IE和BeautifulSoup用于解析页面以获取航类数据表。老实说,我迷失在BeautifulSoup文档中,无法理解如何从整个文档中获取表(我知道其标题),以及如何从该表中获取行列表。有什么想法吗? 最佳答案 这不是你需要的具体代码,只是一个如何使用BeautifulSoup的演示。它找到id为“Table1”的表并获取其

python - "Contains"类或正则表达式的美丽汤?

如果我的类(class)名称经常不同,例如:listing-col-line-3-11dpt41listing-col-block-1-22dpt41listing-col-line-4-13CWK12通常我可以这样做:forEachPartinsoup.find_all("div",{"class":"ClassNamesHere"}):printEachPart.get_text()这里有太多的类名需要使用,所以其中有很多。我知道Python没有我通常会使用的“.contains”,但它确实有一个“in”。虽然我还没有找到一种方法来整合它。我希望有一种方法可以使用正则表达式来做到这

python - "Contains"类或正则表达式的美丽汤?

如果我的类(class)名称经常不同,例如:listing-col-line-3-11dpt41listing-col-block-1-22dpt41listing-col-line-4-13CWK12通常我可以这样做:forEachPartinsoup.find_all("div",{"class":"ClassNamesHere"}):printEachPart.get_text()这里有太多的类名需要使用,所以其中有很多。我知道Python没有我通常会使用的“.contains”,但它确实有一个“in”。虽然我还没有找到一种方法来整合它。我希望有一种方法可以使用正则表达式来做到这

python - 使用 BeautifulSoup 查找特定标签

我可以用BS轻松遍历通用标签,但我不知道如何找到特定标签。例如,我怎样才能找到的所有出现??BS可以做到这一点吗? 最佳答案 以下应该可以工作soup=BeautifulSoup(htmlstring)soup.findAll('div',style="width=300px;")有几种方法可以搜索标签。https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree为了更多的文字理解和使用它http://lxml.de/elementsoup.htm