草庐IT

BeautifulSoup4

全部标签

python - 不要自动放html、head和body标签,beautifulsoup

在html5lib中使用beautifulsoup,它会自动放置html、head和body标签:BeautifulSoup('FOO','html5lib')#=>FOO我可以设置任何选项,关闭此行为吗? 最佳答案 In[35]:importbs4asbsIn[36]:bs.BeautifulSoup('FOO',"html.parser")Out[36]:FOO这个parsestheHTMLwithPython'sbuiltinHTMLparser.引用文档:Unlikehtml5lib,thisparsermakesnoatt

python - BeautifulSoup 和 lxml.html - 更喜欢什么?

这个问题在这里已经有了答案:ParsingHTMLinpython-lxmlorBeautifulSoup?Whichoftheseisbetterforwhatkindsofpurposes?(7个回答)关闭8年前.我正在做一个涉及解析HTML的项目。四处搜索后,我发现了两个可能的选项:BeautifulSoup和lxml.html有什么理由更喜欢其中一个吗?前段时间我曾将lxml用于XML,我觉得我会更适应它,但是BeautifulSoup似乎很常见。我知道我应该使用适合我的那个,但我正在寻找两者的个人经验。 最佳答案 imo,

python - BeautifulSoup 和 lxml.html - 更喜欢什么?

这个问题在这里已经有了答案:ParsingHTMLinpython-lxmlorBeautifulSoup?Whichoftheseisbetterforwhatkindsofpurposes?(7个回答)关闭8年前.我正在做一个涉及解析HTML的项目。四处搜索后,我发现了两个可能的选项:BeautifulSoup和lxml.html有什么理由更喜欢其中一个吗?前段时间我曾将lxml用于XML,我觉得我会更适应它,但是BeautifulSoup似乎很常见。我知道我应该使用适合我的那个,但我正在寻找两者的个人经验。 最佳答案 imo,

python - BeautifulSoup 中是否有 InnerText 等价物?

使用下面的代码:soup=BeautifulSoup(page.read(),fromEncoding="utf-8")result=soup.find('div',{'class':'flagPageTitle'})我得到以下html:Sometexthere我怎样才能得到Sometexthere没有任何标签?BeautifulSoup中是否有InnerText等价物? 最佳答案 你只需要:result=soup.find('div',{'class':'flagPageTitle'}).text

python - BeautifulSoup 中是否有 InnerText 等价物?

使用下面的代码:soup=BeautifulSoup(page.read(),fromEncoding="utf-8")result=soup.find('div',{'class':'flagPageTitle'})我得到以下html:Sometexthere我怎样才能得到Sometexthere没有任何标签?BeautifulSoup中是否有InnerText等价物? 最佳答案 你只需要:result=soup.find('div',{'class':'flagPageTitle'}).text

javascript - 用于网页抓取的 Selenium 与 BeautifulSoup

我正在使用Python从网站上抓取内容。首先,我在Python上使用了BeautifulSoup和Mechanize,但我看到该网站有一个通过JavaScript创建内容的按钮,所以我决定使用Selenium。鉴于我可以使用Selenium和driver.find_element_by_xpath等方法找到元素并获取它们的内容,当我可以使用Selenium时,有什么理由使用BeautifulSoup一切?在这种特殊情况下,我需要使用Selenium来单击JavaScript按钮,那么使用Selenium进行解析更好还是应该同时使用Selenium和BeautifulSoup?

javascript - 用于网页抓取的 Selenium 与 BeautifulSoup

我正在使用Python从网站上抓取内容。首先,我在Python上使用了BeautifulSoup和Mechanize,但我看到该网站有一个通过JavaScript创建内容的按钮,所以我决定使用Selenium。鉴于我可以使用Selenium和driver.find_element_by_xpath等方法找到元素并获取它们的内容,当我可以使用Selenium时,有什么理由使用BeautifulSoup一切?在这种特殊情况下,我需要使用Selenium来单击JavaScript按钮,那么使用Selenium进行解析更好还是应该同时使用Selenium和BeautifulSoup?

Python BeautifulSoup 给 findAll 多个标签

我正在寻找一种方法来使用findAll来获取两个标签,按照它们在页面上出现的顺序。目前我有:importrequestsimportBeautifulSoupdefget_soup(url):request=requests.get(url)page=request.textsoup=BeautifulSoup(page)get_tags=soup.findAll('hr'and'strong')foreachinget_tags:printeach如果我在只有“em”或“strong”的页面上使用它,那么它会得到所有这些标签,如果我在一个页面上同时使用它会得到“strong”标签。有

Python BeautifulSoup 给 findAll 多个标签

我正在寻找一种方法来使用findAll来获取两个标签,按照它们在页面上出现的顺序。目前我有:importrequestsimportBeautifulSoupdefget_soup(url):request=requests.get(url)page=request.textsoup=BeautifulSoup(page)get_tags=soup.findAll('hr'and'strong')foreachinget_tags:printeach如果我在只有“em”或“strong”的页面上使用它,那么它会得到所有这些标签,如果我在一个页面上同时使用它会得到“strong”标签。有

python - 使用 Python 和 BeautifulSoup(将网页源代码保存到本地文件中)

我正在使用Python2.7+BeautifulSoup4.3.2。我正在尝试使用Python和BeautifulSoup来获取网页上的信息。因为网页在公司网站,需要登录和重定向,所以为了方便练习,我把目标页面的源代码页面复制到一个文件中,保存为“example.html”在C:\中。这是原代码的一部分:port_new_cape452SouthMay09,1997Jan23,200912:05pm 到目前为止我编写的代码是:frombs4importBeautifulSoupimportreimporturllib2url="C:\example.html"page=url