草庐IT

BeautifulSoup4

全部标签

python - pip install 请求异常和 pip install beautifulsoup4 异常

我已经在Windows7上安装了Python3.4.1,包括pip,并且在安装过程中选择了将python.exe添加到PATH。运行pipinstallrequests时我得到:C:\Python34>pipinstallrequestsRequirementalreadysatisfied(use--upgradetoupgrade):requestsinc:\python34\lib\site-packagesCleaningup...Exception:Traceback(mostrecentcalllast):File"C:\Python34\lib\shutil.py",li

python - 如何使用 BeautifulSoup 抓取 Instagram

我想从公共(public)Instagram帐户中抓取图片。我对bs4非常熟悉,所以我从它开始。使用Chrome上的元素检查器,我注意到图片在无序列表中,并且li有类“照片”,所以我想,这到底是怎么回事——用findAll抓取不会那么难,对吧?错误:它没有返回任何东西(下面的代码),我很快注意到元素检查器中显示的代码和我从请求中提取的代码不一样也就是没有无序列表我从请求中提取的代码。知道如何获取元素检查器中显示的代码吗?仅作记录,这是我开始的代码,它不起作用,因为没有无序列表:frombs4importBeautifulSoupimportrequestsimportrer=reque

python - BeautifulSoup:如何用元素标签替换元素中的值?

假设我有这段HTML:Thistextismytext如何用anchor元素替换第一个“文本”,使结果变为:Thistextismytext我基本上想用标签替换NavigableString中的子字符串。 最佳答案 您的问题分为两部分:将单个NavigableString“Thistextismy”转换为NavigableString、一个Tag和另一个NavigableString。用三个新元素替换NavigableString“Thistextismy”。#1的答案取决于您的情况。具体来说,这取决于您如何确定文本的哪一部分需要链

python - 将 BeautifulSoup 与多处理池映射一起使用时的递归深度错误

我一直在使用BeautifulSoup来解析html文件,而我编写的所有脚本都运行良好但速度很慢。所以我正在尝试将多处理工作池与BeautifulSoup一起使用,这样我的程序可以运行得更快(我有100,000-1,000,000个html文件要打开)。我写的脚本比较复杂,但我在这里写下了一个小例子。我正在尝试做这样的事情,但我一直收到错误'运行时错误:酸洗对象时超出最大递归深度'编辑代码frombs4importBeautifulSoupfrommultiprocessingimportPooldefextraction(path):soup=BeautifulSoup(open(p

python - Selenium Webdriver/Beautifulsoup + 网页抓取 + 错误 416

我正在使用Python中的seleniumwebdriver和Proxy进行网络抓取.我想使用此抓取浏览超过10k页的单个站点。问题使用此代理我只能发送一次请求。当我在同一个链接或本网站的另一个链接上发送另一个请求时,我会收到416错误(使用防火墙阻止IP的一种)持续1-2小时。注意:我可以使用此代码抓取所有正常网站,但该网站有某种安全措施阻止我抓取。这是代码。profile=webdriver.FirefoxProfile()profile.set_preference("network.proxy.type",1)profile.set_preference("network.pr

python - 使用 BeautifulSoup 排除不需要的 findAll 结果

使用BeautifulSoup,我的目标是抓取与此HTML钩子(Hook)关联的文本:所以,使用如下简单的代码,content=page.read()soup=BeautifulSoup(content)results=soup.find_all("p","review_comment")我很乐意解析这里的文本:Thisplaceisterrible!坏消息是每30次左右soup.find_all得到一个匹配,它也匹配并抓取一些我真的不想要的东西,这是一个用户的旧评论,他们已经更新了:It's1999,andIwillalwayslovethisplace…Readmore»

python - BeautifulSoup - 提取属性值

如果BeautifulSoup给我一个这样的anchor标签:如何检索href属性的值? 最佳答案 如果您已经有了anchor,请像这样获取href属性:href=anchor["href"] 关于python-BeautifulSoup-提取属性值,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/1684120/

python - 查找带有 beautifulsoup 的特定链接

您好,我一直无法弄清楚如何找到以特定文本开头的链接。findall('a')工作正常,但它太多了。我只想列出所有以http://www.nhl.com/ice/boxscore.htm?id=谁能帮帮我?非常感谢 最佳答案 首先设置一个测试文档并用BeautifulSoup打开解析器:>>>fromBeautifulSoupimportBeautifulSoup>>>doc='yepsomelinkanother'>>>soup=BeautifulSoup(doc)>>>printsoup.prettify()yepsomelink

python - Beautifulsoup:解析html——获取href的一部分

我正在尝试解析76561198134729239对于76561198134729239。我不知道该怎么做。我尝试了什么:importrequestsfromlxmlimporthtmlfrombs4importBeautifulSoupr=requests.get("http://ppm.rep.tf/index.php?p=banlist&page=154")content=r.contentsoup=BeautifulSoup(content,"html.parser")element=soup.find("td",{"class":"listtable_1","target":"

c# - BeautifulSoup 类似于 C#

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭9年前。C#有没有类似BeautifulSoup的库?我想简单地解析HTML和XML,特别是有错误的HTML。