草庐IT

beautifulSoup

全部标签

python - 解析 HTML 表格的最快、最简单和最好的方法?

我正在尝试获取此表http://www.datamystic.com/timezone/time_zones.html成数组格式,这样我就可以用它做任何我想做的事。最好使用PHP、Python或JavaScript。这种问题经常出现,因此我没有寻求解决这个特定问题的帮助,而是寻找有关如何解决所有类似问题的想法。首先想到的是BeautifulSoup。另一种可能性是将其复制/粘贴到TextMate中,然后运行正则表达式。你有什么建议?这是我最终编写的脚本,但正如我所说,我正在寻找更通用的解决方案。fromBeautifulSoupimportBeautifulSoupimporturll

python - pip install 请求异常和 pip install beautifulsoup4 异常

我已经在Windows7上安装了Python3.4.1,包括pip,并且在安装过程中选择了将python.exe添加到PATH。运行pipinstallrequests时我得到:C:\Python34>pipinstallrequestsRequirementalreadysatisfied(use--upgradetoupgrade):requestsinc:\python34\lib\site-packagesCleaningup...Exception:Traceback(mostrecentcalllast):File"C:\Python34\lib\shutil.py",li

python - 如何使用 BeautifulSoup 抓取 Instagram

我想从公共(public)Instagram帐户中抓取图片。我对bs4非常熟悉,所以我从它开始。使用Chrome上的元素检查器,我注意到图片在无序列表中,并且li有类“照片”,所以我想,这到底是怎么回事——用findAll抓取不会那么难,对吧?错误:它没有返回任何东西(下面的代码),我很快注意到元素检查器中显示的代码和我从请求中提取的代码不一样也就是没有无序列表我从请求中提取的代码。知道如何获取元素检查器中显示的代码吗?仅作记录,这是我开始的代码,它不起作用,因为没有无序列表:frombs4importBeautifulSoupimportrequestsimportrer=reque

python - BeautifulSoup:如何用元素标签替换元素中的值?

假设我有这段HTML:Thistextismytext如何用anchor元素替换第一个“文本”,使结果变为:Thistextismytext我基本上想用标签替换NavigableString中的子字符串。 最佳答案 您的问题分为两部分:将单个NavigableString“Thistextismy”转换为NavigableString、一个Tag和另一个NavigableString。用三个新元素替换NavigableString“Thistextismy”。#1的答案取决于您的情况。具体来说,这取决于您如何确定文本的哪一部分需要链

python - 如何从 Python 中查看 Tumblr 帖子的所有注释?

假设我查看了以下Tumblr帖子:http://ronbarak.tumblr.com/post/40692813…它(目前)有292个音符。我想使用Python脚本(例如,通过urllib2、BeautifulSoup、simplejson或tumblrApi)获取所有上述注释。一些广泛的谷歌搜索没有产生任何与在Tumblr中提取笔记相关的项目。谁能给我指出正确的方向,告诉我哪个工具能让我做到这一点? 最佳答案 不幸的是,TumblrAPI似乎有一些限制(缺少关于Reblogs的元信息,笔记限制为50),所以你无法获得所有笔记。也

jquery - 用于执行类似 jQuery 的文本提取的 Python 库?

我有包含如下条目的html:BlogEntry...我想提取文本“BlogEntry”(以及许多其他属性,因此我正在寻找通用答案)。在jQuery中,我会这样做$('.entrya[rel=bookmark]').text()我在Python中最接近的是:fromBeautifulSoupimportBeautifulSoupimportsoupselectassouprawsoup=BeautifulSoup(open('fname.html').read())forentryinrawsoup.findAll('div','entry'):printsoup.select(entr

python - 使用 Python 进行网页抓取

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭3年前。Improvethisquestion我目前正在尝试抓取一个HTML格式相当糟糕的网站(通常缺少结束标记,不使用类或ID,因此很难直接找到您想要的元素,等等)。到目前为止,我一直在使用BeautifulSoup并取得了一些成功,但每隔一段时间(尽管很少),我会遇到一个页面,其中BeautifulSoup创建的HTML树与(例如)Firefox或Webkit有点不同。虽然这是可以理解的,因为HTML的格式会

python - 使用 Beautiful Soup 从 'src' 标签中提取 'img' 属性

考虑:我想使用BeautifulSoup从图像(即img)标签中提取源(即src)属性。我使用BeautifulSoup4,我无法使用a.attrs['src']获取src,但我可以获取href。我该怎么办? 最佳答案 您可以使用BeautifulSoup提取HTMLimg标签的src属性。在我的示例中,htmlText包含img标记本身,但这也可以用于URL,以及urllib2。对于URLfromBeautifulSoupimportBeautifulSoupasBSHTMLimporturllib2page=urllib2.ur

python - 将 BeautifulSoup 与多处理池映射一起使用时的递归深度错误

我一直在使用BeautifulSoup来解析html文件,而我编写的所有脚本都运行良好但速度很慢。所以我正在尝试将多处理工作池与BeautifulSoup一起使用,这样我的程序可以运行得更快(我有100,000-1,000,000个html文件要打开)。我写的脚本比较复杂,但我在这里写下了一个小例子。我正在尝试做这样的事情,但我一直收到错误'运行时错误:酸洗对象时超出最大递归深度'编辑代码frombs4importBeautifulSoupfrommultiprocessingimportPooldefextraction(path):soup=BeautifulSoup(open(p

python - Selenium Webdriver/Beautifulsoup + 网页抓取 + 错误 416

我正在使用Python中的seleniumwebdriver和Proxy进行网络抓取.我想使用此抓取浏览超过10k页的单个站点。问题使用此代理我只能发送一次请求。当我在同一个链接或本网站的另一个链接上发送另一个请求时,我会收到416错误(使用防火墙阻止IP的一种)持续1-2小时。注意:我可以使用此代码抓取所有正常网站,但该网站有某种安全措施阻止我抓取。这是代码。profile=webdriver.FirefoxProfile()profile.set_preference("network.proxy.type",1)profile.set_preference("network.pr