草庐IT

python - 如何使用 BeautifulSoup 抓取 Instagram

我想从公共(public)Instagram帐户中抓取图片。我对bs4非常熟悉,所以我从它开始。使用Chrome上的元素检查器,我注意到图片在无序列表中,并且li有类“照片”,所以我想,这到底是怎么回事——用findAll抓取不会那么难,对吧?错误:它没有返回任何东西(下面的代码),我很快注意到元素检查器中显示的代码和我从请求中提取的代码不一样也就是没有无序列表我从请求中提取的代码。知道如何获取元素检查器中显示的代码吗?仅作记录,这是我开始的代码,它不起作用,因为没有无序列表:frombs4importBeautifulSoupimportrequestsimportrer=reque

python - 如何用scrapy抓取每个链接的所有内容?

我是scrapy的新手,我想从这个website中提取每个广告的所有内容.所以我尝试了以下方法:fromscrapy.spidersimportSpiderfromcraigslist_sample.itemsimportCraigslistSampleItemfromscrapy.selectorimportSelectorclassMySpider(Spider):name="craig"allowed_domains=["craigslist.org"]start_urls=["http://sfbay.craigslist.org/search/npo"]defparse(se

python - 无需明确定义要抓取的每个字段即可抓取数据

我想抓取一页数据(使用PythonScrapy库),而不必在页面上定义每个单独的字段。相反,我想使用元素的id作为字段名称动态生成字段。起初我认为最好的方法是建立一个收集所有数据的管道,并在收集到所有数据后将其输出。然后我意识到我需要将数据传递到项目中的管道,但我无法定义项目,因为我不知道它需要哪些字段!解决这个问题的最佳方法是什么? 最佳答案 更新:旧方法不适用于itemloaders并不必要地使事情复杂化。这是实现灵活项目的更好方法:fromscrapy.itemimportBaseItemfromscrapy.contrib.

python - 使用 Python 进行网页抓取

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭3年前。Improvethisquestion我目前正在尝试抓取一个HTML格式相当糟糕的网站(通常缺少结束标记,不使用类或ID,因此很难直接找到您想要的元素,等等)。到目前为止,我一直在使用BeautifulSoup并取得了一些成功,但每隔一段时间(尽管很少),我会遇到一个页面,其中BeautifulSoup创建的HTML树与(例如)Firefox或Webkit有点不同。虽然这是可以理解的,因为HTML的格式会

python - 使用 tor 和 python 抓取谷歌学术搜索

我正在从事一个分析期刊文章被引用方式的项目。我有一个很大的期刊文章名称文件。我打算将它们传递给GoogleScholar,看看每个都有多少引用。这是我遵循的策略:使用http://www.icir.org/christian/scholar.html中的“scholar.py”.这是一个预先编写的python脚本,用于搜索googlescholar并以CSV格式返回第一次命中的信息(包括引用次数)Googlescholar在搜索一定次数后屏蔽你(我有大约3000篇文章标题要查询)。我发现大多数人使用Tor(Howtomakeurllib2requeststhroughTorinPyth

python - Selenium Webdriver/Beautifulsoup + 网页抓取 + 错误 416

我正在使用Python中的seleniumwebdriver和Proxy进行网络抓取.我想使用此抓取浏览超过10k页的单个站点。问题使用此代理我只能发送一次请求。当我在同一个链接或本网站的另一个链接上发送另一个请求时,我会收到416错误(使用防火墙阻止IP的一种)持续1-2小时。注意:我可以使用此代码抓取所有正常网站,但该网站有某种安全措施阻止我抓取。这是代码。profile=webdriver.FirefoxProfile()profile.set_preference("network.proxy.type",1)profile.set_preference("network.pr

Python 使用 Selenium 和 Beautiful Soup 抓取 JavaScript

我正在尝试使用BS和Selenium抓取启用JavaScript的页面。到目前为止,我有以下代码。它仍然没有以某种方式检测到JavaScript(并返回空值)。在这种情况下,我试图在底部抓取Facebook评论。(检查元素将类显示为postText)感谢您的帮助!fromseleniumimportwebdriverfromselenium.common.exceptionsimportNoSuchElementExceptionfromselenium.webdriver.common.keysimportKeysimportBeautifulSoupbrowser=webdrive

python - 用 python 抓取谷歌新闻

我正在为不同的新闻媒体创建一个网络抓取工具,对于纽约时报和卫报来说这很容易,因为他们有自己的API。现在,我想从这份报纸GulfTimes.com中抓取结果。他们的网站不提供高级搜索,所以我求助于谷歌新闻。但是,Google新闻Api已被弃用。我想要的是从高级搜索中检索结果的数量,例如关键字=“埃及”和begin_date="10/02/2011"和end_date="10/05/2011"。这在GoogleNewsUI中是可行的,只需将源作为“海湾时报”和相应的查询和日期,然后简单地手动计算结果的数量,但是当我尝试使用python执行此操作时,出现403错误这是可以理解的。关于如何执

python - 使用 R 抓取 PDF

我一直在成功地使用XML包来提取HTML表格,但想扩展到PDF。从以前的问题来看,似乎没有简单的R解决方案,但想知道最近是否有任何进展如果做不到这一点,Python中是否有某种方法(我是一个完全的新手)获得并处理pdf,以便我可以使用RXML包完成工作 最佳答案 从PDF中提取文本很困难,而且几乎总是需要非常小心。我将从pdftotext等命令行工具开始,看看它们输出了什么。问题是PDF可以按任何顺序存储文本,可以使用笨拙的字体编码,并且可以做一些事情,比如使用连字字符(你在正确排版中看到的连接的'ff'和'ij')让你失望。pdf

python - 用于网络抓取的旋转代理

我有一个python网络爬虫,我想在许多不同的代理服务器之间分发下载请求,可能运行squid(尽管我对替代方案持开放态度)。例如,它可以以循环方式工作,其中request1转到proxy1,request2转到proxy2,最后循环回来。知道如何设置吗?为了让它变得更难,我还希望能够动态更改可用代理列表,关闭一些,并添加其他。如果重要的话,IP地址是动态分配的。谢谢:) 最佳答案 我已经使用HAProxy+DeleGate+多个Tor实例设置了轮换代理。使用Tor,您无法很好地控制带宽和延迟,但它对网络抓取很有用。我刚刚发表了一篇关