草庐IT

python - 用 BeautifulSoup 和多个段落进行抓取

我正在尝试使用BeautifulSoup从网站上抓取一段演讲。然而,我遇到了问题,因为演讲分为许多不同的段落。我对编程非常陌生,并且无法弄清楚如何处理这个问题。该页面的HTML如下所示:Thankyouverymuch.Mr.Speaker,VicePresidentCheney,MembersofCongress,distinguishedguests,fellowcitizens:Aswegathertonight,ourNationisatwar;oureconomyisinrecession;andthecivilizedworldfacesunprecedenteddange

python - 如何从一个随机网站上抓取所有产品?

我试图从thiswebsite获取所有产品但不知何故,我不认为我选择了最好的方法,因为其中一些丢失了,我不知道为什么。这不是我第一次遇到这个问题。我现在的做法是这样的:转到indexpage网站的从那里获取所有类别(A-Z0-9)访问上述每个类别并从那里递归遍历所有子类别,直到到达产品页面当我到达产品页面时,检查产品是否有更多SKU。如果有,请获取链接。否则,这是唯一的SKU。现在,下面的代码可以工作,但它并没有得到所有的产品,而且我看不出有任何原因会导致它跳过一些。也许我处理一切的方式是错误的。fromlxmlimporthtmlfromrandomimportrandintfrom

python - 在 python 中抓取绝对 URL 而不是相对路径

我正在尝试从HTML代码中获取所有href,并将其存储在列表中以供将来处理,例如:示例网址:www.example-page-xl.comHelloWorld我正在使用以下代码列出href:importbs4asbs4importurllib.requestsauce=urllib.request.urlopen('https:www.example-page-xl.com').read()soup=bs.BeautifulSoup(sauce,'lxml')section=soup.sectionforurlinsection.find_all('a'):print(url.get(

python - 如何使用网络抓取工具提前解决 reCaptcha?

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭去年。Improvethisquestion我目前正在尝试解决reCaptcha。收到的建议之一是一种称为代币耕作的方法。例如,可以从另一个站点获取reCaptchatoken,并在2分钟内将其中一个获取的token应用到我试图通过更改背面的站点代码来解决的站点。不幸的是,无法获得有关如何着手进行的任何进一步解释,尤其是更改背面的网站代码。如果有人能够详细说明或提供有关流程的见解,我们将不胜感激。

Python - 抓取谷歌的简单方法,下载给定搜索的前 N ​​个命中(整个 .html 文档)?

有没有一种简单的方法来抓取Google并为给定搜索写入前N个(比如1000个).html(或其他)文档的文本(只是文本)?举个例子,想象一下搜索短语“bigbadwolf”并只下载前1000个命中的文本——即实际从这1000个网页(但只是那些页面,而不是整个站点)下载文本).我假设这会使用urllib2库?如果有帮助,我会使用Python3.1。 最佳答案 查看BeautifulSoup用于从网页中抓取内容。它应该非常容忍损坏的网页,这将有所帮助,因为并非所有结果都格式正确。所以你应该能够:请求http://www.google.c

python - scrapy 爬虫抓取实例数据异常

刚接触python,想用scrapy搭建一个网络爬虫。我浏览了http://blog.siliconstraits.vn/building-web-crawler-scrapy/中的教程.蜘蛛代码如下:fromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportHtmlXPathSelectorfromnettuts.itemsimportNettutsItemfromscrapy.httpimportRequestclassMySpider(BaseSpider):name="nettuts"allowed_domains=["

python - 在使用 Scrapy 进行身份验证的同时抓取 LinkedIn

所以我通读了CrawlingwithanauthenticatedsessioninScrapy我被挂断了,我99%确定我的解析代码是正确的,我只是不相信登录正在重定向并成功。我也遇到了check_login_response()的问题,不确定它正在检查哪个页面。虽然“注销”是有意义的。======已更新======fromscrapy.contrib.spiders.initimportInitSpiderfromscrapy.httpimportRequest,FormRequestfromscrapy.contrib.linkextractors.sgmlimportSgmlLi

python - Scrapy 从文件中读取 URL 列表以进行抓取?

我刚刚安装了scrapy并遵循了他们简单的dmoztutorial哪个有效。我只是查找了python的基本文件处理,并试图让爬虫从文件中读取URL列表,但出现了一些错误。这可能是错误的,但我试了一下。有人可以给我看一个将URL列表读入scrapy的例子吗?提前致谢。fromscrapy.spiderimportBaseSpiderclassDmozSpider(BaseSpider):name="dmoz"allowed_domains=["dmoz.org"]f=open("urls.txt")start_urls=fdefparse(self,response):filename=

python - 抓取动态网站

抓取大部分内容似乎是由ajax请求生成的动态网站的最佳方法是什么?我以前有使用Mechanize、BeautifulSoup和Python组合的经验,但我正在准备一些新东西。--编辑--有关更多详细信息:我正在尝试抓取CNNprimarydatabase.那里有大量信息,但似乎没有API。 最佳答案 这是一个难题,因为您要么必须在每个站点的基础上对javascript进行逆向工程,要么实现javascript引擎并运行脚本(这有其自身的困难和陷阱)。这是一个重量级的解决方案,但我见过有人使用greasemonkey脚本来实现这一点-

python - 如何使用 Python 抓取具有动态生成的 URL 的页面?

我正在尝试抓取http://www.dailyfinance.com/quote/NYSE/international-business-machines/IBM/financial-ratios,但传统的url字符串构建技术不起作用,因为“完整的公司名称被插入到路径中”字符串。并且事先不知道确切的“公司全名”。只有公司标志“IBM”为人所知。基本上,我抓取的方式是循环遍历公司符号数组并在将其发送到urllib2.urlopen(url)之前构建url字符串。但在这种情况下,这是不可能的。例如CSCO字符串是http://www.dailyfinance.com/quote/NASDA