抓取

python - 用 BeautifulSoup 和多个段落进行抓取

我正在尝试使用BeautifulSoup从网站上抓取一段演讲。然而，我遇到了问题，因为演讲分为许多不同的段落。我对编程非常陌生，并且无法弄清楚如何处理这个问题。该页面的HTML如下所示:Thankyouverymuch.Mr.Speaker,VicePresidentCheney,MembersofCongress,distinguishedguests,fellowcitizens:Aswegathertonight,ourNationisatwar;oureconomyisinrecession;andthecivilizedworldfacesunprecedenteddange

BeautifulSoup 段落 34 code python web-scraping

python - 如何从一个随机网站上抓取所有产品？

我试图从thiswebsite获取所有产品但不知何故，我不认为我选择了最好的方法，因为其中一些丢失了，我不知道为什么。这不是我第一次遇到这个问题。我现在的做法是这样的:转到indexpage网站的从那里获取所有类别(A-Z0-9)访问上述每个类别并从那里递归遍历所有子类别，直到到达产品页面当我到达产品页面时，检查产品是否有更多SKU。如果有，请获取链接。否则，这是唯一的SKU。现在，下面的代码可以工作，但它并没有得到所有的产品，而且我看不出有任何原因会导致它跳过一些。也许我处理一切的方式是错误的。fromlxmlimporthtmlfromrandomimportrandintfrom

站上 python 39 link page python-3.x web-scraping lxml

python - 在 python 中抓取绝对 URL 而不是相对路径

我正在尝试从HTML代码中获取所有href，并将其存储在列表中以供将来处理，例如:示例网址:www.example-page-xl.comHelloWorld我正在使用以下代码列出href:importbs4asbs4importurllib.requestsauce=urllib.request.urlopen('https:www.example-page-xl.com').read()soup=bs.BeautifulSoup(sauce,'lxml')section=soup.sectionforurlinsection.find_all('a'):print(url.get(

python 绝对 section example-page-xl helloworld beautifulsoup mechanize

python - 如何使用网络抓取工具提前解决 reCaptcha？

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭去年。Improvethisquestion我目前正在尝试解决reCaptcha。收到的建议之一是一种称为代币耕作的方法。例如，可以从另一个站点获取reCaptchatoken，并在2分钟内将其中一个获取的token应用到我试图通过更改背面的站点代码来解决的站点。不幸的是，无法获得有关如何着手进行的任何进一步解释，尤其是更改背面的网站代码。如果有人能够详细说明或提供有关流程的见解，我们将不胜感激。

reCaptcha python section class notice python-2.7 web-scraping

Python - 抓取谷歌的简单方法，下载给定搜索的前 N 个命中(整个 .html 文档)？

有没有一种简单的方法来抓取Google并为给定搜索写入前N个(比如1000个).html(或其他)文档的文本(只是文本)？举个例子，想象一下搜索短语“bigbadwolf”并只下载前1000个命中的文本——即实际从这1000个网页(但只是那些页面，而不是整个站点)下载文本).我假设这会使用urllib2库？如果有帮助，我会使用Python3.1。最佳答案查看BeautifulSoup用于从网页中抓取内容。它应该非常容忍损坏的网页，这将有所帮助，因为并非所有结果都格式正确。所以你应该能够:请求http://www.google.c

给定 Python section BeautifulSoup noreferrer web-scraping urllib2 google-search

python - scrapy 爬虫抓取实例数据异常

刚接触python，想用scrapy搭建一个网络爬虫。我浏览了http://blog.siliconstraits.vn/building-web-crawler-scrapy/中的教程.蜘蛛代码如下:fromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportHtmlXPathSelectorfromnettuts.itemsimportNettutsItemfromscrapy.httpimportRequestclassMySpider(BaseSpider):name="nettuts"allowed_domains=["

爬虫 python section 34 web-crawler scrapy

python - 在使用 Scrapy 进行身份验证的同时抓取 LinkedIn

所以我通读了CrawlingwithanauthenticatedsessioninScrapy我被挂断了，我99%确定我的解析代码是正确的，我只是不相信登录正在重定向并成功。我也遇到了check_login_response()的问题，不确定它正在检查哪个页面。虽然“注销”是有意义的。======已更新======fromscrapy.contrib.spiders.initimportInitSpiderfromscrapy.httpimportRequest,FormRequestfromscrapy.contrib.linkextractors.sgmlimportSgmlLi

LinkedIn python scrapy response 39 scraper

python - Scrapy 从文件中读取 URL 列表以进行抓取？

我刚刚安装了scrapy并遵循了他们简单的dmoztutorial哪个有效。我只是查找了python的基本文件处理，并试图让爬虫从文件中读取URL列表，但出现了一些错误。这可能是错误的，但我试了一下。有人可以给我看一个将URL列表读入scrapy的例子吗？提前致谢。fromscrapy.spiderimportBaseSpiderclassDmozSpider(BaseSpider):name="dmoz"allowed_domains=["dmoz.org"]f=open("urls.txt")start_urls=fdefparse(self,response):filename=

python Scrapy section 34 code

python - 抓取动态网站

抓取大部分内容似乎是由ajax请求生成的动态网站的最佳方法是什么？我以前有使用Mechanize、BeautifulSoup和Python组合的经验，但我正在准备一些新东西。--编辑--有关更多详细信息:我正在尝试抓取CNNprimarydatabase.那里有大量信息，但似乎没有API。最佳答案这是一个难题，因为您要么必须在每个站点的基础上对javascript进行逆向工程，要么实现javascript引擎并运行脚本(这有其自身的困难和陷阱)。这是一个重量级的解决方案，但我见过有人使用greasemonkey脚本来实现这一点-

python 抓取 section javascript stackoverflow ajax screen-scraping beautifulsoup

python - 如何使用 Python 抓取具有动态生成的 URL 的页面？

我正在尝试抓取http://www.dailyfinance.com/quote/NYSE/international-business-machines/IBM/financial-ratios，但传统的url字符串构建技术不起作用，因为“完整的公司名称被插入到路径中”字符串。并且事先不知道确切的“公司全名”。只有公司标志“IBM”为人所知。基本上，我抓取的方式是循环遍历公司符号数组并在将其发送到urllib2.urlopen(url)之前构建url字符串。但在这种情况下，这是不可能的。例如CSCO字符串是http://www.dailyfinance.com/quote/NASDA

python code dailyfinance pre web-scraping beautifulsoup urllib2

81 82 838485 86 87