抓取

python - 如何从无限滚动网站上抓取所有内容？抓取

我正在使用scrapy。我正在使用的网站具有无限滚动功能。该网站有很多帖子，但我只抓取了13个。如何抓取剩余的帖子？这是我的代码:classexampleSpider(scrapy.Spider):name="example"#from_date=datetime.date.today()-datetime.timedelta(6*365/12)allowed_domains=["example.com"]start_urls=["http://www.example.com/somethinghere/"]defparse(self,response):forhrefinrespon

站上 python spynner section strong web-scraping scrapy web-crawler sitemap

python - urllib 中 http ://www. ssa.gov/cgi-bin/popularnames.cgi 的(大概是基本的)网络抓取

我对Python(和网络抓取)还很陌生。让我问你一个问题。许多网站实际上并没有报告其在Firefox或其他浏览器中的特定URL。例如，SocialSecurityAdmin显示了流行的婴儿名字和排名(自1880年以来)，但是当我将年份从1880更改为1881时，url并没有改变。它是不断的，http://www.ssa.gov/cgi-bin/popularnames.cgi因为不知Prop体的URL，无法使用urllib下载网页。在这个页面源码中，包括:所以大概，如果我能控制这个“年份”值(比如“1881”或“1991”)，我就能解决这个问题。我对吗？我仍然不知道该怎么做。谁能告诉我

python - 抓取数据时出现 Selenium 错误 "Element is no longer attached to the DOM"

foriindriver.find_elements_by_class_name("endorse-count"):try:i.click()except:continueelem=WebDriverWait(driver,100).until(EC.presence_of_element_located((By.CLASS_NAME,"dialog-window")))src=elem.get_attribute("innerHTML")add_skill(name,src)WebDriverWait(driver,timeout=10)运行上述代码时出现以下错误-selenium.

时出 amp section code python dom selenium exception-handling selenium-webdriver

php - 是否有任何语言只是 "perfect"用于网络抓取？

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。我使用了3种语言来进行Web抓取——Ruby、PHP和Python，老实说，它们似乎都不能完美地完成这项任务。Ruby具有出色的Mechanize和XML解析库，但对电子表格的支持非常差。PHP具有出色的电子表格和HTML解析库，但它没有WWW:Mechanize的等价物。Python有一个非常糟糕的Mechanize库。我遇到了很多问题，但仍然无法解决

amp perfect section notice Mechanize php python ruby web-scraping

python - Matplotlib:从多个子图中抓取单个子图

我有一个应用程序，其中有一个图形和九个线图子图(3x3)，我想让用户选择其中一个图表并打开一个小型wxPython应用程序以允许编辑和缩放指定的子图。是否可以从选定的子图中获取所有信息，即轴标签、轴格式、线条、刻度大小、刻度标签等，并在wx应用程序的Canvas上快速绘制出来？我目前的解决方案太长太笨重，因为我只是重做用户选择的情节。我在想这样的事情，但它不太正确。#axisadictionarycontainingeachinstanceoftheaxissub-plotselected_ax=ax[6]wx_fig=plt.figure(**kwargs)ax=wx_fig.add

图中个子 section ax event python matplotlib

python - 如何计算 torrent 的抓取 URL

我已经阅读了Bit-torrent规范并进行了大量搜索，试图找出如何从Torrent跟踪器(使用Python)获取种子/同行/下载数据。我可以毫无问题地从Torrent计算信息散列，它与各种工作torrent应用程序提供的信息散列相匹配。但是，当我尝试从跟踪器获取信息时，我要么超时(跟踪器正在工作)要么获取空数据，具体取决于我将URL置于何种形式:http://tracker.openbittorrent.com/scrape?info_hash=a8c482902b1c735de462479721b011dc7b3d3558-超时有人告诉我这应该是20个字符长，所以取了一个子字符串，

torrent python 跟踪器 section info_hash bittorrent

python - OpenCV + python——从视频文件中抓取帧

我似乎无法使用OpenCV从文件中捕获帧——我已经根据以下所有必要的先决条件在Ubuntu上从源代码编译:http://opencv.willowgarage.com/wiki/InstallGuide%20%3A%20Debian#!/usr/bin/envpythonimportcvimportsysfiles=sys.argv[1:]forfinfiles:capture=cv.CaptureFromFile(f)printcaptureprintcv.GetCaptureProperty(capture,cv.CV_CAP_PROP_FRAME_WIDTH)printcv.Ge

python mdash code section capture opencv video-processing

python - 如何重新安排 403 HTTP 状态代码稍后在 scrapy 中抓取？

根据theseinstructions我可以看到HTTP500错误、连接丢失错误等总是被重新安排，但如果403错误也被重新安排，或者它们只是被视为有效响应或在达到重试限制后被忽略，我找不到任何地方。同样来自同一条指令:Failedpagesarecollectedonthescrapingprocessandrescheduledattheend,oncethespiderhasfinishedcrawlingallregular(nonfailed)pages.Oncetherearenomorefailedpagestoretry,thismiddlewaresendsasigna

python scrapy code section web-scraping

python - Python 3.3 是否比 2.7 更好地解码和重新编码已抓取的 Web 文本为 UTF-8？比如，好多了？

似乎有一百万个问题涉及PythonUnicode错误，其中...ordinal[is]notinrange(128)。看起来，绝大多数都涉及Python2.x。我知道这些错误，因为我目前正处于编码、解码的hell中。对于一个副项目，我抓取网页并尝试规范化该文本数据，这样它就不会出现在我们的网站上，带有疯狂的字符。为了规范化数据，我依靠HTMLParser的HTMLParser()和entitydefs，以及从文本的原始形式(string.decode('[原始编码]','ignore'))并将其编码为UTF-8(string.encode('utf-8','ignore'))。然而，似

UTF-8 python code 的 python-2.7 python-3.x unicode encoding

涉及带有属性的 HTML 标签的 Python 网络抓取

我正在尝试制作一个网络抓取工具，它将解析出版物的网页并提取作者。网页的骨架结构如下:####Iwantwhateverislocatedhere###到目前为止，我一直在尝试使用BeautifulSoup和lxml来完成这项任务，但我不确定如何处理这两个div标签和td标签，因为它们具有属性。除此之外，我不确定我是否应该更多地依赖BeautifulSoup或lxml或两者的组合。我该怎么办？目前，我的代码如下所示:importreimporturllib2,sysimportlxmlfromlxmlimportetreefromlxml.html.soupparserimportfro

Python HTML code import beautifulsoup lxml screen-scraping

49 50 515253 54 55