金融数据获取：当爬虫遇上要鼠标滚轮滚动才会刷新数据的网页（保姆级教程）

Simon Cao 2024-01-03 原文

1. 谁这么会给我整活儿

什么，新浪的股票历史数据已经不直接提供了！

笔者前几日需要找一些澳洲市场的数据，奈何API没到澳洲落地生根，无奈的我只好寄希望于爬虫。当我轻车熟路的点开新浪财经上相关数据，我惊讶的发现早已空空如也。再看看A股数据，原本熟悉的交易数据也早已不复存在，取而代之的是一个叫数据中心的东西，里面也没有笔者想要的数据。

以前还很容易找到的数据现在人是物非，以前的代码也参考不了了，令人唏嘘。笔者不禁感叹难怪爬数据的越来越少了，毕竟有API这种东西谁还会去干这种费力不讨好的活。

笔者当即换了Yahoo Finance，果不其然找到了想要的数据。于是笔者开心的写了个小爬虫。

import requests
import pandas as pd


headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.53 Safari/537.36 Edg/103.0.1264.37"}
url = "https://finance.yahoo.com/quote/%5EDJI/history?period1=1601510400&period2=1656460800&interval=1d&filter=history&frequency=1d&includeAdjustedClose=true"
re = requests.get(url, headers = headers)
print(pd.read_html(re.text)[0])

然而还不待笔者开心，立马发现爬到的数据只有短短100行？？？

笔者百思不得其解，re明明请求的是三年数据的URL，为何爬下来就只剩100行了。

折腾了好半天，终于发现原来是因为雅虎数据要用鼠标滚轮往下滑才会刷出来，原始请求的网页上只有100行数据。现在排查到问题所在，那么如何解决呢？

2. Selenium模拟网页浏览器爬取

Selenium为我们提供了一个很好的解决方案，我们传统的requests模块请求只能请求到固定网页所返回的内容，但对于需要进行点击或者像笔者碰到这个用鼠标滚轮滚动才能刷出来的数据便显得苍白无力。

笔者只在以前初学爬虫时用过selenium，毕竟不是经常碰到这么难搞的网页。因此笔者将从0开始出一期针对这种网页爬虫的保姆级教程。

2.1 安装和准备工作

请先装，导入模块

pip install selenium

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

接下来正是开始，经过C站搜索，这种网页先要使用selenium模拟的浏览器打开：

url = "https://finance.yahoo.com/quote/%5EDJI/history?period1=1601510400&period2=1656460800&interval=1d&filter=history&frequency=1d&includeAdjustedClose=true"
driver = webdriver.Chrome() #启动模拟浏览器
driver.get(url) # 打开要爬取的网页地址

运行到这里笔者踩第一个雷，报错WebDriverException: Message: 'chromedriver' executable needs to be in PATH：

又是一番折腾笔者找到解决办法：首先要下载一个模拟浏览器的启动文件，地址：ChromeDriver - WebDriver for Chrome - Downloads (chromium.org)https://chromedriver.chromium.org/downloads

需要注意的是，根据你的Chrome浏览器版本下载：

解压即可，但是安装位置必须在python.exe那个文件的同一个文件夹下:

接着就在环境变量中加入chromedriver.exe文件的地址，笔者是直接放在D盘里：

依次确认后不用重启电脑，直接开CMD启动 chromedriver.exe。如果如下图一样successfuly就代表成功了，之前的代码便可以成功运行

运行代码后会直接打开网页，提示正在受到自动软件的控制：

2.2 用鼠标滑动网页

当然不是真的用鼠标滑动网页，而是通过selenium实现控制，有 to(划到) 和 by(划多少) 两种划动方式，输入xy参数即可实现控制:

driver.execute_script('window.scrollBy(x, y)') #横向滑动x, 纵向滑动y
driver.execute_script('window.scrollTo(x,y)') #滑动到页面的x, y位置

通过写循环就可以控制它一直往下划动到底部以达到获取全部数据的目的，下面笔者提供两种划动策略，一种是别人写的，一种是笔者自己写的：

2.2.1 高度判断

思路是获取页面高度——To划动——再次获取页面高度——比较两次高度，如果==证明滑到底部了，结束循环。

while True:
    h_before = driver.execute_script('return document.body.scrollHeight;')
    time.sleep(2)
    driver.execute_script(f'window.scrollTo(0,{h_before})')
    time.sleep(2)
    h_after = driver.execute_script('return document.body.scrollHeight;')
    if h_before == h_after:
        break

但是！笔者用这种策略发现在Yahoo上不顶用，雅虎不管怎么划动，页面高度永远是一个固定的值。

出于给大家参考的目的笔者还是放上来了，看下面一堆评论说好，说不定别的网页能用上。

2.2.2 顶部距离判断

笔者自己另写了一个，利用到顶部距离判定是否到底：

driver.execute_script('return document.documentElement.scrollTop')

其实和刚刚差不多，也是用循环：获取当前位置到页面顶部距离——To划动——再次获取到顶部距离——比较两次距离——固定单位增加，如果==证明到底了，结束循环。

roll = 500
while True:
    h_before = driver.execute_script('return document.documentElement.scrollTop')
    time.sleep(1)
    driver.execute_script(f'window.scrollTo(0,{roll})')
    time.sleep(1)
    h_after = driver.execute_script('return document.documentElement.scrollTop')
    roll += 500
    print(h_after, h_before)
    if h_before == h_after:
        break

一次滑500像素可能有点慢，大家可以自行更改每次的划动参数。

这个方案对雅虎有用，可以看到的确在往下滑了，模拟浏览器上也能看到。至此，不显示数据的问题全部解决。

3: 爬取内容

通过page_source即可将划出来的数据统统导出，返回的数据是str的一堆网页标签。

driver.page_source

前面滑动最难的坎都过了，剩下全是基本爬虫操作了，因为这次笔者目标是表格数据，直接pandas read。先把滑动爬到的数据存变量，然后pandas解析即可，如果是爬取文本数据就需要大家用BeautifulSoup或者正则进一步解析一下了：

content = driver.page_source
data = pd.read_html(content)
table = pd.DataFrame(data[0])

4: 完整代码，结果展示

url = # 您需要爬取的网站
driver = webdriver.Chrome()
driver.get(url)

    roll = 1000
while True:
    h_before = driver.execute_script('return document.documentElement.scrollTop')
    time.sleep(1)
    driver.execute_script(f'window.scrollTo(0,{roll})')
    time.sleep(1)
    h_after = driver.execute_script('return document.documentElement.scrollTop')
    roll += 1000
    print(h_after, h_before)
    if h_before == h_after:
        break

content = driver.page_source
data = pd.read_html(content)
table = pd.DataFrame(data[0])
print(table)
table.to_csv("market_data.csv")

可以看到，笔者已经把道指的近几年数据全部拿到了：

这么简单的网页划动，您，学废了吗？

点赞评论+关注三连，您若不弃，我们风雨共济。

爬虫遇上 xff0c xff xff0 金融 python

有关金融数据获取：当爬虫遇上要鼠标滚轮滚动才会刷新数据的网页（保姆级教程）的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
postman接口测试工具-基础使用教程 - 2
1.postman介绍Postman一款非常流行的API调试工具。其实，开发人员用的更多。因为测试人员做接口测试会有更多选择，例如Jmeter、soapUI等。不过，对于开发过程中去调试接口，Postman确实足够的简单方便，而且功能强大。2.下载安装官网地址:https://www.postman.com/下载完成后双击安装吧，安装过程极其简单，无需任何操作3.使用教程这里以百度为例,工具使用简单，填写URL地址即可发送请求，在下方查看响应结果和响应状态码常用方法都有支持请求方法:getpostputdeleteGet、Post、Put与Delete的作用get：请求方法一般是用于数据查询，
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
STM32读取串口传感器数据（颗粒物传感器，主动上传） - 2
文章目录1.开发板选择*用到的资源2.串口通信（个人理解）3.代码分析（注释比较详细）1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子，不过代码大概在F103系列的板子上都可以运行，我试过在野火103的霸道板上也可以，主要看一下串口对应的引脚一不一样就行了，不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源，采集数据一个，串口通信一个，板子对应引脚如下：串口1，TX：PA9，RX：PA10串口2，TX：PA2，RX：PA32.串口通信（个人理解）我就从串口采集传感器数据这个过程说一下我自己的理解，
SPI接收数据异常问题总结 - 2
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位（1bit）。SPI数据收发是数据交换，因此接收数据时从第二个字节开始才是有效数据，也就是数据整体向右移一个字节（1byte）。请教前辈之后也没有得到解决，通过在网上查阅前人经验终于解决问题，所以写一个避坑经验总结。实际背景：MCU与一款芯片使用spi通信，MCU作为主机，芯片作为从机。这款芯片采用的是它规定的六线SPI，多了两根线：RDY和INT，这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手