Python Selenium 基本使用（详细步骤）

卡尔特斯 2023-07-12 原文

一、简介

Selenium 是一个 web 应用程序自动化测试工具，对各种浏览器都能很好地支持，包括 Chrome、Firefox 这些主流浏览器。
使用它可以模拟浏览器进行各种各样的操作，包括爬取一些网页内容。当看到浏览器自己运行并且在网页上翻页或者跳转的时候，应该会觉得很有趣的。
Selenium 支持 有/无 界面浏览器操作，无界面浏览器 执行效率会更高，毕竟 右界面浏览器 会需要调用很多资源，都需要等待。
Selenium 会直接允许在浏览器中，就像真的用户在操作一样，为什么叫真的用户? 之前通过 urllib 之类的方式去模拟浏览器请求获取数据的，或多或少会缺失一些东西，模拟的终究是带假的，在有些防爬比较狠的，模拟的是拿不到有些东西，想拿到得费不少手脚，而 Selenium 则能直接驱动真实的浏览器。
Selenium 2 又名 WebDriver，它的主要新功能是集成了 Selenium 1.0 以及 WebDriver（WebDriver 曾经是 Selenium 的竞争对手）。也就是说 Selenium 2 是 Selenium 和 WebDriver 两个项目的合并，即 Selenium 2 兼容 Selenium，它既支持 Selenium API 也支持 WebDriver API。当这两个框架被合并后，一个框架的缺陷被另一个框架所弥补。
相比 QTP 有诸多有点：
- 免费，也不用再为破解 QTP 而大伤脑筋。
- 小巧，对于不同的语言它只是一个包而已，而 QTP 需要下载安装 1 个多 G 的程序。
- 这也是最重要的一点，不管以前更熟悉 C、java、ruby、python、或 C# ，都可以通过 Selenium 完成自动化测试，而 QTP 只支持 VBS。
- 支持多平台：windows、linux、MAC ，支持多浏览器：ie、ff、safari、opera、chrome …
- 支持分布式测试用例的执行，可以把测试用例分布到不同的测试机器的执行，相当于分发机的功能。
必看 - 下载对应浏览器驱动详细步骤。

使用步骤

# 1、导入
from selenium import webdriver

# 2、创建浏览器驱动对象（以 Chrome 举例）
# 不传驱动路径默认会去 Python 根目录找，所以驱动一般会存放在那里，如果做测试也可以直接放到项目中，配置路径即可
driver = webdriver.Chrome()
driver = webdriver.Chrome(驱动路径)

# 3、访问网址
driver.get('https://www.baidu.com')

# 4、使用结束，关闭浏览器驱动对象，防止资源占用
driver.quit()

# 注意：在运行使用驱动启动浏览器时，需要允许防火墙安全访问，mac 得去【隐私与安全性】中允许使用

代码跑起后，没有写关闭浏览器的代码，运行几秒后，浏览器自动关闭的问题解决。
附：Python Chrome handless（无界面浏览器，add_argument 支持哪些参数，替代 PhantomJS）

二、基本使用（元素定位、信息）

# 【启动浏览器驱动】

# 导入 selenium
from selenium import webdriver
# 如果需要指定路径，但是路径在新版本中被重构到 Service 函数中了
# from selenium.webdriver.chrome.service import Service
# 导入常量对象（可以点进去看看，其实也可以手写）
from selenium.webdriver.common.by import By

# 1、浏览器驱动路径
# win_path = 'chromedriver.exe'
# mac_path = 'chromedriver'

# 2、直接传入字符串路径报错：DeprecationWarning: executable_path has been deprecated, please pass in a Service object
# 原因是这种写法将放弃使用
# driver = webdriver.Chrome(mac_path)

# 2、需要使用 Service 进行包裹一下【推荐】
# options = webdriver.ChromeOptions()
# options.add_experimental_option('detach', True) # 不自动关闭浏览器
# service = Service(mac_path)
# driver = webdriver.Chrome(service=service, options=options)

# 创建浏览器对象
options = webdriver.ChromeOptions()
options.add_experimental_option('detach', True) # 不自动关闭浏览
driver = webdriver.Chrome(options=options)

# 打开指定网址
driver.get('https://www.baidu.com')

# 获取网页源码
# print(driver.page_source)




# 【元素定位】8 种，可以点击 By 进入看看支持的类型
# driver.find_element() 返回一个元素，单个对象
# driver.find_elements() 返回多个元素，数组对象

# # 1、通过 ID 定位元素
# e = driver.find_element('id', 'su') # By 是一个常量对象，其实也可以手写
# e = driver.find_element(By.ID, 'su') # 通过 ID 获取对应元素
# # <input type="submit" id="su" value="百度一下" class="bg s_btn">


# # 2、通过 XPATH 定位元素
# e = driver.find_element(By.XPATH, '//input[@id="su"]')
# # <input type="submit" id="su" value="百度一下" class="bg s_btn">

# # 3、通过 LINK_TEXT(链接文本) 定位元素（也就是通过 a 标签的文本内容获得到这个 a 标签）
# e = driver.find_element(By.LINK_TEXT, '地图')
# # <a href="http://map.baidu.com" target="_blank" class="mnav c-font-normal c-color-t">地图</a>

# # 4、通过 PARTIAL_LINK_TEXT(链接文本) 定位元素（也就是通过 a 标签的部分文本内容进行模糊匹配（任意部分，模糊匹配 a 标签内容），获得到这个 a 标签）
# e = driver.find_element(By.PARTIAL_LINK_TEXT, '地')
# # <a href="http://map.baidu.com" target="_blank" class="mnav c-font-normal c-color-t">地图</a>

# # 5、通过 NAME(标签属性) 定位元素
# e = driver.find_element(By.NAME, 'wd')
# # <input id="kw" name="wd" class="s_ipt" value="" maxlength="255" autocomplete="off">

# # 6、通过 TAG_NAME(标签名字) 定位元素
# e = driver.find_element(By.TAG_NAME, 'input') # 获取到第一个 input 标签返回
# es = driver.find_elements(By.TAG_NAME, 'input') # 获取所有 input 标签返回，数组

# # 7、通过 CLASS_NAME 定位元素
# e = driver.find_element(By.CLASS_NAME, 's_ipt')
# # <input id="kw" name="wd" class="s_ipt" value="" maxlength="255" autocomplete="off">

# # 8、通过 CSS_SELECTOR(选择器) 来定位元素，支持 bs4 的语法
# e = driver.find_element(By.CSS_SELECTOR, '#su')
# # <input type="submit" id="su" value="百度一下" class="bg s_btn">





# 【访问元素信息】

# 通过 ID 获取元素
e = driver.find_element(By.ID, 'su')
# <input type="submit" id="su" value="百度一下" class="bg s_btn">

# 获取 class 属性值
print(e.get_attribute('class')) # bg s_btn

# 获取 id 属性值
print(e.get_attribute('id')) # su

# 获取标签名称
print(e.tag_name) # input

# 获取标签内容（这里的内容指的是标签元素中间的内容，而不是 value 值）
e = driver.find_element(By.LINK_TEXT, '新闻')
print(e.text)


# 关闭浏览器驱动对象
# driver.quit()

三、交互案例

自动百度搜索 周杰伦，然后滚到到底部切换下一页，在来回切换。

# 【启动浏览器驱动】

# 导入 selenium
from selenium import webdriver
# 如果需要指定路径，但是路径在新版本中被重构到 Service 函数中了
# from selenium.webdriver.chrome.service import Service
# 导入常量对象（可以点进去看看，其实也可以手写）
from selenium.webdriver.common.by import By
# 导入 定时器
from time import sleep

# 1、浏览器驱动路径
# win_path = 'chromedriver.exe'
# mac_path = 'chromedriver'

# 2、直接传入字符串路径报错：DeprecationWarning: executable_path has been deprecated, please pass in a Service object
# 原因是这种写法将放弃使用
# driver = webdriver.Chrome(mac_path)

# 2、需要使用 Service 进行包裹一下【推荐】
# options = webdriver.ChromeOptions()
# options.add_experimental_option('detach', True) # 不自动关闭浏览器
# service = Service(mac_path)
# driver = webdriver.Chrome(service=service, options=options)

# 创建浏览器对象
options = webdriver.ChromeOptions()
options.add_experimental_option('detach', True) # 不自动关闭浏览
driver = webdriver.Chrome(options=options)

# 打开指定网址
driver.get('https://www.baidu.com')

# 【交互】

# 睡眠（注意：这个延迟主要是用来模拟人的行为，还有个就是操作之间需要一点延迟，比如加载完马上就去干什么，可能代码刚好浏览器没反应过来，所以给它缓口气，这样保障执行结果）
# 打开/访问/点击....这些调用方法都是同步，也就是并不需要使用睡眠去估算加载完成时间，每个方法都是完成之后才会走下一行代码，除非写了异步，所以只是单纯的为了要浏览器缓一下能准确的识别命令
sleep(1)

# 找到输入框
input = driver.find_element(By.ID, 'kw')

# 在文本框中输入周杰伦
input.send_keys('周杰伦')

# 睡眠
sleep(1)

# 找到百度一下
button = driver.find_element(By.ID, 'su')

# 点击按钮
button.click()

# 睡眠
sleep(1)

# 滑到底部
js_bottom = 'document.documentElement.scrollTop = 100000'
# 导入 js
driver.execute_script(js_bottom)

# 睡眠
sleep(1)

# 找到下一页按钮
nextButton = driver.find_element(By.XPATH, '//a[@class="n"]')

# 点击下一页
nextButton.click()

# 睡眠
sleep(1)

# 滚到底部
driver.execute_script(js_bottom)

# 睡眠
sleep(1)

# 回到上一页（浏览器上的方向键 左）
driver.back()

# 睡眠
sleep(1)

# 回到上一页（这里是回到上一页，不是上上页，浏览器上的方向键 右）
driver.forward()

# 睡眠
sleep(1)

# 滚到底部
driver.execute_script(js_bottom)

# 睡眠
sleep(1)

# 退出
driver.quit()

有关Python Selenium 基本使用（详细步骤）的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

Python Selenium 基本使用（详细步骤）

一、简介

二、基本使用（元素定位、信息）

三、交互案例

有关Python Selenium 基本使用（详细步骤）的更多相关文章

随机推荐