Selenium：定位（二：By模块定位，简单无基础）

快乐小土狗 2024-04-24 原文

一、简介：

Selenium是通过模拟人对浏览器进行操作，既然是模拟人进行操作，那么就需要选择对页面上的哪一个标签进行操作。例如想让Selenium对页面上的登录按钮进行点击，就需要先让Selenium定位到这个按钮，在进行点击操作。

我们把整个页面（HTML标签）看作是地球，HTML标签的子集标签看做是国家，

子集标签的子集标签看做是城市。当我们想要定位重庆时，我们以地球为根节点出发，选择中国子节点，在选择中国子节点下的重庆字节的。

二、BY模块

selenium的by模块提供了八种定位方式。

通过from selenium.webdriver.common.by import By导入By模块。

标签的id属性值进行定位使用：	By.ID
通过标签的name属性值进行定位使用：	By.NAME
通过标签的class属性值进行定位使用：	By.CLASS_NAME
通过标签的标签中文本值进行定位使用：	By.LINK_TEXT
通过标签的标签中的部分文本值进行定位使用：	By.PARTIAL_LINK_TEXT
通过标签的标签名进行定位使用：	By.TAG_NAME
通过标签的xpath路径进行定位使用：	By.XPATH
通过标签的css选择器进行定位使用：	By.CSS_SELECTOR

三、find_element方法和find_elements方法

通过webdriver调用这两种方法搭配BY模块进行定位可以解决大部分的定位需求。

find_element(by模块,'属性值')

find_elements(by模块,'属性值')

1)、find_element方法和find_elements方法的区别

find_element只返回一个选中的标签,即有多个满足条件的标签值返回第一个。
find_elements返回的是一个列表,可以满足多个满足条件的标签，注意返回的是列表，让要对其中的标签进行操作需要指定列表元素的下标。

2)、find_element方法和find_elements方法搭配BY模块使用

例如有两个个标签：

(1)find_element方法：

定位第一个a标签：

使用By.ID和标签id属性去定位

find_element(By.ID, 'id1')

使用By.CLASS_NAME和标签class属性去定位（有多个满足。但只匹配第一个）

find_element(By.CLASS_NAME, 'class')

定位第二个a标签：

使用By.ID和标签id属性去定位

find_element(By.ID, 'id2')

(2)find_elements方法：

定位第一个a标签：

使用By.ID和标签id属性去定位（返回是列表，记得下标）

find_elements(By.ID, 'id1')[0]

使用By.CLASS_NAME和标签class属性去定位（返回是列表，记得下标）

find_elements(By.CLASS_NAME, 'class')[0]

定位第二个a标签

使用By.ID和标签id属性去定位（返回是列表，记得下标）

find_elements(By.ID, 'id2')[0]

使用By.CLASS_NAME和标签class属性去定位（返回是列表，记得下标）

find_elements(By.CLASS_NAME, 'class')[1]

三、测试用例

1）、定位逻辑

假如我们有如下节点，我们像定位到中国重庆下的巴南标签，那我们是不是得选定位中国下的重庆，在去定位中国重庆下的巴南，这样才能准确的定位到我们想要的元素，以XPATH写法为演示则是：/中国/重庆/巴南。

<中国>

<重庆>

<渝北></渝北>

<巴南></巴南>

</重庆>

<天津市>

<和平区></和平区>

<河西区></河西区>

</天津市>

<上海市>

<黄浦区></黄浦区>

<徐汇区></徐汇区>

</上海市>

</中国>

2）、实际用例

我们进入百度的网页，按F12进入开发者模式

比如我们想拿这个标签里的’贴吧‘两字，我们是不是得先定位到这个a标签。

那我们先分析一下这不标签所在的路径。这个a标签的的父级是div标签，div标签的父级也是一个div标签，再往前走一级是还是一个div标签，再再往前走一级是一个body标签，再再再往上走一级到了根节点html标签，那么它的路径就确定下来了，html -> body ->div ->div ->div -> a，如图

我们以XPATH写法为例子：我们以 . 代表当前页面，./html/body/div，在这我们定位4这个位置，在往下我们要定位到3去，但我们发现4下面有多个div标签。

而我们要去的是它下面的第二个div，这时候我们就得去指定它：

第一种方法：./html/body/div/div[2] 给它一个下标，代表我们选择./html/body/div下面的第二个div。

第一种方法：在我们想要选取的div里面不是有个属性id嘛，，我们在定位标签的时候加上它的属性./html/body/div/div[@id="head"]。

再往下定位也是一样的逻辑，指定我们想要选择的标签：

./html/body/div/div[@id="head"]/div[@class="s-top-left-new s-isindex-wrap"]/a[4]

XPah语法

XPath 语法 | 菜鸟教程

测试代码

from selenium import webdriver
from selenium.webdriver.common.by import By
# 创建浏览器驱动对象,Chrome()代表是谷歌浏览器的驱动
driver = webdriver.Chrome()
#打开网页
driver.get('https://www.baidu.com/')
#定位到指定标签
_blank = driver.find_element(By.XPATH,
    './html/body/div/div[@id="head"]/div[@class="s-top-left-new s-isindex-wrap"]/a[4]'
)
#打印标签的文本内容
print(_blank.text)

Selenium 定位 strong xff find_element 爬虫 python

有关Selenium：定位（二：By模块定位，简单无基础）的更多相关文章

ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby - 简单获取法拉第超时 - 2
有没有办法在这个简单的get方法中添加超时选项？我正在使用法拉第3.3。Faraday.get(url)四处寻找，我只能先发起连接后应用超时选项，然后应用超时选项。或者有什么简单的方法？这就是我现在正在做的:conn=Faraday.newresponse=conn.getdo|req|req.urlurlreq.options.timeout=2#2secondsend 最佳答案试试这个:conn=Faraday.newdo|conn|conn.options.timeout=20endresponse=conn.get(url
ruby - 当使用::指定模块时，为什么 Ruby 不在更高范围内查找类？ - 2
我刚刚被困在这个问题上一段时间了。以这个基地为例:moduleTopclassTestendmoduleFooendend稍后，我可以通过这样做在Foo中定义扩展Test的类:moduleTopmoduleFooclassSomeTest但是，如果我尝试通过使用::指定模块来最小化缩进:moduleTop::FooclassFailure这失败了:NameError:uninitializedconstantTop::Foo::Test这是一个错误，还是仅仅是Ruby解析变量名的方式的逻辑结果？最佳答案 Isthisabug,or
ruby - 获取模块中定义的所有常量的值 - 2
我想获取模块中定义的所有常量的值:moduleLettersA='apple'.freezeB='boy'.freezeendconstants给了我常量的名字:Letters.constants(false)#=>[:A,:B]如何获取它们的值的数组，即["apple","boy"]？最佳答案为了做到这一点，请使用mapLetters.constants(false).map&Letters.method(:const_get)这将返回["a","b"]第二种方式:Letters.constants(false).map{|c
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 用 Ruby 编写一个简单的网络服务器 - 2
我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不，不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本，提供另一个脚本，它将在其标准输入上获取请求，并在其标准输出上返回完整的响应。到目前为止一切顺利，但事实证明这真的很脆弱，因为它在第二个请求上中断并出现错误:/usr/b
ruby-on-rails - 使用 config.threadsafe 时从 lib/加载模块/类的正确方法是什么!选项？ - 2
我一直致力于让我们的Rails2.3.8应用程序在JRuby下正确运行。一切正常，直到我启用config.threadsafe!以实现JRuby提供的并发性。这导致lib/中的模块和类不再自动加载。使用config.threadsafe!启用:$rubyscript/runner-eproduction'pSim::Sim200Provisioner'/Users/amchale/.rvm/gems/jruby-1.5.1@web-services/gems/activesupport-2.3.8/lib/active_support/dependencies.rb:105:in`co
ruby-on-rails - 简单的 Ruby on Rails 问题——如何将评论附加到用户和文章？ - 2
我意识到这可能是一个非常基本的问题，但我现在已经花了几天时间回过头来解决这个问题，但出于某种原因，Google就是没有帮助我。(我认为部分问题在于我是一个初学者，我不知道该问什么......)我也看过O'Reilly的RubyCookbook和RailsAPI，但我仍然停留在这个问题上.我找到了一些关于多态关系的信息，但它似乎不是我需要的(尽管如果我错了请告诉我)。我正在尝试调整MichaelHartl'stutorial创建一个包含用户、文章和评论的博客应用程序(不使用脚手架)。我希望评论既属于用户又属于文章。我的主要问题是:我不知道如何将当前文章的ID放入评论Controller。