草庐IT

day19 selenium获取网页数据

百事不可乐BOOM 2023-05-18 原文

day19 selenium获取网页数据

prepare、试用

# 导包
import time
import requests
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup

# 尝试能用否
b = Chrome()
b.get('网址')
input()

一、selenium获取网页数据步骤:

1.创建浏览器对象
2.打开网页()
3.获取网页源代码

# 1
b = Chrome()

# 2
b.get('网址')

# 3
print(b.page_source)

二、selenium操作:

1.输入框中输入内容
获取输入框
浏览器对象.find_element(By.获取方式, 值):按照指定方式获取第一个满足条件的标签,返回一个标签值
浏览器对象.find_elements(By.获取方式, 值):按照指定方式获取所有满足条件的标签,返回一个标签值
seleniu中常见的获取方式

名称用法
By.ID通过id属性值获取标签
By.CLASS_NAME通过class属性值获取标签
By.CSS_SELECTOR通过css选择器获取标签
By.XPATH通过xpath路径获取标签
By.LINK_TEXT通过超链接获取标签

2.点击内容
3.前进/后退/切换选项卡

# 1
# 创建谷歌浏览器,返回一个浏览器对象
b = Chrome()
# 通过浏览器对象打开指定网页
b.get('网址')
# 模拟人行为,等浏览器加载稳定
time.sleep(2)
# 获取输入框(获取标签),id = kw
search1 = b.find_element(By.ID, 'kw')
# search2 = b.find_element(By.CSS_SELECTOR, '#kw')
# search3 = b.find_element(By.XPATH, '//input[@id="kw"]')


# 输入内容
# \n(回车搜索)
search1.send_keys('你好\n')
time.sleep(1)

search1.send_keys(Keys.ENTER)     # 回车键
time.sleep(1)
# 注意:如需要在输入框中执行特殊按键的效果,需要Key类提供
search1.send_keys('你好helloword')
time.sleep(1)
search1.send_keys(Keys.BACKSPACE)  # 删除键



# 2
# 获取需要被点击的标签值
news = b.find_element(By.LINK_TEXT, '新闻')   # '地图'  '...'
# 点击标签
news.click()



# 3.
b = Chrome()

# 打开TOP250
b.get('网址')
time.sleep(1)

# 点击电视剧, 进入电视剧页面
b.find_element(By.LINK_TEXT, '电视剧').click()
time.sleep(1)

# 前进/后退
# 后退, 回到top250首页
b.back()

# 前进, 进入电视剧页面
b.forward()

# 切换选项卡
# 获取小组对应超链接
b.find_element(By.LINK_TEXT, '小组').click()
time.sleep(1)

# 网页源代码验证b指向哪个页面
# print(b.page_source)   # b是第一个窗口内容

# 让浏览器对象指向第二个窗口
b.switch_to.window(b.window_handles[1])
time.sleep(1)
# print(b.page_source)

# 关闭第二个窗口
b.close()

# 切换第一个窗口
b.switch_to.window(b.window_handles[0])

partice:爬取中国知网

# 创建浏览器
b = Chrome()

# 打开知网
b.get('网址')
time.sleep(1)

# 获取输入框输入搜索内容
b.find_element(By.ID, 'txt_SearchText').send_keys('数据分析\n')
time.sleep(1)

# 获取搜索结果详情页对应a标签
all_a = b.find_elements(By.CLASS_NAME, 'fz14')

# 遍历每个搜索结果a标签
for a in all_a:
    # 点击进入论文详情页
    a.click()
    time.sleep(1)

    # 切换到新窗口获取数据
    b.switch_to.window(b.window_handles[-1])

    # 获取详情页数据
    html = b.page_source

    # 解吸数据:正则, bs, xpath
    soup = BeautifulSoup(html, 'lxml')

    title = soup.select_one('h1').text

    digest = soup.select_one('#ChDivSummary').text

    key_words_tag = soup.select_one('.keywords')
    if key_words_tag:
        key_words = key_words_tag.text
    else:
        key_words = ''


    type_id = soup.select_one('div.row>ur>li:nth-child(2)>p').text
    print(soup, title, digest, key_words, type_id)


    # 关闭详情页
    b.close()

    # 切换回第一个页面
    b.switch_to.window(b.window_handles[0])



partice: 取五页知网


b = Chrome()

# 2.打开中国知网
b.get('网址')
time.sleep(1)

# 3.获取输入框输入搜索内容
b.find_element(By.ID, 'txt_SearchText').send_keys('数据分析\n')
time.sleep(1)


def get_one_page(page):
    # 如果写在开头他会一开始就下一页,不合理
    # p = b.find_elements(By.CLASS_NAME, 'PageNext')  # id="PageNext",这里的By.CLASS_NAME应该写By.ID
    # for page in p:
    #     page.click()
    #     time.sleep(1)

    all_a = b.find_elements(By.CLASS_NAME, 'fz14')

    # 5. 遍历拿到每个搜索结果对应的a标签
    for a in all_a:
        # 点击进入到论文详情页
        a.click()
        time.sleep(1)

        # 切换到详情页对应的新的窗口
        b.switch_to.window(b.window_handles[-1])

        # 获取详情页数据
        html = b.page_source

        # 解析数据
        soup = BeautifulSoup(html, 'lxml')
        title = soup.select_one('h1').text
        digest = soup.select_one('#ChDivSummary').text
        keyword_tag = soup.select_one('.keywords')
        if keyword_tag:
            keyword = keyword_tag.text
        else:
            keyword = ''
        type_id = soup.select_one('div.row>ul>li:nth-child(2)>p').text
        print(title, digest, keyword, type_id)

        print('---------------------------------------华丽的分割线------------------------------------')

        # 关闭详情页
        b.close()

        # 切换回第一个页面
        b.switch_to.window(b.window_handles[0])
        time.sleep(1)
    next_page = b.find_element(By.ID, 'PageNext')
    next_page.click()
    time.sleep(2)
    # next_page = b.find_element(By.ID, 'PageNext')
    # next_page.click()
    # time.sleep(2)

    # for循环的前面应该是b.find_elements
    # for page in next_page:
    #     page.click()
    #     time.sleep(1)

    print(f'第{page}页完成!')

if __name__ =='__main__':
    for x in range(1, 6):
        get_one_page(x)

补充

滚动页面:有些网页不滚动的话数据获取 不全
b.execute_script(‘window.scrollBy()’)
js让网页滚动的方法:window.scrollBy(x方向偏移量, y方向偏移量)

浏览器配置
1.创建配置对象
options.add_argument(‘blink-settings=imagesEnable=false’)

2.取消测试环境
options.add_experimental_option(‘excludeSwitches’,[‘enable-automation’])

3.给浏览器对象添加配置
b = Chrome(options=options)

# 京东
from selenium import webdriver

options = webdriver.ChromeOptions()

options.add_argument('blink-settings=imagesEnabled=false')

options.add_experimental_option('excludeSwitches',['enable-automation'])

b = Chrome(options=options)
b.get('网址')
time.sleep(1)



# 不滚动可以得到多少个数据
result = b.find_elements(By.CLASS_NAME, 'gl-i-wrap')
print(len(result))   # 30


# 滚动操作,连续循环 :
for _ in range(8):
    b.execute_script('window.scrollBy(0, 800)')
    time.sleep(1)

time.sleep(1)
result = b.find_elements(By.CLASS_NAME, 'gl-i-wrap')
print(len(result))  # 60

反爬解释:爬虫拿别人在网络上公开的数据,合理使用数据 ,不能违法哦~

浏览器反爬:
浏览器伪装
登录反爬:
换个方式,cookie保存登录信息
人工完成登录,然后通过cookie完成自动登录
封ip反爬
找代理ip(花钱)

三、requests自动登录流程:

第一步:人工完成网页的登录

第二步:获取登录后的网页的cookie(右键 -> 检查 -> network -> all -> name中和网页地址一样的请求地址 -> 获取requestHeader中cookie值)

第三步:发送请求的时候给headers中添加cookie对应的键值对

headers = {
    'cookie': '...',
    'user-agent': '...'

}
response = requests.get('网址', headers=headers)

print(response)
print(response.text)

四、selenium 获取cookies

  1. 创建浏览器打开需要做自动登录的网站

  2. 留足够长的时间来完成人工登录
    3.获取登录成功后的cookie

  3. 将获取到的cookie保存到本地文件中

    # 1
    b = Chrome()
    b.get('网址')
    
    # 2.完成人工登录的时候一定要保证浏览器对象(b)指向的页面中有登录成功信息
    input('是否完成登录:')
    
    # 3.
    cookies = b.get_cookies()
    
    # 4.
    import json
    with open('files/网站名称.json', 'w', encoding='utf-8') as f:
        f.write(json.dumps(cookies))
    

    五、selenium 使用cookies

    1.创建浏览器,打开需要自动登陆的网站
    2.添加cookie()
    3.重新打开网站
    b.get(‘网址’)

b = Chrome()
b.get('网址')

import json
# 获取本地保存的cookie值
with open('files/网站名称.json', encoding='utf-8') as f:
    cookies = json.loads(f.read())
    for x in cookies:
        b.add_cookie(x)

b.get('网址')


# # 保持浏览器一直存在
input('结束:')

有关day19 selenium获取网页数据的更多相关文章

  1. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  2. ruby - 简单获取法拉第超时 - 2

    有没有办法在这个简单的get方法中添加超时选项?我正在使用法拉第3.3。Faraday.get(url)四处寻找,我只能先发起连接后应用超时选项,然后应用超时选项。或者有什么简单的方法?这就是我现在正在做的:conn=Faraday.newresponse=conn.getdo|req|req.urlurlreq.options.timeout=2#2secondsend 最佳答案 试试这个:conn=Faraday.newdo|conn|conn.options.timeout=20endresponse=conn.get(url

  3. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  4. ruby - 从 Ruby 中的主机名获取 IP 地址 - 2

    我有一个存储主机名的Ruby数组server_names。如果我打印出来,它看起来像这样:["hostname.abc.com","hostname2.abc.com","hostname3.abc.com"]相当标准。我想要做的是获取这些服务器的IP(可能将它们存储在另一个变量中)。看起来IPSocket类可以做到这一点,但我不确定如何使用IPSocket类遍历它。如果它只是尝试像这样打印出IP:server_names.eachdo|name|IPSocket::getaddress(name)pnameend它提示我没有提供服务器名称。这是语法问题还是我没有正确使用类?输出:ge

  5. ruby - 获取模块中定义的所有常量的值 - 2

    我想获取模块中定义的所有常量的值:moduleLettersA='apple'.freezeB='boy'.freezeendconstants给了我常量的名字:Letters.constants(false)#=>[:A,:B]如何获取它们的值的数组,即["apple","boy"]? 最佳答案 为了做到这一点,请使用mapLetters.constants(false).map&Letters.method(:const_get)这将返回["a","b"]第二种方式:Letters.constants(false).map{|c

  6. ruby-on-rails - 获取 inf-ruby 以使用 ruby​​ 版本管理器 (rvm) - 2

    我安装了ruby​​版本管理器,并将RVM安装的ruby​​实现设置为默认值,这样'哪个ruby'显示'~/.rvm/ruby-1.8.6-p383/bin/ruby'但是当我在emacs中打开inf-ruby缓冲区时,它使用安装在/usr/bin中的ruby​​。有没有办法让emacs像shell一样尊重ruby​​的路径?谢谢! 最佳答案 我创建了一个emacs扩展来将rvm集成到emacs中。如果您有兴趣,可以在这里获取:http://github.com/senny/rvm.el

  7. Ruby 从大范围中获取第 n 个项目 - 2

    假设我有这个范围:("aaaaa".."zzzzz")如何在不事先/每次生成整个项目的情况下从范围中获取第N个项目? 最佳答案 一种快速简便的方法:("aaaaa".."zzzzz").first(42).last#==>"aaabp"如果出于某种原因你不得不一遍又一遍地这样做,或者如果你需要避免为前N个元素构建中间数组,你可以这样写:moduleEnumerabledefskip(n)returnto_enum:skip,nunlessblock_given?each_with_indexdo|item,index|yieldit

  8. ruby - Net::HTTP 获取源代码和状态 - 2

    我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态,而无需发出第二个请求。有没有办法用另一种方法做到这一点?我一直在查看文档,但似乎找不到我要找的东西。 最佳答案 在我看来,除非您需要一些真正的低级访问或控制,否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur

  9. ruby - 没有类方法获取 Ruby 类名 - 2

    如何在Ruby中获取BasicObject实例的类名?例如,假设我有这个:classMyObjectSystem我怎样才能使这段代码成功?编辑:我发现Object的实例方法class被定义为returnrb_class_real(CLASS_OF(obj));。有什么方法可以从Ruby中使用它? 最佳答案 我花了一些时间研究irb并想出了这个:classBasicObjectdefclassklass=class这将为任何从BasicObject继承的对象提供一个#class您可以调用的方法。编辑评论中要求的进一步解释:假设你有对象

  10. ruby-on-rails - 如何在 Gem 中获取 Rails 应用程序的根目录 - 2

    是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录?这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢,抱歉我的英语不好 最佳答案 我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以,在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码,您的模块将在

随机推荐