草庐IT

搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。

Python是世界上最好的语言 2023-07-17 原文

大家好啊!经常听别人说爬虫玩的好,*****!其实没有这么恐怖,爬虫你一般都是采集公开的信息,所以不会像网络传言那样,大家只要遵守协议,不会出问题的。

 话说学编程语言的应该都是男孩子哈,所以今天这个大家应该会挺喜欢的吧,毕竟我都喜欢看票了的女孩子,更别说你们男孩子了!

这个喜欢吗?我都喜欢!

知识点:

    采集基本流程

    re正则表达式简单使用

    requests

    json数据解析方法

    数据保存

采集网站:

 开发环境

Python3.8

编辑器

pycharm

模块:

  • requests

  • re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名即可

如果爆红,估计是网络连接超时,因为它这个还是挺大的,自己加个镜像源就可以了!

整个案例的基本流程

 

一. 数据来源分析

    确定采集内容是什么? (目标网址, 网址里面数据)

    通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

    I. 通过分析可以知道 播放url地址是什么?

    II. 通过播放地址, 去分析找寻, 数据包是在哪?

    III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

    (图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

    IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID
二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

    发送请求, 对于舞蹈列表页面发送请求

    获取数据, 服务器返回数据内容

    解析数据, 提取我们想要数据内容 ID

    发送请求, 把ID传入到 数据包里面 发送请求

    获取数据, 服务器返回数据内容

    解析数据, 提取我们想要数据内容 标题 以及播放地址

    保存数据, 把内容保存本地

    多页数据采集

完整代码

导入模块

# 导入数据请求模块
import requests   # 第三方模块 pip install requests 需要自行安装
# 导入re正则表达式
import re   # 内置模块 不需要安装
# 导入格式化输出模块
import pprint   # 内置模块 不需要安装

发送请求, 对于舞蹈视频列表页面发送请求

for page in range(1, 11):
    print(f'正在爬取第{page}页的数据内容')
    url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}'
    # 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容
    # user-agent: 用户代理 表示浏览器基本身份信息  (一种简单反反爬手段)
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
    }
    # 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据
    response = requests.get(url=url, headers=headers)
    # <Response [200]> 表示请求成功, 请求网址成功了  *** 200状态码表示请求成功, 但是不一定能够得到数据

获取数据, 服务器返回数据内容 response.text 获取响应文本数据

    # print(response.text)

解析数据, 提取我们想要数据内容 视频ID

    # 解析方式: css re xpath
    # <li data-vid="676382675">  想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容
    # .*?  是可以匹配任意字符(除了\n换行符以外)  如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字
    video_ids = re.findall('<li data-vid="(\d+)">', response.text)  # 返回列表数据
    for video_id in video_ids:  # 通过for循环遍历 提取列表里面元素 一个一个提取
        # print(video_id)
  1. 发送请求, 把视频ID传入到视频数据包里面

  2. 发送请求获取数据, 服务器返回数据内容

        # f 字符串格式化方法 {} 占位符
        video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180'
        json_data = requests.get(url=video_info, headers=headers).json()
        # print(json_data)
        # pprint.pprint(json_data)
        # 根据冒号左边的内容, 提取冒号右边的内容

解析数据

        title = json_data['data']['moment']['title']
        video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']

保存数据 >>> 发送请求 并且获取数据

        """
        response.text   >>> 文本数据返回字符串数据
        response.json() >>> json字典数据
        response.content >>> 二进制数据
        """
        video_content = requests.get(url=video_url, headers=headers).content
        with open('video\\' + title + '.mp4', mode='wb') as f:
            f.write(video_content)
        print(title, video_url)

结语

今天就分享到这里了,完整代码,在线解答可以点击下方名片自动获取!

对下一篇大家想看什么内容,可在评论区留言哦!

 

有关搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  4. ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2

    我正在尝试设置一个puppet节点,但ruby​​gems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter,它工作正常,但如果我通过由ruby​​gems(/usr/bin/facter)安装的二进制文件,它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby

  5. Ruby 方法() 方法 - 2

    我想了解Ruby方法methods()是如何工作的。我尝试使用“ruby方法”在Google上搜索,但这不是我需要的。我也看过ruby​​-doc.org,但我没有找到这种方法。你能详细解释一下它是如何工作的或者给我一个链接吗?更新我用methods()方法做了实验,得到了这样的结果:'labrat'代码classFirstdeffirst_instance_mymethodenddefself.first_class_mymethodendendclassSecond使用类#returnsavailablemethodslistforclassandancestorsputsSeco

  6. ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2

    我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他,以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时,出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer

  7. ruby - Highline 询问方法不会使用同一行 - 2

    设置:狂欢ruby1.9.2高线(1.6.13)描述:我已经相当习惯在其他一些项目中使用highline,但已经有几个月没有使用它了。现在,在Ruby1.9.2上全新安装时,它似乎不允许在同一行回答提示。所以以前我会看到类似的东西:require"highline/import"ask"Whatisyourfavoritecolor?"并得到:Whatisyourfavoritecolor?|现在我看到类似的东西:Whatisyourfavoritecolor?|竖线(|)符号是我的终端光标。知道为什么会发生这种变化吗? 最佳答案

  8. ruby - 主要 :Object when running build from sublime 的未定义方法 `require_relative' - 2

    我已经从我的命令行中获得了一切,所以我可以运行rubymyfile并且它可以正常工作。但是当我尝试从sublime中运行它时,我得到了undefinedmethod`require_relative'formain:Object有人知道我的sublime设置中缺少什么吗?我正在使用OSX并安装了rvm。 最佳答案 或者,您可以只使用“require”,它应该可以正常工作。我认为“require_relative”仅适用于ruby​​1.9+ 关于ruby-主要:Objectwhenrun

  9. ruby - 多个属性的 update_column 方法 - 2

    我有一个具有一些属性的模型:attr1、attr2和attr3。我需要在不执行回调和验证的情况下更新此属性。我找到了update_column方法,但我想同时更新三个属性。我需要这样的东西:update_columns({attr1:val1,attr2:val2,attr3:val3})代替update_column(attr1,val1)update_column(attr2,val2)update_column(attr3,val3) 最佳答案 您可以使用update_columns(attr1:val1,attr2:val2

  10. ruby-on-rails - 项目升级后 Pow 不会更改 ruby​​ 版本 - 2

    我在我的Rails项目中使用Pow和powifygem。现在我尝试升级我的ruby​​版本(从1.9.3到2.0.0,我使用RVM)当我切换ruby​​版本、安装所有gem依赖项时,我通过运行railss并访问localhost:3000确保该应用程序正常运行以前,我通过使用pow访问http://my_app.dev来浏览我的应用程序。升级后,由于错误Bundler::RubyVersionMismatch:YourRubyversionis1.9.3,butyourGemfilespecified2.0.0,此url不起作用我尝试过的:重新创建pow应用程序重启pow服务器更新战俘

随机推荐