HiveSQL大厂面试各个视频的平均完播率

王小磊~ 2023-04-20 原文

题目说明

练习题目来自牛客网sq在线编程大厂面试题各个视频的平均完播率_牛客题霸_牛客网 (nowcoder.com)

测试用例

create database nk_test;  //创建数据库
use nk_test;    //进入数据库

// 创建表
DROP TABLE IF EXISTS tb_user_video_log;
DROP TABLE IF EXISTS tb_video_info;
CREATE TABLE tb_user_video_log (
    id INT,
    uid INT,
    video_id INT,
    start_time timestamp,
    end_time ,
    if_follow TINYINT,
    if_like TINYINT,
    if_retweet TINYINT,
    comment_id INT
);

CREATE TABLE tb_video_info (
    id INT,
    video_id INT,
    author INT,
    tag string,
    duration INT,
    release_time date
);

// 插入数据
INSERT INTO tb_user_video_log(id, uid, video_id, start_time, end_time, if_follow, if_like, if_retweet, comment_id) VALUES
  (1, 101, 2001, '2021-10-01 10:00:00', '2021-10-01 10:00:30', 0, 1, 1, null),
  (2, 102, 2001, '2021-10-01 10:00:00', '2021-10-01 10:00:24', 0, 0, 1, null),
  (3, 103, 2001, '2021-10-01 11:00:00', '2021-10-01 11:00:34', 0, 1, 0, 1732526),
  (4, 101, 2002, '2021-09-01 10:00:00', '2021-09-01 10:00:42', 1, 0, 1, null),
  (5, 102, 2002, '2021-10-01 11:00:00', '2021-10-01 11:00:30', 1, 0, 1, null);

INSERT INTO tb_video_info(id, video_id, author, tag, duration, release_time) VALUES
  (1, 2001, 901, '影视', 30, '2021-01-01 7:00:00'),
  (2, 2002, 901, '美食', 60, '2021-01-01 7:00:00'),
  (3, 2003, 902, '旅游', 90, '2021-01-01 7:00:00');

描述

用户-视频互动表tb_user_video_log

id	uid	video_id	start_time	end_time	if_follow	if_like	if_retweet	comment_id
1	101	2001	2021-10-01 10:00:00	2021-10-01 10:00:30	0	1	1	NULL
2	102	2001	2021-10-01 10:00:00	2021-10-01 10:00:24	0	0	1	NULL
3	103	2001	2021-10-01 11:00:00	2021-10-01 11:00:34	0	1	0	1732526
4	101	2002	2021-09-01 10:00:00	2021-9-01 10:00:42	1	0	1	NULL
5	102	2002	2021-10-01 11:00:00	2021-10-01 11:00:30	1	0	1	NULL

（uid-用户ID, video_id-视频ID, start_time-开始观看时间, end_time-结束观看时间, if_follow-是否关注, if_like-是否点赞, if_retweet-是否转发, comment_id-评论ID）

短视频信息表tb_video_info

id	video_id	author	tag	duration	release_time
1	2001	901	影视	30	2021-01-01 07:00:00
2	2002	901	美食	60	2021-01-01 07:00:00
3	2003	902	旅游	90	2021-01-01 07:00:00

（video_id-视频ID, author-创作者ID, tag-类别标签, duration-视频时长（秒）, release_time-发布时间）

问题：计算2021年里有播放记录的每个视频的完播率(结果保留三位小数)，并按完播率降序排序

注：视频完播率是指完成播放次数占总播放次数的比例。简单起见，结束观看时间与开始播放时间的差>=视频时长时，视为完成播放。

输出示例：

示例数据的结果如下：

video_id	avg_comp_play_rate
2001	0.667
2002	0.000

解释：

视频2001在2021年10月有3次播放记录，观看时长分别为30秒、24秒、34秒，视频时长30秒，因此有两次是被认为完成播放了的，故完播率为0.667；

视频2002在2021年9月和10月共2次播放记录，观看时长分别为42秒、30秒，视频时长60秒，故完播率为0.000。

解决方案

mysql写法

SELECT t1.video_id,
ROUND(sum(if(t1.end_time-t1.start_time>=t2.duration,1,0))/count(t1.video_id),3) as avg_comp_play_rate
FROM tb_user_video_log as t1
LEFT JOIN tb_video_info as t2
USING(video_id)
WHERE year(start_time)=2021 
GROUP BY t1.video_id
ORDER BY avg_comp_play_rate DESC;

HiveSQL写法

SELECT t1.video_id,
ROUND(sum(if(unix_timestamp(t1.end_time)-unix_timestamp(t1.start_time)>=t2.duration,1,0))/count(t1.video_id),3) as avg_comp_play_rate
FROM tb_user_video_log as t1
LEFT JOIN tb_video_info as t2
on t1.video_id=t2.video_id
WHERE year(start_time)=2021 
GROUP BY t1.video_id
ORDER BY avg_comp_play_rate DESC;

方案分析

计算2021年里有播放记录的每个视频的完播率(结果保留三位小数)，并按完播率降序排序。

题目中说到有播放记录的视频，通过观察 tb_user_video_log表为播放记录表，所以我们使用第一个表为主表进行左连接就可以过滤没有播放记录的视频。

FROM tb_user_video_log as t1
LEFT JOIN tb_video_info as t2
on t1.video_id=t2.video_id

完播率：

视频2001在2021年10月有3次播放记录，观看时长分别为30秒、24秒、34秒，视频时长30秒，因此有两次是被认为完成播放了的，故完播率为0.667；

视频2002在2021年9月和10月共2次播放记录，观看时长分别为42秒、30秒，视频时长60秒，故完播率为0.000。

从题目给的解释中可以看出，当播放时长大于等于视频时长时为完播。对完播的视频进行计数除以总播放数就可以得到播放率。

sum(if(unix_timestamp(t1.end_time)-unix_timestamp(t1.start_time)>=t2.duration,1,0))/count(t1.video_id)

代码中使用了unix_timestamp函数（这是hive的一个时间函数其他时间函数地址：https://blog.csdn.net/m0_47792921/article/details/123892566），这个函数的作用是将时间转换为时间戳，在hive中如果直接使用时间相减是不行的，如果直接使用时间相减的结果也会是一个时间格式的数据不能与数字类型进行比较。所以我们要将时间转化成时间戳进行相减进行比较。使用sum和if

函数进行配合得出完播数。使用count计算所有的播放记录。最后使用round保留三位小数

使用year函数取出年份过滤数据，使用group by对视频进行分组。

WHERE year(start_time)=2021 
GROUP BY t1.video_id

问题总结

在没有发现问题之前，我创建表格使用的时间格式为date，当我把时间转换成时间戳的时候才发了大问题，因为date格式只包括年月日，不包含小时分钟和秒。

如图（开始我以为是没有时间格式使用了to_date 是错误的to_date也会忽略分钟和秒）所示我传入的时间包含了小时分钟和秒，但是由于设计表时时间格式为date就自动忽略了小时分钟秒。最后我将时间格式改为时间戳的类型 timestamp 我才恍然大悟。

我以为是没有时间格式使用了to_date 是错误的to_date也会忽略分钟和秒）所示我传入的时间包含了小时分钟和秒，但是由于设计表时时间格式为date就自动忽略了小时分钟秒。最后我将时间格式改为时间戳的类型 timestamp 我才恍然大悟。

与mysql相比可以发现当时间相减的时候mysql返回的是数字类型可以和数字进行比较，然后hive相减还是时间不能与数字进行比较

HiveSQL 大厂 td video xff hive sql hadoop

有关HiveSQL大厂面试各个视频的平均完播率的更多相关文章

【Java 面试合集】HashMap中为什么引入红黑树，而不是AVL树呢 - 2
HashMap中为什么引入红黑树，而不是AVL树呢1.概述开始学习这个知识点之前我们需要知道，在JDK1.8以及之前，针对HashMap有什么不同。JDK1.7的时候，HashMap的底层实现是数组+链表JDK1.8的时候，HashMap的底层实现是数组+链表+红黑树我们要思考一个问题，为什么要从链表转为红黑树呢。首先先让我们了解下链表有什么不好？？？2.链表上述的截图其实就是链表的结构，我们来看下链表的增删改查的时间复杂度增：因为链表不是线性结构，所以每次添加的时候，只需要移动一个节点，所以可以理解为复杂度是N(1)删：算法时间复杂度跟增保持一致查：既然是非线性结构，所以查询某一个节点的时候
动漫制作技巧如何制作动漫视频 - 2
动漫制作技巧是很多新人想了解的问题，今天小编就来解答与大家分享一下动漫制作流程，为了帮助有兴趣的同学理解，大多数人会选择动漫培训机构，那么今天小编就带大家来看看动漫制作要掌握哪些技巧？一、动漫作品首先完成草图设计和原型制作。设计草图要有目的、有对象、有步骤、要形象、要简单、符合实际。设计图要一致性，以保证制作的顺利进行。二、原型制作是根据设计图纸和制作材料，可以是手绘也可以是3d软件创建。在此步骤中，要注意的问题是色彩和平面布局。三、动漫制作制作完成后，加工成型。完成不同的表现形式后，就要对设计稿进行加工处理，使加工的难易度降低，并得到一些基本准确的概念，以便于后续的大样、准确的尺寸制定。四、
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
TimeSformer：抛弃CNN的Transformer视频理解框架 - 2
Transformers开始在视频识别领域的“猪突猛进”，各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解，本篇主要介绍了FBAI团队的TimeSformer，这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用，就请点赞、收藏、关注！paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图
ruby - 如何更改此正则表达式以从未指定 v 参数的 Youtube URL 获取 Youtube 视频 ID？ - 2
目前我正在使用这个正则表达式从YoutubeURL中提取视频ID:url.match(/v=([^&]*)/)[1]我怎样才能改变它，以便它也可以从这个没有v参数的YoutubeURL获取视频ID:http://www.youtube.com/user/SHAYTARDS#p/u/9/Xc81AajGUMU感谢阅读。编辑:我正在使用ruby1.8.7 最佳答案对于Ruby1.8.7，这就可以了。url_1='http://www.youtube.com/watch?v=8WVTOUh53QY&feature=feedf'url
西安华为OD面试体验 - 2
西安华为OD面试体验开始投简历技术面试进展工作进展开始投简历去年一整年一直在考研和工作之间纠结，感觉自己的状态好像当时的疫情一样差劲。之前刚毕业的时候投了个大厂的简历，结果一面写算法的时候太拉跨了，虽然知道时dfs但是代码熟练度不够，放在平时给足时间自己可以调试通过，但是熟练度不够那面试当时就写不出来被刷了。说真的算法学到后期我感觉最重要的是熟练度和背板子（对于我这种普通玩家来说），面试题如果一上来短时间内想不出思路就完蛋了。然后由于当时找的工作不是很理想就又想考研了。但是考研是有风险的，我自我感觉自己可能冲不上那个学校，而找工作一个没成可以继续找嘛。本着抱着试试看的态度在boss上投了简历，
[面试直通版]操作系统核心之进程、线程与协程(下) - 2
点击->操作系统复习的文章集目录操作系统线程线程是什么进程与线程的关系用户态/内核态操作系统资源管理内核态用户态内核态/用户态切换程序运行类型分析计算密集型IO密集型结合进程，线程来理解程序运行类型分析协程基础上下文切换协程协程为什么叫协作式线程？协程的优缺点操作系统线程典型问题：简述进程和线程的区别以下内容带您一步步了解线程是什么比进程更小的独立运行的基本单位-线程(Threads)线程的提出主要是为了提高系统内程序并发执行的程度，从而进一步提升系统的吞吐量，充分发挥多核CPU的优越性而设计的引入进程是为了操作系统更加方便地管理程序，使得多个程序能并发管理和执行而线程则是为了减少程序在并发执
ruby-on-rails - Ruby on Rails 平均水平？ - 2
有没有一种简单的方法可以获取集合中某个属性的平均值？例如，每个用户都有一个分数。给定一组用户(@users)，您如何获得该组的平均分？有没有类似@users.average(:score)的东西？我想我在数据库字段中遇到过类似的东西，但我需要它来处理集合...... 最佳答案对于你的问题，实际上可以这样做:@users.collect(&:score).sum.to_f/@users.lengthif@users.length>0早些时候我认为，@users.collect(&:score).average会起作用。对于数据库字段
【华为OD技术面试 | 真八股】MySQL联合索引，谈springIOC的理解，谈springAOP的理解，Erika和zookeeper等问题 - 2
文章目录华为OD面试流程1.mysql数据库建了两个字段，且设置了联合索引，如果其中有一个字段为空会出现什么问题？2.谈谈springIOC的理解，有什么好处，解决了什么问题3.谈谈springAOP的理解，切面编程有没有实际应用，有哪些注解，作用是什么，有那些应用场景？4.Erika和zookeeper有了解过吗，作用是什么，主要解决了什么问题5.谈谈JDK、JRE、JVM的理解，区别是什么6.谈谈对泛型的理解7.JVM的组成华为OD面试流程机试：三道算法题，关于机试，橡皮擦已经准备好了各语言专栏，可以直接订阅。性格测试：机试技术一面（本专栏核心）技术二面（本专栏核心）主管面试定级定薪发of
续集来了丨UI自动化测试（二）：带视频，实在RPA高效进行web项目UI自动化测试 - 2
一、什么是web项目ui自动化测试？通过测试工具模拟人为操控浏览器，使软件按照测试人员的预定计划自动执行测试的一种方式，可以完成许多手工测试无法完成或者不易实现的繁琐工作。正确使用自动化测试，可以更全面的对软件进行测试，从而提高软件质量进而缩短迭代周期。二、构建测试用例的“九部曲”（一）创建流程包划分功能模块日常测试活动中，都会根据功能模块进行拆分，所以在设计器中我们可以通过创建流程包的方式来拆分需要测试的功能模块，如下图中操作创建一个电脑流程包并且取名为对应的功能模块名称，如果有多个功能模块就创建多个对应的流程包，实在RPA设计器有易用的图形可视化界面，方便管理较多的功能模块。（二）在流程包

HiveSQL大厂面试 各个视频的平均完播率