CVPR 2023｜淘宝视频质量评价算法被顶会收录

阿里巴巴淘系技术团队官网博客 2023-06-05 原文

近日，阿里巴巴大淘宝技术题为《MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos》—— 适用于无参考视频质量评价的最新研究成果被计算机视觉领域顶级会议IEEE/CVF Computer Vision and Pattern Recognition Conference 2023（CVPR 2023）成功收录。

CVPR是由IEEE/CVF主办的计算机视觉领域的顶级学术会议，也是中国计算机协会CCF推荐的A类学术会议。该会议每年在世界范围内召开一次，其收录的论文涵盖了图像和视频领域的创新技术和重大成果，是相关领域学术研究与行业发展的风向标。CVPR 2023共收到创纪录的9,155篇投稿（相比2022提升12%），其中有2,360篇论文被接收，接收率为25.78%。此篇被收录论文属于视频质量评价领域，由大淘宝技术和上海交通大学合作完成（共同一作）。

在淘宝，每天有亿级的User-Generated Content (UGC) 等非传统广电视频（包括但不限于短视频、直播等）被生产或播放，其存在明确的无参考视频质量评价的需求，用以对视频质量进行实时监控，确保用户体验。因此，大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 —— MD-VQA（Multi-Dimensional Video Quality Assessment），综合视频的语义、失真、运动等多维度信息，来衡量视频绝对质量的高低。MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝视频相关业务，“量化”画质，有效地反应技术迭代带来的体验提升，为大淘宝视频体验提供画质保障。

背景

随着互联网视频化的深入，越来越多的UGC等非传统广电视频（包括但不限于短视频、直播等）在互联网平台上被生产或播放。手淘内容化与互联网内容化的趋势契合，而平台亦希望能够在成本可控的前提下保障尽可能好的视频画质，视频质量评价指标在其中发挥关键作用。相比传统广电视频更多地使用有参考视频质量评价指标，也即要求使用近似无损的源视频作为参考，UGC视频源质量不可控，无法作为理想的无损源，因此无参考视频质量评价方法在短视频和直播视频的评价方面更具备实用价值。

大淘宝音视频技术团队基于淘宝直播、逛逛等内容业务，构建了大规模UGC视频质量评价数据集 —— TaoLive，包含3,762个视频，覆盖不同的内容、失真、和质量，并通过专业的主观标注，获取165,528个视频的主观质量标签。在此之上，大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 ——MD-VQA（Multi-Dimensional Video Quality Assessment），综合视频的语义、失真、运动等多维度信息，并进行时空域的融合，来衡量视频绝对质量的高低。在公开的视频质量评价数据集LIVE-WC和YT-UGC+，以及TaoLive上，MD-VQA在主流视频质量评价指标SRCC和PLCC上均超过了SOTA（State-Of-The-Art）方法，达到了先进性能。

MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝内容业务，监控视频业务的大盘画质的变化，快速、精准地筛选出不同画质水位的直播间和短视频，配合淘宝自研S265编码器、视频增强算子集STaoVideo以及《电商直播高画质开播指南》[1] 等，帮助提升平台内容画质。

方法

针对上述问题，我们基于淘宝直播平台的视频，构建了大规模UGC视频质量评价数据集 —— TaoLive，包含3,762个直播视频，覆盖不同的内容和质量，并通过专业的主观打分，获取165,528个主观质量分数的标注数据。与此同时，我们自研了针对UGC视频的无参考视频质量评价模型 —— MD-VQA，综合视频的语义、失真、和运动等多维特征，并进行时空域的融合，来衡量视频绝对质量的高低。

▐ TaoLive数据集

我们从淘宝直播平台筛选了418条视频，覆盖美妆、服饰、珠宝、食品、生活日常等不同内容、以及720p和1080p两个主流分辨率。然后，我们对这些视频进行8种不同失真等级的编码，来模拟实际应用中不同的视频质量，最后共生成3,762条不同内容、不同质量的视频，用来验证我们提出的MD-VQA的模型性能。部分示例视频如图1。

图1. TaoLive数据集示例

在此基础上，我们组织了由44名专家和普通消费者组成（20名男性，24名女性）的主观测评团队，对上述3,762条视频进行主观打分，共生成165,528条主观质量分数的标注数据。然后，我们根据ITU-R BT.500-13 [2] 标准，将标注数据转换为mean opinion score（MOS）分数，作为视频质量的ground-truth（GT）数据。

我们也和业界主流的视频质量评价数据集进行了比较，如表1所示。从表中可以看出，早期（2014-2016）的数据集的规模相对有限，而后续演进的大型数据集，例如KoNViD-1k、YouTube-UGC、LSVQ等则更侧重于In-the-wild的视频内容。在互联网内容平台上流行的“UGC视频结合压缩/传输失真（UGC + Compression）”类型数据集，我们构建的TaoLive数据集在数据规模上具有一定的竞争力，同时更适合于电商场景。

表1. 主流视频质量评价数据集比较

▐ 模型设计

图2示出了所提出的 MD-VQA 模型的框架，包括特征提取模块、特征融合模块、和特征回归模块。具体来说，所提取的视频特征包括多个维度：语义、失真、和运动。特别地，我们利用相邻帧特征之间的绝对误差来反映视频质量在时域上波动。上述得到的多维特征在时空域上被融合，并通过特征回归模块映射到最终的质量分数。

图2. MD-VQA模型的网络架构示例

语义特征提取

视频语义特征通常描述视频中物体的物理特性、物体之间的时空关系、以及物体的内容信息等，属于视频的高维特征，且和视频的低维特征（如亮度、色彩、纹理等）存在很强的关联性。此外，对于不同的视频内容，语义特征的失真对人眼感知到的视频质量有着不同的影响：人眼通畅无法容忍纹理丰富的内容（例如草坪、地毯）的模糊，二队纹理简单的内容（例如天空、墙面）的模糊相对不敏感。综上考虑，我们利用从预训练的EfficientNetV2 [3] 网络最后4层中提取的多维度特征作为帧级的语义特征，如图3公式所示：

图3. 语义特征

其中，表示从第个视频片段的第帧获取的语义特征，表示级联算子，表示全局平均池化算子，表示EfficientNetV2第层的特征图，表示从获取的平均池化特征。

失真特征提取

由于UGC视频中普遍存在多种失真，仅使用语义特征来表征视频质量是不充分的。此外，对于不同的压缩质量，失真会呈现不同的状态，例如在压缩质量相对较低时，模糊会比较明显，但噪声也同时被抑制。因此，在考虑高维的语义特征的同时，我们引入了低维的手工（hand-crafted）特征，包括模糊、噪声、块效应、曝光强度、以及色彩，然后将上述特征综合为帧级的失真特征，如图4公式所示：

图4. 失真特征

其中，表示从第个视频片段的第帧获取的失真特征，表示失真特征提取算子。

运动特征提取

运动失真通常源自于拍摄时的抖动、或者低码率的视频编码，并且，其无法被视频空域特征（例如前述的语义特征）有效地描述。因此，为了提高模型的准确度，我们利用预训练的ResNet3D-18 [4] 获取帧级的运动特征，如图5公式所示：

图5. 运动特征

其中，表示从第个视频片段获取的运动特征，表示运动特征提取算子。

特征融合

根据 [5] 中所述，高质量视频通常具有更小的帧间质量波动，反之亦然。为了量化上述波动，我们使用帧间语义特征和失真特征的绝对误差来衡量帧间质量波动，如图6公式所示：

图6. 相邻帧的语义特征的绝对误差和失真特征的绝对误差

其中，和分别表示相邻帧的语义特征的绝对误差，以及失真特征的绝对误差。

基于此，时空域特征可以利用图7中的公式进行融合：

图7. 时空域特征融合

其中，表示帧级的时空域特征，表示级联算子，表示可学习多层感知机，表示的转置，表示可学习的线性映射算子，将映射到最终的时空域融合特征。

最后，上述时空域融合特征与运动特征进一步融合，形成最终的时空域融合特征，如图8公式所示：

图8. 最终的时空域融合特征

特征回归

基于上述时空域融合特征，我们利用三层全连接层来回归视频质量，如图9公式所示：

图9. 全连接层回归视频质量

其中，表示全连接层，表示视频片段的质量。

此外，我们使用均方误差MSE（Mean Squared Error）作为损失函数，如图10公式所示：

图10. 全连接层回归视频质量

其中，表示mini-batch的视频数量，和分别表示预测的视频质量和实际的视频质量。完整视频的质量可通过对视频片段进行平均池化操作获得。

实验

我们在两个公开的视频质量评价数据集LIVE-WC和YouTube-UGC，以及我们自建的TaoLive数据集上，与现有SOTA方法进行了对比。我们使用Spearman Rank Order Correlation Coefficient（SRCC）和Pearson Linear Correlation Coefficient（PLCC）作为指标进行对比。更高的SRCC表示样本间更好的保序性，更高的PLCC表示与标注分数更好地拟合程度。结果如表2所示。

表2. MD-VQA与其他视频质量评价SOTA模型在LIVE-WC、YT-UGC+、和TaoLive数据集的性能比较

从表中可以看出，我们在所测试数据集上的SRCC和PLCC均超过了现有SOTA方法，达到了先进性能。

此外，为了探索不同的特征对模型性能的贡献，我们进行了消融实验（ablation study），如表3和表4所示。

表3. 语义特征SF、失真特征DF、和运动特征MF对于模型性能的贡献比较

从表3中可以看出，语义特征对于模型的领先性贡献最多，而另外两种特征在不同的视频内容（不同数据集）上有不同的表现，符合预期。

表4. 绝对误差（ABS）和特征融合模块（FFM）对于模型性能的贡献比较

从表4中可以看出，绝对误差（ABS）和特征融合模块（FFM）对于模型性能的领先性均有贡献。

总结

为了准确、高效地衡量UGC视频的绝对质量，我们构建了大规模UGC视频质量评价数据集 —— TaoLive。不同于常见的视频质量评价数据集使用高质量视频作为源视频，TaoLive 数据集收集了3,762个UGC源视频，覆盖不同的内容和质量，并通过专业的主观打分，获取165,528个主观质量分数的标注数据。此外，我们提出一个无参考视频质量评价模型 —— MD-VQA，综合视频的语义、失真、和运动等多维特征，并进行时空域的融合，来衡量视频绝对质量的高低。实验结果表明，MD-VQA在主流视频质量评价数据集和评价指标上，均超过了现有方法，达到了先进性能。

参考文献

【1】 “服贸会在京举行｜淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及”，https://mp.weixin.qq.com/s/2-pC1Z9wH60DHpUkCU-_ng.

【2】 RECOMMENDATION ITU-R BT. Methodology for the subjective assessment of the quality of television pictures. International Telecommunication Union, 2002.

【3】 Mingxing Tan and Quoc Le. Efficientnetv2: Smaller models and faster training. In International Conference on Machine Learning, pages 10096–10106. PMLR, 2021.

【4】 Kensho Hara, Hirokatsu Kataoka, and Yutaka Satoh. Can spatio-temporal 3d cnns retrace the history of 2d cnns and imagenet? In IEEE/CVF CVPR, pages 6546–6555, 2018.

【5】Manish Narwaria, Weisi Lin, and Anmin Liu. Low-complexity video quality assessment using temporal quality variations. IEEE TMM, 14(3):525–535, 2012.

团队介绍

该工作主要在大淘宝技术的音视频技术团队的带领下完成，该团队依托淘宝直播、逛逛、手淘首页信息流等内容业务，致力于打造行业领先的音视频技术。团队成员来自海内外知名高校，先后在MSU世界编码器大赛，NTIRE视频增强超分竞赛这样的领域强相关权威赛事上夺魁，并重视与学界的合作与交流。

这项工作的合作方为上海交通大学张文军教授领衔的图像所团队，是数字电视广播及数字媒体处理与传输领域的主要研究力量之一。面向国家战略性新兴产业，顺应网络化、融合化的发展趋势，近年来开展的重点研究领域包括智能媒体融合网络、视频智能分析处理与传输等。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

有关CVPR 2023｜淘宝视频质量评价算法被顶会收录的更多相关文章

区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
动漫制作技巧如何制作动漫视频 - 2
动漫制作技巧是很多新人想了解的问题，今天小编就来解答与大家分享一下动漫制作流程，为了帮助有兴趣的同学理解，大多数人会选择动漫培训机构，那么今天小编就带大家来看看动漫制作要掌握哪些技巧？一、动漫作品首先完成草图设计和原型制作。设计草图要有目的、有对象、有步骤、要形象、要简单、符合实际。设计图要一致性，以保证制作的顺利进行。二、原型制作是根据设计图纸和制作材料，可以是手绘也可以是3d软件创建。在此步骤中，要注意的问题是色彩和平面布局。三、动漫制作制作完成后，加工成型。完成不同的表现形式后，就要对设计稿进行加工处理，使加工的难易度降低，并得到一些基本准确的概念，以便于后续的大样、准确的尺寸制定。四、
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
TimeSformer：抛弃CNN的Transformer视频理解框架 - 2
Transformers开始在视频识别领域的“猪突猛进”，各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解，本篇主要介绍了FBAI团队的TimeSformer，这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用，就请点赞、收藏、关注！paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图
ruby - 如何更改此正则表达式以从未指定 v 参数的 Youtube URL 获取 Youtube 视频 ID？ - 2
目前我正在使用这个正则表达式从YoutubeURL中提取视频ID:url.match(/v=([^&]*)/)[1]我怎样才能改变它，以便它也可以从这个没有v参数的YoutubeURL获取视频ID:http://www.youtube.com/user/SHAYTARDS#p/u/9/Xc81AajGUMU感谢阅读。编辑:我正在使用ruby1.8.7 最佳答案对于Ruby1.8.7，这就可以了。url_1='http://www.youtube.com/watch?v=8WVTOUh53QY&feature=feedf'url
100个python算法超详细讲解：画直线 - 2
1．问题描述使用Python的turtle（海龟绘图）模块提供的函数绘制直线。2．问题分析一幅复杂的图形通常都可以由点、直线、三角形、矩形、平行四边形、圆、椭圆和圆弧等基本图形组成。其中的三角形、矩形、平行四边形又可以由直线组成，而直线又是由两个点确定的。我们使用Python的turtle模块所提供的函数来绘制直线。在使用之前我们先介绍一下turtle模块的相关知识点。turtle模块提供面向对象和面向过程两种形式的海龟绘图基本组件。面向对象的接口类如下：1）TurtleScreen类：定义图形窗口作为绘图海龟的运动场。它的构造器需要一个tkinter.Canvas或ScrolledCanva
华为OD机试真题 C++ 实现【带传送阵的矩阵游离】【2023 Q2 | 200分】 - 2
所有题目均有五种语言实现。C实现目录、C++实现目录、Python实现目录、Java实现目录、JavaScript实现目录题目n行m列的矩阵，每个位置上有一个元素你可以上下左右行走，代价是前后两个位置元素值差的绝对值.另外，你最多可以使用一次传送阵(只能从一个数跳到另外一个相同的数)求从走上角走到右下角最少需要多少时间。输入描述：第一行两个整数n,m，分别代表矩阵的行和列。后面n行，每行m个整数，分别代表矩阵中的元素。输出描述：一个整数，表示最少需要多少时间。
ruby - 在 Ruby 中实现 Luhn 算法 - 2
我一直在尝试用Ruby实现Luhn算法。我一直在执行以下步骤:该公式根据其包含的校验位验证数字，该校验位通常附加到部分帐号以生成完整帐号。此帐号必须通过以下测试:从最右边的校验位开始向左移动，每第二个数字的值加倍。将乘积的数字(例如，10=1+0=1、14=1+4=5)与原始数字的未加倍数字相加。如果总模10等于0(如果总和以零结尾)，则根据Luhn公式该数字有效；否则无效。http://en.wikipedia.org/wiki/Luhn_algorithm这是我想出的:defvalidCreditCard(cardNumber)sum=0nums=cardNumber.to_s.s
Ruby 斐波那契算法 - 2
下面是我写的一个计算斐波那契数列中的值的方法:deffib(n)ifn==0return0endifn==1return1endifn>=2returnfib(n-1)+(fib(n-2))endend它工作到n=14，但在那之后我收到一条消息说程序响应时间太长(我正在使用repl.it)。有人知道为什么会这样吗？最佳答案 Naivefibonacci进行了大量的重复计算-在fib(14)fib(4)中计算了很多次。您可以将内存添加到您的算法中以使其更快:deffib(n,memo={})ifn==0||n==1returnnen

CVPR 2023｜淘宝视频质量评价算法被顶会收录

▐ TaoLive数据集

▐ 模型设计

有关CVPR 2023｜淘宝视频质量评价算法被顶会收录的更多相关文章

随机推荐