音视频知识图谱 2022.05

关键帧Keyframe 2023-08-21 原文

前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看这个合集：音视频面试题集锦。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱，你可以看看这个合集：音视频知识图谱。

下面是 2022.05 月知识图谱新增的内容节选：

1）图谱路径：采集/视频采集/对焦策略

手动对焦
- 用户点击哪里就对焦哪里。
自动对焦
- 基于系统能力在识别场景发生变化后，进行一次中心对焦。
- 如果有识别到画面从无人脸到有人脸时，做一次人脸对焦（这里是只做一次人脸对焦，不能一直跟着人脸对焦，这样可以防止用户不想对焦人脸的场景：在有人脸时，点击了其他地方进行手动对焦）。
- 人脸对焦时，一般对焦两眼中间的点位效果比较好。如果能获取到比较精细的人脸识别点位信息，常取 43 号点位。
手动对焦后，在满足这些条件时会切换到自动对焦
- 前后摄像头切换。
- 场景发生较大切换。比如，相机位移或晃动较大，外部光线敏感度变化较大等。
- 画面中从无人脸变为有人脸。

2）图谱路径：采集/视频采集/指标优化/相机打开平均时长+相机秒开率

优先使用 CPU 资源：优化相机打开速度，可以从业务层进行处理，优先将 CPU 资源让给相机，相机打开后回调给业务相机首帧已出的事件，这样业务收到该事件后再进行其它初始化

3）图谱路径：采集/视频采集/指标优化/预览平均采集帧率+图像处理帧率+渲染帧率

线程模型优化
- 采集和视频特效放在同一个线程，随着特效功能越来越强，计算越来越重，会影响到最终的输出帧率。
- 多线程模型：采集线程、CPU 处理线程（跑一些 AI 模型）、GPU 处理线程（跑一些图像处理）
采集与前处理数据交互优化
- 采集到前处理的数据进行下采样，这样可以提升前处理模块的处理速度。
- 视频数据对齐分辨率，防止多次采样消耗性能。
- 视频数据对齐下采样的方式（RGB、YUV），防止多次数据格式转换消耗性能。
减少 CPU 与 GPU 的数据拷贝
- GPU 和 CPU 要尽量少做数据拷贝，性能比较差。可以使用系统能力来实现 GPU 和 CPU 的内存共享来做相关的优化。
- Android HardwareBuffer 方案
- iOS CVPixelBuffer 方案
优化图像处理性能
- 做图像的裁剪、缩放、旋转、尺寸变化时要注意优化性能。可以使用 libyuv 来做常规的图像处理，一些 libyuv 版本甚至做过汇编级别的优化来提升图像处理的性能。

4）图谱路径：音频算法/音频通话质量指标/音质

平均意见得分（MOS，Mean Opinion Score），主观评价方法。测试人只听测试语音进行打分。
- 优。4.0-5.0。很好，听得清楚；延迟小，交流流畅。
- 良。3.5~4.0。稍差，听得清楚；延迟小，交流欠流畅，有点杂音。
- 中。3.0~3.5。还可以，听不太清；有一定延迟，可以交流。
- 差。1.5~3.0。勉强，听不太清；延迟较大，交流需要重复多遍。
- 劣。0~1.5。极差，听不懂；延迟大，交流不通畅。
失真平均意见得分（DMOS，Degradation Mean Opinion Score），主观评价方法。测试人知道原始语音。先听原始语音，再听测试语音，对差异进行打分。
相对平均意见得分（CMOS，Comparison Mean Opinion Score），主观评价方法。测试人不知道原始语音。随机听原始语音、测试语音，对当前听的语音相对上一次听的语音的好坏进行打分。
ABX Test，主观评价方法。测试人已知 A 和 B，通过测试 X 来选择标记它是 A 还是 B。
短时客观可懂度（STOI，Short-Time Objective Intelligibility），客观有参考评价方法。对纯净语音和待评价的语音进行比较从而得到评分，取值范围为 0-1。取值越高语音质量越好。
语音质量的感知评估（PESQ，Perceptual Evaluation of Speech Quality），客观有参考评价方法。将一个带噪的衰减信号和一个原始的参考信号经过一系列比较处理得到 PESQ 分数，最终映射到 MOS 分数来反映语音质量。
- 电平调整
- IRS 滤波
- 时间对准和补偿
- 听觉变换
- 提取信号时频特征评分
感知客观语音质量评估（POLQA，Perceptual Objective Listening Quality Analysis），客观有参考评价方法。对 PESQ 的升级改进版。
- 增加对宽带（Wideband）和超宽（SuperWideband）语音质量评估的能力，支持宽带（48khz）。
- 支持最新的语音编码和 VoIP 传输技术，针对现有的 opus、silk 编码器进行过特殊优化。
- 支持多语言环境，各国语言都支持。ITU 组织提供标准测试语料，可进行针对性测试。
基于传输网络参数的无参考语音质量评估（E-Model），客观无参考评价方法。
无参考语音通信网络的语音质量（NISQA），基于深度学习的客观无参考评价方法。
MOSNet，基于深度学习的客观无参考评价方法。
QualityNet，基于深度学习的客观无参考评价方法。

如果你也对音视频技术感兴趣，比如，符合下面的情况：

在校大学生 → 学习音视频开发
iOS/Android 客户端开发 → 转入音视频领域
直播/短视频业务开发 → 深入音视频底层 SDK 开发
音视频 SDK 开发 → 提升技能，解决优化瓶颈

可以长按识别或扫描下面二维码，了解一下这个社群，根据自己的情况按需加入：

我们创建了一个社群，vx 搜索『gjzkeyframe』关注『关键帧Keyframe』咨询，或知识星球搜『关键帧的音视频开发圈』即可加入。

下面是 2022.05 月的知识图谱新增内容快照（图片被平台压缩不够清晰，可以加文章后面微信索要清晰原图）：

2022.05 知识图谱新增内容 .png

音视音视频 li 对焦

有关音视频知识图谱 2022.05的更多相关文章

动漫制作技巧如何制作动漫视频 - 2
动漫制作技巧是很多新人想了解的问题，今天小编就来解答与大家分享一下动漫制作流程，为了帮助有兴趣的同学理解，大多数人会选择动漫培训机构，那么今天小编就带大家来看看动漫制作要掌握哪些技巧？一、动漫作品首先完成草图设计和原型制作。设计草图要有目的、有对象、有步骤、要形象、要简单、符合实际。设计图要一致性，以保证制作的顺利进行。二、原型制作是根据设计图纸和制作材料，可以是手绘也可以是3d软件创建。在此步骤中，要注意的问题是色彩和平面布局。三、动漫制作制作完成后，加工成型。完成不同的表现形式后，就要对设计稿进行加工处理，使加工的难易度降低，并得到一些基本准确的概念，以便于后续的大样、准确的尺寸制定。四、
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
TimeSformer：抛弃CNN的Transformer视频理解框架 - 2
Transformers开始在视频识别领域的“猪突猛进”，各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解，本篇主要介绍了FBAI团队的TimeSformer，这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用，就请点赞、收藏、关注！paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图
ruby - 我怎样才能更好地了解/了解更多关于 Ruby 的知识？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我最近开始学习Ruby，这是我的第一门编程语言。我对语法感到满意，并且我已经完成了许多只教授相同基础知识的教程。我已经写了一些小程序(包括我自己的数组排序方法，在有人告诉我谷歌“冒泡排序”之前我认为它非常聪明)，但我觉得我需要尝试更大更难的东西来理解更多关于Ruby.关于如何执行此操作的任何想法？
ruby - 如何更改此正则表达式以从未指定 v 参数的 Youtube URL 获取 Youtube 视频 ID？ - 2
目前我正在使用这个正则表达式从YoutubeURL中提取视频ID:url.match(/v=([^&]*)/)[1]我怎样才能改变它，以便它也可以从这个没有v参数的YoutubeURL获取视频ID:http://www.youtube.com/user/SHAYTARDS#p/u/9/Xc81AajGUMU感谢阅读。编辑:我正在使用ruby1.8.7 最佳答案对于Ruby1.8.7，这就可以了。url_1='http://www.youtube.com/watch?v=8WVTOUh53QY&feature=feedf'url
映宇宙2022年营收63亿元：同比下降三成，毛利率提升4.3个百分点 - 2
3月26日，映宇宙（HK:03700，即“映客”）发布截至2022年12月31日的2022年度业绩财务报告。财报显示，映宇宙2022年的总营收为63.19亿元，较2021年同期的91.76亿元下降31.1%。2022年，映宇宙的经营亏损为4698.7万元，2021年同期则为净利润4.57亿元；期内亏损（净亏损）为1.68亿元，2021年同期的净利润为4.33亿元；非国际财务报告准则经调整净利润为3.88亿元，2021年同期为4.82亿元，同比下降19.6%。映宇宙在财报中表示，收入减少主要是由于行业竞争加剧，该集团对旗下产品采取更为谨慎的运营策略以应对市场变化。不过，映宇宙的毛利率则有所提升
IDEA 2022 创建 Spring Boot 项目详解 - 2
如何用IDEA2022创建并初始化一个SpringBoot项目？目录如何用IDEA2022创建并初始化一个SpringBoot项目？0. 环境说明1. 创建SpringBoot项目 2.编写初始化代码0. 环境说明IDEA2022.3.1JDK1.8SpringBoot1. 创建SpringBoot项目打开IDEA，选择NewProject创建项目。填写项目名称、项目构建方式、jdk版本，按需要修改项目文件路径等信息。选择springboot版本以及需要的包，此处只选择了springweb。此处需特别注意，若你使用的是jdk1
续集来了丨UI自动化测试（二）：带视频，实在RPA高效进行web项目UI自动化测试 - 2
一、什么是web项目ui自动化测试？通过测试工具模拟人为操控浏览器，使软件按照测试人员的预定计划自动执行测试的一种方式，可以完成许多手工测试无法完成或者不易实现的繁琐工作。正确使用自动化测试，可以更全面的对软件进行测试，从而提高软件质量进而缩短迭代周期。二、构建测试用例的“九部曲”（一）创建流程包划分功能模块日常测试活动中，都会根据功能模块进行拆分，所以在设计器中我们可以通过创建流程包的方式来拆分需要测试的功能模块，如下图中操作创建一个电脑流程包并且取名为对应的功能模块名称，如果有多个功能模块就创建多个对应的流程包，实在RPA设计器有易用的图形可视化界面，方便管理较多的功能模块。（二）在流程包
Java调用ffmpeg处理视频，并记录下遇到的坑 - 2
目录需求基于JavaCV跨平台执行ffmpeg命令[^1]坑一内存不足坑二多个ffmpeg进程并行导致IO负载大，进而导致ioerror?坑三使用Java操作ffmpeg时，有时会卡死坑四Process的waitFor死锁问题及解决办法需求给透明背景的视频自动叠加一张背景图片基于JavaCV跨平台执行ffmpeg命令1我测试发现的本需求的最小依赖：dependency>groupId>org.bytedecogroupId>artifactId>ffmpeg-platform-gplartifactId>version>5.0-1.5.7version>dependency>核心代码：Stri
基于python的短视频智能推荐/django的影视网站/视频推荐系统 - 2
摘要本论文主要论述了如何使用Python技术开发一个短视频智能推荐，本系统将严格按照软件开发流程进行各个阶段的工作，采用B/S架构，面向对象编程思想进行项目开发。在引言中，作者将论述短视频智能推荐的当前背景以及系统开发的目的，后续章节将严格按照软件开发流程，对系统进行各个阶段分析设计。短视频智能推荐的主要使用者分为管理员和用户，实现功能包括管理员：首页、个人中心、用户管理、热门视频管理、用户上传管理、系统管理，用户：首页、个人中心、用户上传管理、我的收藏管理，前台首页；首页、热门视频、用户上传、公告信息、个人中心、后台管理等功能。由于本网站的功能模块设计比较全面，所以使得整个短视频智能推荐信

音视频知识图谱 2022.05

有关音视频知识图谱 2022.05的更多相关文章

随机推荐