音视频技术开发周刊 | 270

LiveVideoStack_ 2024-02-08 原文

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

LiveVideoStackCon 2022 音视频技术大会北京站

LiveVideoStackCon 2022 音视频技术大会北京站将在11月25-26日召开，本次大会将延续「音视频+无限可能」的主题，除了保证传统专题《视频编解码的新突破》、《媒体服务质量保障与QoE》、《声声入耳：音频新体验》等内容质量过关以外，我们加强探索音视频技术对不同行业、场景、业务的赋能能力。从学术界到工业界，我们邀请了众多新的技术大咖来分享在他们心中音视频技术能力的价值体现，以及在实际应用、落地时的情况及解决方案。

⏰ 时间：2022年11月25日-26日

🌏 地址：北京丽亭华苑酒店

对话火山引擎王悦：多媒体继续向更高清，更交互，更沉浸演进
火山引擎支撑起了字节跳动旗下的音视频能力，支持数亿DAU，为每天数千亿次播放与互动提供保障，他们是如何做好这一切的？除了数据驱动、A/B测试还有哪些深度的思考与方法呢？

关于 YUV 格式的一些总结
YUV，是一种颜色编码方法，常使用在各个视频处理组件中。YUV 主要是用在彩色电视中，用于模拟信号表示。YCbCr 是用在数字视频、图像的压缩和传输，例如H264、HEVC、JPEG、MPEG均采用此格式。一般人们所讲的YUV大多是指YCbCr。

B站直播间基于视图交互的架构演进
直播间是一种单页面强交互型业务场景，一个业务就经常需要会关心其他业务的状态，因此垂直方向拓展业务场景就会很多，直播间中的业务几乎都是在垂直屏幕方向上进行拓展的。

音视频、人脸和物体识别项目工程代码框架解析！
大家好，今天继续给大家分享之前的音视频、人脸识别项目，目前整个项目的工程代码已经开放了出来，具体大家可以到gitte和github上下载下来学习，今天主要是给大家分析两个项目工程的整体代码流程框架。

音视频生产关键指标：视频录制优化丨音视频工业实战
视频录制过程包括采集音视频数据，做滤镜、美颜、特效等图像处理，这些部分的优化类似采集预览流畅度优化，所以策略也类似。

FFmpeg filter浅析--中篇
本文主要讲解FFmpeg filter相关API和走读官方examples/filtering_video.c示例。

西工大实验室负责人谢磊教授—智能语音技术新发展与发展趋势
本文总结于西工大音频语音与语言处理实验室负责人谢磊教授在公开课——智能语音技术的新进展与发展趋势—NPU-ASLP视角，汇报了实验室在智能语音技术方面的一些进展。

应用于语音识别的基于石墨烯的传感器
清华大学团队根据语音的生成机制开发了一种基于石墨烯的融合肌电电极和力学传感器的双生物通道传感器（DGEMS）用于采集佩戴者说话时下颌部和喉部的肌电信号和力学信号。

论文推介：MFCCA--基于多帧跨通道注意力机制的多说话人语音识别
该论文考虑到麦克风阵列不同麦克风接收信号的差异，提出了一种多帧跨通道注意力机制，该方法对相邻帧之间的跨通道信息进行建模，以利用帧级和通道级信息的互补性。

sherpa + ncnn 进行语音识别
本文详细介绍了如何使用 sherpa-ncnn 进行语音识别，涉及到模型转换、模型验证、sherpa-ncnn 的安装及使用方法。

新一代视频编码标准VVC的芯片设计思考
LiveVideoStackCon2022上海站大会邀请到了复旦大学微电子学院的范益波老师和和大家一同探讨了针对新一代视频编码标准VVC的芯片设计和思考。

音视频开发之旅（36) -FFmpeg +OpenSL ES实现音频解码和播放
在Android上还有一种播放音频的方式即OpenSL ES, 什么是OpenSL ES，这个我们平时接触的很少，下面我们一起来学习实践吧。

硬解码和软解码的比较！
对于视频的传输而言，解码的认识应该是基础的。那么什么是软解码，什么又是硬解码呢？之间的差异在哪里呢。难道只是专有名词的不同吗？其实他两个的区别很明显！

视频压缩足够好了吗？
WS Elemental 的首席软件工程师 Ramzi Khsib 分享了他对视频编解码的现状和未来前景的看法，讨论了 AVC、HEVC、VVC 和 AV1 的市场采用情况，内容自适应编码，硬件与软件的实现，以及如何利用机器学习工具提高现有编解码器的压缩效率。

MPAI-EVC编码标准简介
本文介绍一种利用AI工具来增强传统视频编码的编码标准，主要简单介绍一下该标准目前的发展状况。

HTTP/3特性分析及未来发展
正如我们之前所说，HTTP/3的大部分潜力来自底层的QUIC，而非HTTP/3本身。虽然HTTP/3的内部实现非常不同于HTTP/2，但是它们的高层性能特性和使用方式仍然保持一致。

无人驾驶时代的室外组网技术研究
车载自组网是专门为车辆间通信而设计的自组织网络，它创造性地将自组网技术应用于车辆间通信，使司机能够在超视距的范围内获得其他车辆的状况信息(如车速、方向、位置、刹车板压力等)和实时路况信息。

论文推介：TEA-PSE 2.0--用于实时个性化语音增强的子带网络
在通话过程中语音质量往往受到背景噪声、混响、无关说话人等干扰的显著影响。有效的语音增强在 RTC 系统中起着至关重要的作用。

深度解析字节跳动开源数据集成引擎 BitSail
BitSail 是字节跳动开源数据集成引擎，支持多种异构数据源间的数据同步，并提供离线、实时、全量、增量场景下全域数据集成解决方案，目前支撑了字节内部和火山引擎多个客户的数据集成需求。经过字节跳动各大业务线海量数据的考验，在性能、稳定性上得到较好验证。

这个开源太强了！智能标注10倍速、精准人像分割、3D医疗影像分割！
图像分割是计算机视觉三大任务之一，基于深度学习的图像分割技术也发挥日益重要的作用，广泛应用于智慧医疗、工业质检、自动驾驶、遥感、智能办公等行业。

EV感知的开源数据集分享
本篇介绍的数据集涵盖了真实世界的图像数据、点云数据和仿真构建的自动驾驶场景数据。所有这些数据集都提供了有价值的信息，研究人员可以利用这些数据集来帮助自动驾驶汽车开发BEV感知算法。

一个没有KPI的国产编程语言，开源3个月有了哪些新进展？
凹语言（凹读音“wā”）是国内 Gopher 针对 WASM 平台设计的通用编程语言。凹语言正式开源不知不觉已经过去一个季度，这是凹语言开源的第一个季度的非正式总结，也是对未来的计划和展望。

人群计数、行人检测等开源数据集资源汇总
本文收集总结了一些行人检测、人群计数相关的开源数据集资源，均附有下载链接。

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码或点击上图立即订阅。

边缘检测算法综合指南
将边缘检测算法应用于图像可以显着减少要处理的数据量，因此可以过滤掉可能被认为不太相关的信息，同时保留图像的重要结构属性。在这篇博客中，让我们了解 Canny 边缘检测器和整体嵌套边缘检测器。

12个常用的图像数据增强技术总结
本篇文章只讨论“图像”数据增强技术，只详细地介绍各种图片数据增强策略。我们还将使用 PyTorch 动手实践并实现图像数据或计算机视觉中主要使用的数据增强技术。

单像素成像图像智能处理算法
近十多年来，科学家们在探索一种新型的“单像素相机”，即图像传感器只包含一个像素，这种另类的光学成像方式就是“单像素成像”。那么单像素相机又是怎么工作的呢？

veImageX演进之路:HEIF图片编码压缩与优化
压缩技术对于图像、视频应用十分重要。在保证同样主观质量的前提下，如何将图像压缩到更小体积便于互联网信息传输？

入门必读系列（四）Transformer模型
本文回顾了ViT的结构，总结了计算机视觉中的transformer的主要改进思路：改进分块，改进位置编码，改进Encoder，增加Decoder。每个思路下都介绍了相关的论文，介绍了这些论文的提出出发点和改进思路。

增强算法真的有效? 无需增强，直接训练，解决低光照场景下的目标检测问题
针对暗光场景下的high-level vision task中存在的一些问题：1.图像质量差 2.图像增强手段容易失效 3.数据集规模小，作者提出了一种新的多任务自动编码转换（MAET）模型。该工作已经收录于ICCV2021。

X射线图像中的目标检测
在本项目中，我们将一起探索几个基于深度学习的目标检测模型，以对X射线图像中的违禁物体进行定位和分类为基础，并比较这几个模型在不同指标上的表现。

使用 OpenCV 处理图像和视频
在本文中，我将介绍如何使用 Python 的 OpenCV 库开始处理图像和视频。在本文中，我将介绍如何使用 Python 的 OpenCV 库开始处理图像和视频。

AdaptivePose++：开辟多人姿态估计新思路，速度快、精度高
来自北邮、鹏城实验室等单位的学者提出将人体部位表示为自适应点集，并引入一种细粒度的身体表示方法，这种表示能够充分编码各种姿势信息，并在单次前向传递中有效地建模人体实例与相应关键点之间的关系。

像背单词一样搞定机器学习关键概念！机器学习通关（1）
“如何高效学习机器学习关键概念？”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念，并彩笔手绘，制作了这份精美的小抄。

700+机器学习术语！
本文是几位机器学习权威专家汇总的725个机器学习术语表，非常全面了，值得收藏！

万字长文解析cv中的注意力机制
注意力机制是机器学习中嵌入的一个网络结构，主要用来学习输入数据对输出数据贡献；注意力机制在NLP和CV中均有使用，本文从注意力机制的起源和演进开始，并主要介绍注意力机制以及在cv中的各类注意力机制。

图神经网络从入门到入门
文从一个更直观的角度对当前经典流行的GNN网络，包括GCN、GraphSAGE、GAT、GAE以及graph pooling策略DiffPool等等做一个简单的小结。

神经网络的简单偏好，5年心得分享
本文作者分享了自己从事深度学习五年来，围绕神经网络的简单偏好的研究总结，比如算法适合什么数据，不适合什么数据，希望能对各位读者有所帮助。

【深度学习】7大类卷积神经网络(CNN)创新综述
本综述将最近的 CNN 架构创新分为七个不同的类别，分别基于空间利用、深度、多路径、宽度、特征图利用、通道提升和注意力。

最全自动驾驶数据集分享系列三｜车道检测数据集
目前关于自动驾驶数据集你想知道的，应该都在这里了，这是「整数智能」自动驾驶数据集八大系列分享之系列三，本文是<系列三车道线检测数据集>，共包括10个数据集。

浅谈自动驾驶关键一环：感知前沿技术
本文总结于Waymo研发经理周寅博士在深蓝学院的讲座—《自动驾驶感知前沿技术介绍》。讲座内容主要包括自动驾驶系统的总览，自动驾驶感知的介绍，以及感知的前沿动态和总结。

自动驾驶长尾难题解法 | Nvidia 自动驾驶仿真神经重建引擎
Realism是不是一个困难的问题，取决于我们对自动驾驶问题的认知是否有效和准确。当我们在问和成数据到底真不真实的时候，一个更值得澄清的问题是“什么是我们在乎的真实“？

一文读懂自动驾驶车辆的硬件池
谈起自动驾驶车辆，除了外观可见的传感器的差异，自动驾驶车辆和普通车辆又有哪些不同呢？本篇文章就来带领读者起底一下目前自动驾驶车辆所用到的硬件池技术栈。

目标检测技能点｜一步一步带你实验并重新思考目标检测不同检测头的作用
作为智能驾驶的重要组成部分，目标检测对于确保驾驶安全至关重要。通常，为了平衡FLOP的检测精度，缩放输入分辨率是一种常见的方法。作者回顾了BDD100K数据集上检测模型的细节，意外地发现不同的检测头可以在不同的输入分辨率下匹配不同尺度的目标。

BEV和单目图像车道线检测方法总结
本文主要对主流的车道线检测（包括BEV视角和图像视角）方法进行总结。由于基于深度学习的方法性能远超传统方法，所以本文只总结了基于学习的方法。

对话腾讯音乐天琴董治：聊聊元宇宙与AI技术驱动虚拟人
入局元宇宙需要具备哪些能力？用AI技术驱动的虚拟人从建模到渲染，再到场景应用，当前遇到的瓶颈是什么？腾讯音乐天琴实验室董治老师为您分享一些观点和相关经验。

元宇宙太烧钱！今年以来 Meta Reality Labs 已亏损 94 亿美元，扎克伯格称还将加大投入
Meta 在元宇宙上的亏损是惊人的。财报显示，Meta 的 Reality Labs 在上个季度亏损了 37 亿美元，今年以来已累计亏损了 94 亿美元。2021 年亏损超 100 亿美元。

IEEE VR 机器学习专题（上）
本文整理 IEEE VR 2022 的网络研讨会机器学习专题的上半部分，包含了休闲立体摄影几何、对深度图像分类器的对抗攻击两个工作。

看！我的 iPhone 14 等来了这款 MR 眼镜
一款名为 HoloKit X 的头戴设备，与今年流行的 Meta Quest、Pico 等 VR 一体机、以及 Rokid Air 等 AR 眼镜不同的是，它不仅需要配合一部手机用——还必须是 iPhone，还要有配套的 App。官网的定义更准确：它是一款「iPhone 配件」。

INMO影目科技发布AR眼镜Air2，“元宇宙”应用亮相
10月28日，消费级无线AR眼镜厂商INMO影目科技召开以“去探索”为主题的线上直播新品发布会。INMO第二代AR眼镜 INMO Air2 及智能戒指 INMO Ring 亮相，并发布全球最轻量级SLAM空间算法，以及基于该项技术的重磅“元宇宙”应用——INMOVERSE。

罗永浩AR公司获近4亿元融资，AR成为资本市场新风口
近日，据36氪报道，罗永浩所创立的AR公司——Thin Red Line已完成近4亿元的天使轮融资。目前无论国内还是国外，很多公司都在相继围绕AR领域开展新一轮战略布局。为什么资本市场以及各大企业都如此看好AR呢？

音视音视频 xff0c xff strong

有关音视频技术开发周刊 | 270的更多相关文章

ruby - 使用 C 扩展开发 rubygem 时，如何使用 Rspec 在本地进行测试？ - 2
我正在编写一个包含C扩展的gem。通常当我写一个gem时，我会遵循TDD的过程，我会写一个失败的规范，然后处理代码直到它通过，等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb，如何运行我的规范并仍然加载我的C扩展？当我更改C代码时，我需要采取哪些步骤来重新编译代码？这可能是个愚蠢的问题，但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时，我确实得到了一个Makefile(在整个项目的根目录中)，然后当
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
ruby - 是否可以覆盖 gemfile 进行本地开发？ - 2
我们的git存储库中目前有一个Gemfile。但是，有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它，我必须将它添加到我们的Gemfile中，但每次我checkout到我们的master/dev主分支时，由于与跟踪的gemfile冲突，我必须删除它。我想要的是类似Gemfile.local的东西，它将继承从Gemfile导入的gems，但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗？最佳答案设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI
ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2
我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器，但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型，并且只返回text/plain，如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO
微信小程序开发入门与实战（Behaviors使用） - 2
@作者:SYFStrive @博客首页:HomePage📜：微信小程序📌：个人社区（欢迎大佬们加入）👉：社区链接🔗📌：觉得文章不错可以点点关注👉：专栏连接🔗💃：感谢支持,学累了可以先看小段由小胖给大家带来的街舞👉微信小程序（🔥）目录自定义组件-behaviors 1、什么是behaviors 2、behaviors的工作方式 3、创建behavior 4、导入并使用behavior 5、behavior中所有可用的节点 6、同名字段的覆盖和组合规则总结最后自定义组件-behaviors 1、什么是behaviorsbehaviors是小程序中，用于实现

音视频技术开发周刊 | 270

有关音视频技术开发周刊 | 270的更多相关文章

随机推荐