Audio-初识

咸鱼lee 2023-05-27 原文

跳动的音符，婉转的节奏，悠扬的歌声……

音乐无疑是最能愉悦身心的方式之一，那么歌手的音调、音色是如何存储到手机中，又是如何通过喇叭播放出来的呢？

下面我将通过几篇博客阐述我对音频的理解及部分调试经验，本章主要介绍音频的的基础知识

信号分类

声音严格意义来讲应该被叫做声音信号，而在维基百科中对于信号的定义是表示消息的物理量，这样就很好理解了声音信号就是以声音为载体的一个物理量。而自然界中信号可以有如下的分类

因此，按照信号变化分类声音信号属于随机信号；按照信号特征分类声音信号属于模拟信号

模数转换

上一部分了解到声音是模拟信号，而对于计算机来讲其只能处理数字信号即0和1，所以必须需要将声音模拟信号转换成数字信号，而这个过程叫做模数转换（Analog Digital Conversion），相应的完成该功能的硬件单元就叫做模数转换器(ADC)

完成该过程需要三部曲分别是：采样、量化、编码，整体过程如下图：

采样

重要参数：采样率

定义：在时间轴上对信号进行离散化
原理：按照一定的频率对模拟信号的瞬时时刻进行样本采集

其实采样作用通俗理解就是是采集样本。由于模拟信号是连续的，理论上我们需要采集无数个点才能完整的还原该信号，但是一来无穷的概念是不可能满足的，二来我们其实并不需要这么高的采样率。我们听觉是有延迟的就和视频帧不停的刷新欺骗我们的眼睛是画面连续的是一个道理。

所以采样率越高，声音的还原就越真实越自然，人对频率的识别范围是 20HZ - 22000HZ, 如果每秒钟能对声音做 22000 个采样, 回放时就足可以满足人耳的需求. 所以 22050 的采样频率是常用的, 44100已是CD音质, 超过48000的采样对人耳已经没有意义。这和电影的每秒 24 帧图片的道理差不多。

量化

相关参数：采样位数

定义：在幅度轴上对信号进行数字化
原理：对采样点的幅度赋予具体的数值，该数值由n位二进制表征（n = 8 / 16 / 32）

采样位数越高说明划分的等级越精细。较低的采样位数损失精度，较高的采样位数可能造成软硬件资源的浪费

小常识：标准CD音乐的质量就是16bit、44.1KHz采样

编码

定义：按照一定的格式记录采样和量化后的数据。后续会对部分格式的存储格式进行分析

编码分类

该部分内容转自 https://www.jianshu.com/p/28d3f108ef63

波形编码

定义：不利用生成音频信号的任何参数，直接将 时间域信号 变换为 数字代码，使重构的语音波形尽可能地与原始语音信号的波形形状保持一致。
原理：在 时间轴 上对模拟语音信号按一定的速率抽样，然后将幅度样本分层量化，并用代码表示。

参数编码

从语音 波形信号 中提取生成语音的参数，使用这些参数通过语音生成模型重构出语音，使重构的语音信号尽可能地保持原始语音信号的语意。也就是说，参数编码是把语音信号产生的数字模型作为基础，然后求出数字模型的模型参数，再按照这些参数还原数字模型，进而合成语音。

混合编码

混合编码是指同时使用两种或两种以上的编码方法进行编码。这种编码方法克服了波形编码和参数编码的弱点，并结合了波形编码高质量和参数编码的低编码率，能够取得比较好的效果。

WAV编码（波形编码）

WAV是编码的一种实现方式（其实它有非常多实现方式，但都是不会进行压缩操作）。就是在源 PCM 数据格式的前面加上44个字节。分别用来描述 PCM 的采样率、声道数、数据格式等信息。
MP3编码

MP3编码具有不错的压缩比，而且听感也接近于WAV文件，当然在不同的环境下，应该调整合适的参数来达到更好的效果。
AAC编码

AAC是目前比较热门的有损压缩编码技术，并且衍生了LC-AAC、HE-AAC、HE-AAC v2 三种主要编码格式。

**LC-AAC：**是比较传统的AAC,主要应用于中高码率的场景编码(>= 80Kbit/s)
HE-AAC： 主要应用于低码率场景的编码(<= 48Kbit/s)
Ogg编码（有损）

Ogg编码是一种非常有潜力的编码，在各种码率下都有比较优秀的表现。尤其在低码率场景下。Ogg除了音质好之外，Ogg的编码算法也是非常出色。可以用更小的码率达到更好的音质。128Kbit/s的Ogg比192Kbit/s甚至更高码率的MP3更优质.但目前由软件还是硬件支持问题,都没法达到与MP3的使用广度.

音频参数

一段悠扬的音乐经过采样、量化、编码就保存数字信号文件，而我们最终的目的一定不是只存成文件而是通过文件形式传播让更多人听到该音乐，因此一定存在DA转换，即还原数字信号为模拟信号的过程。那么在整个过程中有哪些参数表征了音频重要的信息呢？

不仅限于webrtc、ffmpeg、libmad等等音频编解码库，对于所有编解码器和codec来讲，音频源数据的三个参数至关重要：声道channel、采样率sampleRate、采样位数sampleBit。这三个参数之所以重要是因为有这几个参数就可以准确的知道一个裸的音频数据（PCM）的全部信息了。

声道

声道是指音频文件在录制时音源的数量位置和播放时相应的扬声器的数量（百度百科）。所以可想而知，其他参数相同的情况下，声道数越多定位越精准，同样所需扬声器和功放组件越多。

单声道（mono）
双声道（stereo 立体声）：左声道 + 右声道，低音不分离，应用于音乐播放较多
2.1声道：左声道 + 右声道，低音分离
5.1声道：左声道 + 右声道 + 低音声道 + 中央声道 + 左环绕 + 右环绕，应用于类传统影院和家庭影院中
7.1声道：左声道 + 右声道 + 低音声道 + 中央声道 + 左环绕 + 右环绕 + 左后环 + 右后环，常见的包括：Dolby Surround 7.1杜比7.1环绕声

采样率

采样率可以理解为采集样本的速率（故也可以称为采样速度或者采样频率），它定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。

例如：采样率为44100，意味着每秒钟对连续的声音信号采集44100次，同样对应得到的数字信号每秒的样本数量（具体可以参考采样过程）

采样位数

采样位数就是指某一瞬时时刻，量化声音大小（精细程度）的计量单位

8bit ( 1Byte ) 对应0~255，将振幅划分为256个等级
16bit (2Byte) 对应0~65535，将振幅划分为65536个等级

样本格式

样本组合形式

交错模式：每个声道的样本数据交错存储排布
平面模式：每个声道的样本数据分开存储

下面以stereo模式进行图示解释（C代表Channel）：

FFmpeg 样本组织形式介绍

Packed格式，frame.data[0]包含所有的音频数据。
Planar格式，frame.data[i]表示第i个声道的数据（假设声道0是第一个）

FFmpeg 主要样本格式

enum AVSampleFormat {
    AV_SAMPLE_FMT_NONE = -1,
    AV_SAMPLE_FMT_U8,          ///< unsigned 8 bits
    AV_SAMPLE_FMT_S16,         ///< signed 16 bits
    AV_SAMPLE_FMT_S32,         ///< signed 32 bits
    AV_SAMPLE_FMT_FLT,         ///< float
    AV_SAMPLE_FMT_DBL,         ///< double
 
    AV_SAMPLE_FMT_U8P,         ///< unsigned 8 bits, planar
    AV_SAMPLE_FMT_S16P,        ///< signed 16 bits, planar
    AV_SAMPLE_FMT_S32P,        ///< signed 32 bits, planar
    AV_SAMPLE_FMT_FLTP,        ///< float, planar
    AV_SAMPLE_FMT_DBLP,        ///< double, planar
    AV_SAMPLE_FMT_S64,         ///< signed 64 bits
    AV_SAMPLE_FMT_S64P,        ///< signed 64 bits, planar
 
    AV_SAMPLE_FMT_NB           ///< Number of sample formats. DO NOT USE if linking dynamically
};

说明：以P为结尾的是planar结构；Planar模式是FFmpeg内部存储模式，我们实际使用的音频文件都是Packed模式的。

比特率

比特率指的是单位时间播放连续的媒体如压缩后的音频或视频的比特数量，在这个意义上讲，它相当于术语数字带宽消耗量，或吞吐量。单位bps / Kbps（bit per second）这里是bit而不是Byte（1Byte = 8bit）

虽然经常作为“速度”的参考，比特率并不测量“‘距离’/时间”，而是被传输或者被处理的“‘二进制码数量’/时间”，所以应该把它和传播速度区分开来，传播速度依赖于传输的介质并且有通常的物理意义。（来自维基百科）

参数关系

对于PCM裸数据：文件时长 ≈（文件总大小 - 头信息）/ (采样率 * 采样位数 * 通道数 / 8) [也就是比特率]

更多内容请关注：yanglieee.com 持续更新！

Audio 初识 xff xff0c xff0 linux 音频

有关Audio-初识的更多相关文章

玩以太坊链上项目的必备技能（初识智能合约语言-Solidity之旅一） - 2
前面一篇关于智能合约翻译文讲到了，是一种计算机程序，既然是程序，那就可以使用程序语言去编写智能合约了。而若想玩区块链上的项目，大部分区块链项目都是开源的，能看得懂智能合约代码，或找出其中的漏洞，那么，学习Solidity这门高级的智能合约语言是有必要的，当然，这都得在公链``````以太坊上，毕竟国内的联盟链有些是不兼容Solidity。Solidity是一种面向对象的高级语言，用于实现智能合约。智能合约是管理以太坊状态下的账户行为的程序。Solidity是运行在以太坊（Ethereum）虚拟机（EVM）上，其语法受到了c++、python、javascript影响。Solidity是静态类型
【Linux】初识Linux --指令Ⅰ - 2
Halo，这里是Ppeua。平时主要更新C语言，C++，数据结构算法，Linux…感兴趣就关注我吧！你定不会失望。目录1.ls显示当前目录下的文件内内容2.pwd-显示用户当前所在的目录3.cd-改变工作目录。将当前工作目录改变到指定的目录下1.cd-回到上一次待的工作空间2.cd..返回上一层目录1.相对路径:cd../aurora2.绝对路径:cd/home/aurora/lesson1/aurora3.cd~进入用户家目录4.cd/进入root目录4.mkdir-新建目录5.rmdir/rm-删除1.rmdir删除空文件夹2.rm删除1.rm-f2.rm-i3.rm-r1.ls显示当前目
javascript - Web 音频 API 获取 <audio> 元素的 AudioBuffer - 2
我有一个音频元素varaudioSrc='https://mfbx9da4.github.io/assets/audio/dope-drum-loop_C_major.wav'varaudio=document.createElement('audio')audio.src=audioSrc我需要AudioBuffer做beatdetection所以我尝试在加载音频时访问缓冲区:audio.oncanplaythrough=()=>{console.info('loaded');varsource=context.createMediaElementSource(audio);sour
＜一＞Android Audio音频框架 - 2
目录1.0设备驱动2.0 androidhal层3.0 选择设备的暗箱策略AudioPolicy4.0 软件层面的混音，AudioFlinger5.0完整的对外接口AudioSystem.cpp6.0换壳java形似的对外接口AudioSystem.java7.0java层的服务供应AudioService.java8.0应用层的一对一服务AudioManager9.0为了支持和兼容多音频设备的car,提供的动态策略。 10.0CarAudioServiceCarAudioManager11.0AudioTrackOpenslEsAAudioAaudiotrack:opensl: AAudi
javascript - 使用 Web Audio API 使用 OscillatorNodes 演奏和弦 - 2
我想使用OscillatorNodes演奏和弦:varac=new(window.AudioContext||window.webkitAudioContext);//C4,E4,G4varfreqs=[261.63,329.63,392.00];for(vari=0;i但这种方法听起来一团糟(here'swhatitsoundslike)。如果我尝试为和弦中的每个音符创建新的AudioContext，那么它听起来不错(likethis)://C4,E4,G4varfreqs=[261.63,329.63,392.00];for(vari=0;i但我读到你应该只有一个AudioCont
gtest初识 - googletest（一） - 2
gtest是Google开发的一个开源单元测试框架，代码提供丰富的注释和实例，参考实际用例可以很快上手基本单元测试，丰富的代码注释能够让有兴趣的开发者深入了解gtest的代码结构并做部分针对性的二次开发。gtest主要针对c/c++提供了针对函数接口和类方法丰富测试方法，针对单元测试特有的数据或者代码反复编写的这种特性做了集成和优化，满足当前绝大部分对于单元测试的需求。其有如下特点：自动收集测试用例，无需开发者再次组织提供强大的断言集，支持包括布尔、整型、浮点型、字符串等。提供断言方法自定义扩展提供死亡测试功能使用参数化自动生成多个相似的测试用例可以将公共的用例初始化和清理工作放入测试夹具中，
javascript - 如何排列一系列 HTML5 <audio> 声音片段以按顺序播放？ - 2
我正在尝试移植一个名为VoiceWalker的简单音频实用程序到Javascript。VoiceWalker是一种帮助人们转录音频的工具，它的工作原理如下:http://i.imgur.com/rafgl.png所以我们的想法是，它播放一点，重复播放，向前移动，再播放一点，重复播放，向前移动，等等。我拼凑了一个播放声音片段的函数，它看起来像这样:functionclip(audio,start,stop){audio.currentTime=start;audio.play();int=setInterval(function(){if(audio.currentTime>stop){
javascript - 如何使用 Web Audio API 降低麦克风输入的噪音？ - 2
我一直在尝试使用WebAudioAPI并将笔记本电脑的麦克风用作输入源。不过，当我听输入时，我能听到很多白噪音；我怎样才能创建一个过滤器来降低噪音，使声音更清晰？有没有针对这种情况提供预写噪声过滤器的库？最佳答案 '`我正在研究一些POC并使用BiquadFilter减少笔记本电脑的“生命周期Nose”。我也用过压缩器，但你不必))(function(){varfilter,compressor,mediaStreamSource;//Startoffbyinitializinganewcontext.varcontext=new
javascript - Web Audio API，从声卡获取输出 - 2
可以吗？如果是这样，非常感谢有关该主题的任何信息。(如果不使用WebAudioAPI，是否有其他一些API可以让我实现此目的？) 最佳答案德里克是对的。如果你有一个realtek卡(我不知道其他制造商的支持)你将它设置为立体声混音，并将立体声混音设置为默认麦克风。然后，您可以使用navigator.getUserMedia创建一个与您的麦克风链接的源节点。谷歌搜索，您会找到它。我刚刚为你做了一个fiddle:Audiofromsoundcard编辑:链接现在转到正确版本的jsfiddle(另一个有错误的条)。
javascript - 我可以获得 audio.currentTime 但无法设置它(在 Google Chrome 中) - 2
这让我发疯。这是我用来设置当前时间的代码:$("#audio").click(function(e){e.preventDefault();mr_waveform_skip(e)});functionmr_waveform_skip(event){clientX=event.clientX;left=event.currentTarget.offsetLeft;clickoffset=clientX-left;percent=clickoffset/event.currentTarget.offsetWidthaudio_duration=audio_element.duration;