【音频处理】Loudness Normalization 响度均衡算法简介

芥末的无奈 2024-05-23 原文

系列文章目录

0. 前言

关于响度的概念，以及响度标准化 EBU R.128 的讨论，网上已经有很多优秀的博客了，我就不再赘述了。这里我列举我看到过的还不错的文章，供各位参考：

看完这些介绍，你对响度或多或少已经有了些概念，它是对声音强度的一种描述，它是一种「主观」的心理量，影响因素包括很多，例如信号持续时长、频率特征、声场特性等等。

为了测量出音频的响度，有很多组织提出了不同的标准，今天我们要介绍的是由 EBU（European Broadcasting Union，欧洲广播联盟）提出的 EBU-R128 标准。通过该标准提出的算法，我们可以检测出关于响度的各种信息。具体的包括：

Momentary loudness：瞬时响度，即最近 400ms 的响度
Short-term loudness：短时响度，即最近 3s 的响度
Integrated loudness：从开始到现在的平均响度
Loudness range：响度范围，即响度变化的量化值
True Peak：真实峰值电平

这些值都有一套算法来计算，你可以参考 ITU-R BS.1770 或者 MATLAB-loudnessMeter 来了解具体算法流程。ebur128 提供响度检测的 C/C++ 实现，如果你想知道算法的实现细节，这份代码不要错过。响度检测算法不是这篇文章的重点，此处不再赘述。

Loudness Normalization 响度均衡

在有统一的响度标准以前，音量归一化通常是通过观察信号的峰值信号来进行的（Peak Normalization），即添加一个增益，使得 PCM 采样中的峰值达到一个给定的水平 – 通常是 0dBFS，即数字系统中允许的最响的水平。由于 Peak Normalization 它只关心信号峰值，所以单单 Peak Normalization 的结果并不能准确反映音频内容的响度。因此 Peak Normalization 通常用来改变音量，以确保数字录音的母带制作阶段有最佳的可用动态范围。然而，在 Limiter/Compressor 处理后再使用 Peak Normalization
，可用让音频更响。这种使用方式在一段时间内称为某种趋势，大家都希望自己的音频内容更响，从而吸引人们的耳朵。但其引发的结果就是「响度战争」。

另一种是基于响度的归一化，同样地往音频中添加一个增益，使得音频整体平均响度达到一定的水平。这个平均响度是可以近似的，如平均功率的简单计算（RMS），也可是准确的，例如 EBU R128 定义的响度。

响度均衡可以解决一连串多首歌曲响度不同的问题。在响度均衡前，播放列表中的一首歌可能必其他歌曲更加安静，所以听众必须将调整音量。

Offline Loudness Normalization 离线响度均衡

Offline 模式的响度均衡，也叫 Double Pass 模式，意思是你要处理音频两次：

第一次处理，获取音频 Integrated loudness，True peak 等信息
第二次处理，输入 Target loudness（目标响度），以及上一步得到的 Integrated loudness，算法将根据两个响度之间的差异，进行合适的增益。

如果你能拿到全部音频数据的情况下，这种处理方式是最佳的，但由于要处理音频两遍，耗时会增加。

伪代码如下：

auto audio_file = getAudioFile();

// first pass
auto loudnessDetection()
{
	for(;;)
	{
		auto block = getNextAudioBlock(audio_file);
		ebur128Process(block);
		if(reachAudioEnd(audio_file)){
			break;
		}
	}
	auto integrated_loudness = ebur128GetIntegratedLoudness();
	auto loudness_range = ebur128GetLoudnessRange();
	auto true_peak = ebur128GetTruePeak();
	return {integrated_loudness, loudness_range, true_peak};
}

// second pass
auto lourdNormProcess(float integrated_loudness, 
					  float loudness_range,
					  float true_peak,
					  float target_loudness
					  )
{
	auto gain = calcGain(integrated_loudness, loudness_range, true_peak, target_loudness);
	audio_file.applyGain(gain);	
}

第一次的音频处理，目的在于检测当前音频的响度信息，你使用 ebur128 - github 即可，并不复杂。而第二次处理，却有不少细节需要考虑。

第二次要如何处理呢？我找到的最简单的方案来自于 Loudness Normalization in Accordance with EBU R 128 Standard，即将目标响度与输入响度差异，作为增益，在 pyloudnorm 中也使用了这种方案：

target = -23;
gaindB = target - loudness;
gain = 10^(gaindB/20);
xn = x.*gain;

但很明显，这种方案可能会导致爆音（clip），当音频中某些采样点经过增益后，其值超过了 1.0 那么爆音就发生了。

那么如何进行优化？在 Recommendation for Loudness of Audio Streaming and Network File Playback 中给出了两种可行的方案。

方案一。确定目标响度与输入响度的差异，如果必须降低电平以符合目标响度，那么没有问题，直接按上面的方法计算增益即可。如果必须提升电平以符合目标响度，那么增益的计算需要考虑 True Peak，使得它满足目标响度或者让 True Peak 达到 0db TP。这种处理方式可以尽可能保留声音质量，不会引入峰值限制。但在一些具有搞 Loudnss Range 的音频中，这样处理后的音频响度会低于目标响度。计算增益部分伪代码：

float calcGain(float integrated_loudness,
			   float true_peak,
			   float target_loudness)
{
	auto peak_diff = 1.0f - true_peak;
	auto peak_gain_db = scaleToDb(peak_diff);
	auto loud_gain_db = target_loudness - integrated_loudness;
	auto gain_db = min(peak_gain_db, loud_gain_db);
	return dbToScale(gain_db);
}

方案二。在方案一中，我们不想让信号的峰值出现 clip，因此在计算增益时要考虑 true peak。对于峰值的限制，我们完全可以交给 Limiter 来做。因此在方案二中，增益使用目标响度与输入响度的差异计算，接着让 Limiter 来进行增益的提升，避免 clip。这样做的好处是响度更加一致，但会引入更多峰值限制，从而影响声音质量。当我们的目标响度较低时，方案一仍然是最佳方法。方案二伪代码如下：

void loudnormWithLimiter(float integrated_loudness,
			   			 float target_loudness)
{
	auto gain_db = target_loudness - integrated_loudness;
	auto limiter = Limiter();
	limiter.input_gain_db = gain_db;

	limiter.process(audio_file);
}

Live Loudness Normalization 实时响度均衡

在直播这样的场景下，音频可以认为是无限长的，你无法拿到全部音频数据，因此 Offline 模式在这种场景下无法工作。对于实时的音频流，EBU R128 定义瞬时响度和短时响度，我们可以根据它们来调整信号的增益。伪代码如下：

void loudnormProcess(float target_loudness)
{
	for(;;)
	{
		auto block = getAudioBlockFromStream();
		ebur128Process(block);
		
		auto momentary = ebur128GetMomentary();
		auto short_term = ebur128GetShortterm();
		auto gain = calcGain(momentary, short_term, target_loudness);
		
		block.applyGain(gain);
		
		if(noAudioStream())
			break;
	}
}

实时响度均衡中，如何做增益控制有着不同的方案，例如在 Loudness Normalization in Accordance with EBU R 128 Standard 中使用了 AGC 来自动控制增益；在FFMPEG - af_loudnorm.c 中，检测短时响度与目标响度的差异，计算得到增益，并结合 Limiter 进行增益控制；在 esayeffects - autogain 中，则可以选择用短时响度还是瞬时响度，或者它们结合，来计算增益。总之，这一块目前似乎没有一个统一的方案，查找对应的论文也寥寥无几。

在个人的实现中，我选择短时响度 + Limiter 的实现方案，因为这样最简单，没有复杂的逻辑。但我没有做大范围的测试，该方案可能存在 bad case。

总结

本文重点介绍了响度均衡算法的处理方式，分为离线模式和实时模式。离线响度均衡需要处理两遍音频，第一遍获取音频响度信息，第二遍进行音频的增益控制；实时响度均衡通常结合瞬时响度或者短时响度来计算增益，如何进行增益控制，这部分业界有着不同的做法。

参考

有关【音频处理】Loudness Normalization 响度均衡算法简介的更多相关文章

ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
HBase Region 简介和建议数量&大小 - 2
Region是HBase数据管理的基本单位,region有一点像关系型数据的分区。region中存储这用户的真实数据，而为了管理这些数据，HBase使用了RegionSever来管理region。Region的结构hbaseregion的大小设置默认情况下，每个Table起初只有一个Region，随着数据的不断写入，Region会自动进行拆分。刚拆分时，两个子Region都位于当前的RegionServer，但处于负载均衡的考虑，HMaster有可能会将某个Region转移给其他的RegionServer。RegionSplit时机：当1个region中的某个Store下所有StoreFile
Ruby-vips 图像处理库。有什么好的使用示例吗？ - 2
我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道，是否可以在某处找到执行以下简单操作的ruby代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby-vips的github页面上的链接，我们将不胜感激!如果有ruby-
ruby - Faye WebSocket，关闭处理程序被触发后重新连接到套接字 - 2
我有一个super简单的脚本，它几乎包含了FayeWebSocketGitHub页面上用于处理关闭连接的内容:ws=Faye::WebSocket::Client.new(url,nil,:headers=>headers)ws.on:opendo|event|p[:open]#sendpingcommand#sendtestcommand#ws.send({command:'test'}.to_json)endws.on:messagedo|event|#hereistheentrypointfordatacomingfromtheserver.pJSON.parse(event.d
ruby - 如何使用 Ruby HTTP::Net 处理 404 错误？ - 2
我正在尝试解析网页，但有时会收到404错误。这是我用来获取网页的代码:result=Net::HTTP::getURI.parse(URI.escape(url))如何测试result是否为404错误代码？最佳答案像这样重写你的代码:uri=URI.parse(url)result=Net::HTTP.start(uri.host,uri.port){|http|http.get(uri.path)}putsresult.codeputsresult.body这将打印状态码和正文。
ruby-on-rails - 使用 Ruby 正确处理 Stripe 错误和异常以实现一次性收费 - 2
我查看了Stripedocumentationonerrors，但我仍然无法正确处理/重定向这些错误。基本上无论发生什么，我都希望他们返回到edit操作(通过edit_profile_path)并向他们显示一条消息(无论成功与否)。我在edit操作上有一个表单，它可以POST到update操作。使用有效的信用卡可以正常工作(费用在Stripe仪表板中)。我正在使用Stripe.js。classExtrasController5000,#amountincents:currency=>"usd",:card=>token,:description=>current_user.email)
ruby-on-rails - Rails 处理 .Erb 与 Nils - 2
当profile为nil时，总是让我感到悲伤...我该怎么办？最佳答案在View中使用变量之前，始终检查变量是否为nil。我确信这个问题有更优雅的解决方案，但这应该能让您入门。关于ruby-on-rails-Rails处理.Erb与Nils，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/2709605/
100个python算法超详细讲解：画直线 - 2
1．问题描述使用Python的turtle（海龟绘图）模块提供的函数绘制直线。2．问题分析一幅复杂的图形通常都可以由点、直线、三角形、矩形、平行四边形、圆、椭圆和圆弧等基本图形组成。其中的三角形、矩形、平行四边形又可以由直线组成，而直线又是由两个点确定的。我们使用Python的turtle模块所提供的函数来绘制直线。在使用之前我们先介绍一下turtle模块的相关知识点。turtle模块提供面向对象和面向过程两种形式的海龟绘图基本组件。面向对象的接口类如下：1）TurtleScreen类：定义图形窗口作为绘图海龟的运动场。它的构造器需要一个tkinter.Canvas或ScrolledCanva
ruby-on-rails - 如何在多个环境中处理 OmniAuth 回调？ - 2
我有一个应用程序专门使用Facebook作为身份验证提供程序，并正确设置了生产模式的回调。为了让它工作，您需要为您的Facebook应用程序提供一个站点URL和一个用于回调的站点域，在我的例子中是http://appname.heroku.com和appname。heroku.com分别。问题是我的Controller设置为只允许经过身份验证的session，所以我无法在开发模式下查看我的应用程序，因为Facebook应用程序的域显然没有设置为本地主机。如何在不更改Facebook设置的情况下解决这个问题？最佳答案创建另一个域l