Python音频处理——pydub

黄昏中起飞的猫头鹰 2024-04-05 原文

Pydub是Python音频处理库，可以对音频进行切割、合并、转换、调整音量等操作。以下是对pydub各个知识点的介绍和案例。

Pydub

1. 安装

使用pip安装即可（还需安装ffmpeg依赖，建议使用conda命令安装，则不需要配置环境）：

pip install pydub

2. 导入和读取音频文件

from pydub import AudioSegment
audio = AudioSegment.from_file("path/to/file")

3. 播放音频

from pydub.playback import play
play(audio)

4. 音频时长

duration = audio.duration_seconds # 单位为秒

5. 音频切割

# 前10秒
audio = audio[:10000]

# 后10秒
audio = audio[-10000:]

# 从第10秒开始到第20秒结束
audio = audio[10000:20000]

# 从第10秒开始到结尾
audio = audio[10000:]

# 从开始到第10秒audio = audio[:10000]

6. 音频合并

audio1 = AudioSegment.from_file("path/to/file1")
audio2 = AudioSegment.from_file("path/to/file2")
audio_combined = audio1 + audio2

7. 音频转换

audio.export("path/to/new/file", format="mp3")

8. 调整音量

# 增加10分贝
louder_audio = audio + 10

# 减小10分贝
quieter_audio = audio - 10

9. 等分分割音频

# 等分分割，按大概每三分钟进行分割
for i in range(1, 1000):
    if 3.3 >= (audio.duration_seconds / (60 * i)) >= 2.8:
        number = i
        break
chunks = audio[::int(audio.duration_seconds / number * 1000 + 1)]  # 切割

# 保存分割后的音频
for i, chunk in enumerate(chunks):
    chunk.export("path/to/new/file{}.wav".format(title,i), format="wav")

10. 完整代码

下面是一段完整的代码，用于对音频进行前后切割，并将音频分割成合适长度的小段进行保存。

from pydub import AudioSegment

# 读取音频文件
audio = AudioSegment.from_file("path/to/file")

# 输出视频时长
print('视频时长:', audio.duration_seconds / 60)

# 前后切割
start = int(input('前切割n秒,不切割输入0'))*1000
end = int(input('后切割n秒，不切割输入0'))*1000
if start:
    audio = audio[start:-end]

# 计算合适的分割长度
for i in range(1, 1000):
    if 3.3 >= (audio.duration_seconds / (60 * i)) >= 2.8:
        number = i
        break
chunks = audio[::int(audio.duration_seconds / number * 1000 + 1)] 
# 保存分割后的音频
for i, chunk in enumerate(chunks):
    print('分割后的时长:', chunk.duration_seconds / 60)
    chunk.export("path/to/new/file{}.wav".format(i), format="wav")

以上就是pydub的主要知识点和一个完整的实例。通过pydub，我们可以方便地对音频进行处理和转换，让我们的音频处理更加高效和便捷。
另外，下面还列举了一些pydub的其他应用案例。

应用案例

1. 将音频文件转换为指定格式

from pydub import AudioSegment

# 读取音频文件
audio = AudioSegment.from_file("path/to/file")

# 转换为mp3格式并保存
audio.export("path/to/new/file.mp3", format="mp3")

2. 将多个音频文件合并为一个文件

from pydub import AudioSegment

# 读取音频文件
audio1 = AudioSegment.from_file("path/to/file1")
audio2 = AudioSegment.from_file("path/to/file2")

# 合并音频文件并保存
combined_audio = audio1 + audio2
combined_audio.export("path/to/new/file", format="wav")

3. 制作铃声

from pydub import AudioSegment

# 读取音频文件
audio = AudioSegment.from_file("path/to/file")

# 切割并保存
start = 10000
end = 15000
ringtone = audio[start:end]
ringtone.export("path/to/new/file", format="mp3")

4. 调整音频音量

from pydub import AudioSegment

# 读取音频文件
audio = AudioSegment.from_file("path/to/file")

# 增加10分贝
louder_audio = audio + 10

# 减小10分贝
quieter_audio = audio - 10

# 保存调整后的音频
louder_audio.export("path/to/new/file", format="wav")
quieter_audio.export("path/to/new/file", format="wav")

案例：通过识别空白音，分割音频中的歌曲

from pydub import AudioSegment
from pydub.silence import split_on_silence

# 读取音频文件
audio = AudioSegment.from_file("audio.mp3", format="mp3")

# 设置分割参数
min_silence_len = 700  # 最小静音长度
silence_thresh =-10  # 静音阈值，越小越严格
keep_silence = 600  # 保留静音长度

# 计算分割数量
num_segments = int(audio.duration_seconds/60/3)  # 每首歌曲大概三分钟，计算歌曲数量

# 分割音频文件
for i in range(-10, 0):
    segments = split_on_silence(audio, min_silence_len=min_silence_len, silence_thresh=i, keep_silence=keep_silence)
    if len(segments) <= num_segments:
        print(f"分割成功，共分割出 {len(segments)} 段")
        break
    else:
        print(f"当前阈值为 {i}，分割出 {len(segments)} 段，继续尝试")

首先，我们使用AudioSegment.from_file()方法读取音频文件，并设置分割参数min_silence_len、silence_thresh和keep_silence分别表示最小静音长度、静音阈值和保留静音长度。其中，静音阈值越小，分割出的小段越多，但可能会出现误分割的情况；反之，静音阈值越大，分割出的小段越少，但可能会出现漏分割的情况。

然后，我们计算分割数量num_segments，即将音频文件分割成多少段。这里我们假设每首歌曲大概三分钟，计算出总共需要分割成多少段。

最后，我们使用split_on_silence()方法对音频文件进行分割，设置分割参数，并通过循环来不断调整静音阈值，直到分割出的小段数量符合预期为止。如果分割成功，则跳出循环；否则，继续尝试。
总而言之，pydub是一个非常实用的音频处理库，可以方便地进行音频处理、转换、合并等操作。同时，pydub还有丰富的应用场景，如制作铃声、调整音量等。值得注意的是，在使用pydub的过程中，需要注意音频格式的兼容性问题。

此外，还可以通过pydub对音频进行编解码、混音、重采样等操作。下面是一些常见的操作示例。

编解码、混音、重采样

1. 编解码

from pydub import AudioSegment

# 读取音频文件
audio = AudioSegment.from_file("path/to/file")

# 编码
encoded_audio = audio.set_frame_rate(16000).set_sample_width(2).set_channels(1)

# 解码
decoded_audio = encoded_audio.set_frame_rate(44100).set_sample_width(4).set_channels(2)

2. 混音

from pydub import AudioSegment

# 读取音频文件
audio1 = AudioSegment.from_file("path/to/file1")
audio2 = AudioSegment.from_file("path/to/file2")

# 混音
mixed_audio = audio1.overlay(audio2)

# 保存混音后的音频
mixed_audio.export("path/to/new/file", format="wav")

3. 重采样

from pydub import AudioSegment

# 读取音频文件
audio =AudioSegment.from_file("path/to/file")

# 重采样为44100Hz
resampled_audio = audio.set_frame_rate(44100)

# 保存重采样后的音频
resampled_audio.export("path/to/new/file", format="wav")

通过pydub，我们可以方便地进行音频编解码、混音、重采样等操作，进一步扩展了pydub的应用场景。需要注意的是，在进行音频混音操作时，需要保证两个音频文件的采样率、采样位数和声道数相同。
最后，总结一下pydub的优点和缺点。

优点：

轻量级：pydub是一个轻量级的音频处理库，安装方便，使用简单。
功能丰富：pydub提供了丰富的音频处理功能，包括切割、合并、转换、调整音量、编解码、混音、重采样等。
应用广泛：pydub的应用场景非常广泛，包括音频处理、铃声制作、音频格式转换、语音识别等等。

缺点：

对格式的兼容性有限：pydub对音频格式的兼容性有限，不支持所有的音频格式，需要先将音频转换为支持的格式后才能进行处理。
性能一般：pydub在处理大文件时，性能可能会比较一般，需要耗费一定的时间和计算资源。
不支持流式处理：pydub不支持流式处理，需要将整个音频文件读取到内存中，导致内存占用较大。

综上所述，pydub是一个功能丰富、应用广泛的音频处理库。在使用pydub时，需要注意音频格式的兼容性问题，并注意处理大文件时的性能和内存占用。如果需要处理更复杂的音频任务，可以考虑使用其他更专业的音频处理库。

总结

博客介绍了如何使用Python的pydub库将音频文件分割成多个小段。我们首先读取音频文件，然后设置分割参数，并计算分割数量。最后，通过循环来不断调整静音阈值，直到分割出的小段数量符合预期为止。这种方法可以用于对音频进行处理和分析，例如语音识别、音乐推荐等。
需要注意的是，音频分割的效果受到分割参数的影响，需要根据具体情况进行调整。另外，分割出的小段可能存在误分割和漏分割的情况，需要进行后续的检查和处理。

有关Python音频处理——pydub的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
Python 刷Leetcode题库，顺带学英语单词（31） - 2
ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem
python - 是否可以使用 Ruby 或 Python 禁用 anchor /引用来发出有效的 YAML？ - 2
是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)？也许我在网上搜索时遗漏了一些东西，但在Psych中似乎没有太多可用的选项，而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的，但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念，但不是人类可读性)。Ruby和Python是我选择的工具，但如果有其他一些相当简单的方法来“展开”YAML文档，它可能就可以了。最佳答案