EnergyDetector

linux - 从任意音频文件中提取语音部分的好方法是什么？

我有一组用户上传的音频文件，我不知道它们包含什么。我想获取一个任意的音频文件，并将某人说话的每个实例提取到单独的音频文件中。我不想检测实际的单词，只检测“开始说话”、“停止说话”点并在这些点生成新文件。(我的目标是Linux环境，并在Mac上开发)我找到了Sox，看起来很有前途，并且具有“vad”模式(语音事件检测)。然而，这似乎找到了第一个语音实例并在该点之前去除了音频，所以它很接近，但不太正确。我还查看了Python的“wave”库，但之后我需要编写自己的Sox的“vad”实现。是否有任何现成的命令行工具可以满足我的需求？如果没有，有什么好的Python或Ruby方法吗？

linux - 从任意音频文件中提取语音部分的好方法是什么？