我有一组用户上传的音频文件,我不知道它们包含什么。我想获取一个任意的音频文件,并将某人说话的每个实例提取到单独的音频文件中。我不想检测实际的单词,只检测“开始说话”、“停止说话”点并在这些点生成新文件。(我的目标是Linux环境,并在Mac上开发)我找到了Sox,看起来很有前途,并且具有“vad”模式(语音事件检测)。然而,这似乎找到了第一个语音实例并在该点之前去除了音频,所以它很接近,但不太正确。我还查看了Python的“wave”库,但之后我需要编写自己的Sox的“vad”实现。是否有任何现成的命令行工具可以满足我的需求?如果没有,有什么好的Python或Ruby方法吗?
我有一组用户上传的音频文件,我不知道它们包含什么。我想获取一个任意的音频文件,并将某人说话的每个实例提取到单独的音频文件中。我不想检测实际的单词,只检测“开始说话”、“停止说话”点并在这些点生成新文件。(我的目标是Linux环境,并在Mac上开发)我找到了Sox,看起来很有前途,并且具有“vad”模式(语音事件检测)。然而,这似乎找到了第一个语音实例并在该点之前去除了音频,所以它很接近,但不太正确。我还查看了Python的“wave”库,但之后我需要编写自己的Sox的“vad”实现。是否有任何现成的命令行工具可以满足我的需求?如果没有,有什么好的Python或Ruby方法吗?