谷歌在2017年公开了大规模音频数据集 AudioSet,包含了大约210万个长度为10秒的声音片段和527个标签。随即谷歌使用该数据集进行预训练,最终得到VGGish模型用于音频的特征提取。Tensorflow官方github收录了VGGish的源代码,并且在 TensorflowHub 上提供了用于音频向量化的VGGish模型接口。那如何在Pytorch框架中实现并使用VGGish呢?网上有一些关于VGGish在Pytorch中的介绍与实现,但我体验下来感觉大部分不是很方便使用,并且得到的向量还是与源码有不小的出入,向量搜索的测试效果不尽人意。如果是为了用向量实现音频识别,Towhee提供