VGGish_草庐IT

音频向量：VGGish（Pytorch）

谷歌在2017年公开了大规模音频数据集 AudioSet，包含了大约210万个长度为10秒的声音片段和527个标签。随即谷歌使用该数据集进行预训练，最终得到VGGish模型用于音频的特征提取。Tensorflow官方github收录了VGGish的源代码，并且在 TensorflowHub 上提供了用于音频向量化的VGGish模型接口。那如何在Pytorch框架中实现并使用VGGish呢？网上有一些关于VGGish在Pytorch中的介绍与实现，但我体验下来感觉大部分不是很方便使用，并且得到的向量还是与源码有不小的出入，向量搜索的测试效果不尽人意。如果是为了用向量实现音频识别，Towhee提供

音频向量：VGGish（Pytorch）