GitHub:https://github.com/audioset/ontology谷歌发布的大规模音频数据集,AudioSet包括632个音频事件类的扩展类目和从YouTube视频绘制的2084320个人类标记的10秒声音剪辑的集合。音频本体(ontology)被确定为事件类别的一张层级图,覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。AndioSet能为音频事件检测提供一个常见的、实际的评估任务,也是声音事件的综合词汇理解的一个开端。该数据集收集了所有与我们合作的人类标注者从YouTube视频中识别的声音。我们基于YouTube元数据和基于内容的搜索来挑选需要标注的片段