原文:https://github.com/alibaba-damo-academy/FunASR/blob/main/runtime/readme_cn.mdFunASR软件包路线图EnglishVersion(docs)FunASR是由阿里巴巴通义实验室语音团队开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。为了解决工业落地的最后一公里,将模型集成到业务中去,我们开发了社区软件包。支持以下几种服务部署:中文离线文件转写服务(CPU版本),已完成中文流式语音识别服务(CPU版本),已完成英文离线文件转写服务(CPU版本)
模型亮点模型文件:damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorchParaformer-large长音频模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳:ASR模型:Parformer-large模型结构为非自回归语音识别模型,多个中文公开数据集上取得SOTA效果,可快速地基于ModelScope对模型进行微调定制和推理。热词版本:Paraformer-large热词版模型支持热词定制功能,基于提供的热词列表进行激励增强,提升热词的
Paraformer:FastandAccurateTransformerforNon-autoregressiveEnd-to-EndSpeechRecognition摘要介绍方法整体框架PredictorSamplerLossFunction实验实验设置AISHELL-1&AISHELL-2数据集工业级2wh数据集讨论结论个人思考/疑问论文下载摘要目前ASR常用的Transformer模型虽然效果比较好,但是因为引入了自回归的解码器,所以计算相对效率低一些。为了加速推理,设计了非自回归模型并行生成识别结果,比如单步自回归模型。然而由于输出标签之间的独立性假设,单步自回归模型的效果相比自回归