Paraformer

达摩研究院Paraformer语音识别-中文-通用-16k

原文：https://github.com/alibaba-damo-academy/FunASR/blob/main/runtime/readme_cn.mdFunASR软件包路线图EnglishVersion（docs）FunASR是由阿里巴巴通义实验室语音团队开源的一款语音识别基础框架，集成了语音端点检测、语音识别、标点断句等领域的工业级别模型，吸引了众多开发者参与体验和开发。为了解决工业落地的最后一公里，将模型集成到业务中去，我们开发了社区软件包。支持以下几种服务部署：中文离线文件转写服务（CPU版本），已完成中文流式语音识别服务（CPU版本），已完成英文离线文件转写服务（CPU版本）

达摩中文 xff xff0c xff0 人工智能 AIGC 深度学习

【FunASR】Paraformer语音识别-中文-通用-16k-离线-large-onnx

模型亮点模型文件:damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorchParaformer-large长音频模型集成VAD、ASR、标点与时间戳功能，可直接对时长为数小时音频进行识别，并输出带标点文字与时间戳：ASR模型：Parformer-large模型结构为非自回归语音识别模型，多个中文公开数据集上取得SOTA效果，可快速地基于ModelScope对模型进行微调定制和推理。热词版本：Paraformer-large热词版模型支持热词定制功能，基于提供的热词列表进行激励增强，提升热词的

中文 Paraformer span class token 语音识别达摩院 docker 长音频语音转写离线 FunASR

【论文阅读】Paraformer工业级非自回归端到端语音识别模型

Paraformer:FastandAccurateTransformerforNon-autoregressiveEnd-to-EndSpeechRecognition摘要介绍方法整体框架PredictorSamplerLossFunction实验实验设置AISHELL-1&AISHELL-2数据集工业级2wh数据集讨论结论个人思考/疑问论文下载摘要目前ASR常用的Transformer模型虽然效果比较好，但是因为引入了自回归的解码器，所以计算相对效率低一些。为了加速推理，设计了非自回归模型并行生成识别结果，比如单步自回归模型。然而由于输出标签之间的独立性假设，单步自回归模型的效果相比自回归

工业级 Paraformer span class style 论文阅读