CTC_草庐IT

CTC算法详解

以语音识别为例，如果现在有一个包含剪辑语音以及相应文本的数据集，如何将语音片段与文本字符一一对应，是训练语音识别器面临的首要问题。为了解决上述问题，我们制定简单的规则，如每个字符对应十个输入。考虑到不同的人说话的语速有区别，这样的规则并不具备泛化能力。当然，我们也可以手动的对齐每个字符在音频中的位置。这种方法得到的数据对于模型的训练非常友好，但是这种做法非常耗费人力物力。这个问题同样也存在于其他序列识别的任务中，如图片中的文本识别。 CTC（ConnectionistTemporalClassification）正是这种不知道输入输出是否对齐的情况下使用的算法，所以CTC适合语音识别和文

CTC算法详解