以语音识别为例,如果现在有一个包含剪辑语音以及相应文本的数据集,如何将语音片段与文本字符一一对应,是训练语音识别器面临的首要问题。为了解决上述问题,我们制定简单的规则,如每个字符对应十个输入。考虑到不同的人说话的语速有区别,这样的规则并不具备泛化能力。当然,我们也可以手动的对齐每个字符在音频中的位置。这种方法得到的数据对于模型的训练非常友好,但是这种做法非常耗费人力物力。这个问题同样也存在于其他序列识别的任务中,如图片中的文本识别。 CTC(ConnectionistTemporalClassification)正是这种不知道输入输出是否对齐的情况下使用的算法,所以CTC适合语音识别和文