草庐IT

用简单的EM算法模型理解RSEM算法

问题的描述RSEM是典型的基于转录本定量的方法,它的比对需要下载参考转录本的fa序列,与基因组比对不同,转录本比对往往是一个基因对应多个转录本序列,因此相同基因的不同转录本之间有很大的overlap如上图所示,当reads比对到这些isoform的overlap区,如何确定每个isoform上的reads数呢?换句话来说有的reads可以mapping到isoform1上,而有一些可以mapping到isoform2上,所以需要解决的问题是确定isoform1和isoform2上reads的相对比例类比双硬币模型来理解RSEM假设在已知reads可以mapping到isoform的条件下,re