关于“数据的维度”(dims参数)的选择完成PCA之后,我们获得了该数据集的所有主成分(PCs)信息,但是如何决定纳入多少个主成分进行下游分析呢?主要参考以下方法:热图DimHeatmap(pbmc,dims=1:15,cells=500,balanced=TRUE)image.png如上图所示,可以看出前15个主成分可以把细胞分成差异明显的两群,说明前15个主成分中含有的显著的差异基因更多,主成分也就更有意义,所以下游分析可以纳入前15个PCs。碎石图ElbowplotElbowPlot(pbmc)通过碎石图可以看出每个PC对变异的贡献情况,从上图可以看出9~10PC以后逐渐趋于稳定(噪声主
1.利用箱线图比较两类样本的某个细胞比例差异比较直观,但是缺点在于如果单细胞样本个数过少且异质性大,导致很难有统计学显著意义library(ggpubr)data2.Ro/e比值好多文章都有用这个,我的理解是四格表卡方检验计算出来的观测除以期望Cell_typeCancerNormalTcell80200Bcell100120Tam200100例如上述数据,一开始有三类细胞,分别在癌和正常的个数如表所示,那么计算Ro/e的时候就要构建四格表,以T细胞为例Cell_typeCancerNormalTcell80200Others300220##计算卡方值以及期望和观测值x##[,1][,2]##
1.利用箱线图比较两类样本的某个细胞比例差异比较直观,但是缺点在于如果单细胞样本个数过少且异质性大,导致很难有统计学显著意义library(ggpubr)data2.Ro/e比值好多文章都有用这个,我的理解是四格表卡方检验计算出来的观测除以期望Cell_typeCancerNormalTcell80200Bcell100120Tam200100例如上述数据,一开始有三类细胞,分别在癌和正常的个数如表所示,那么计算Ro/e的时候就要构建四格表,以T细胞为例Cell_typeCancerNormalTcell80200Others300220##计算卡方值以及期望和观测值x##[,1][,2]##
1.加载数据library(Seurat)library(SeuratData)pbmcpbmcAnobjectofclassSeurat13714featuresacross2638sampleswithin1assayActiveassay:RNA(13714features,2000variablefeatures)2dimensionalreductionscalculated:pca,umap2.执行默认的差异表达测试Seurat的大部分差异表达特征可以通过“FindMarkers()”函数访问。默认情况下,Seurat基于非参数Wilcoxon秩和检验执行差分表达式。这取代了以前的
1.加载数据library(Seurat)library(SeuratData)pbmcpbmcAnobjectofclassSeurat13714featuresacross2638sampleswithin1assayActiveassay:RNA(13714features,2000variablefeatures)2dimensionalreductionscalculated:pca,umap2.执行默认的差异表达测试Seurat的大部分差异表达特征可以通过“FindMarkers()”函数访问。默认情况下,Seurat基于非参数Wilcoxon秩和检验执行差分表达式。这取代了以前的
说在前面Immugent在前段时间的一篇推文中:SciBet:一个软件解决单细胞注释所有烦恼介绍了张泽民老师课题组开发的单细胞注释软件:SciBet。本次,生信宝库继续推出精品,介绍一下同样是张泽民老师在2021年开发出的对单细胞数据集进行整合的软件:iMAP。相应的文章发表在GenomeBiology杂志上,篇名为“iMAP:integrationofmultiplesingle-celldatasetsbyadversarialpairedtransfernetworks”。这是一款基于机器学习的算法,其实这对一直只使用R来进行单细胞数据分析的Immuget来说挑战还是蛮大的,还好有“方块
说在前面Immugent在前段时间的一篇推文中:SciBet:一个软件解决单细胞注释所有烦恼介绍了张泽民老师课题组开发的单细胞注释软件:SciBet。本次,生信宝库继续推出精品,介绍一下同样是张泽民老师在2021年开发出的对单细胞数据集进行整合的软件:iMAP。相应的文章发表在GenomeBiology杂志上,篇名为“iMAP:integrationofmultiplesingle-celldatasetsbyadversarialpairedtransfernetworks”。这是一款基于机器学习的算法,其实这对一直只使用R来进行单细胞数据分析的Immuget来说挑战还是蛮大的,还好有“方块
问题一、有的文章只提供TPM的单细胞表达矩阵,可以用seurat分析吗?二、分析流程和用count矩阵有什么不同?三、10X的单细胞转录组数据的标准化需要考虑基因长度吗?先来看看第3个小问题10X的单细胞转录组数据的标准化需要考虑基因长度吗?答案是不需要。我们看一下seurat里面NormalizeData()函数是如何做标准化,然后求Log。test.seuLogNormalize:Featurecountsforeachcellaredividedbythetotalcountsforthatcellandmultipliedbythescale.factor(默认是10000).This
问题一、有的文章只提供TPM的单细胞表达矩阵,可以用seurat分析吗?二、分析流程和用count矩阵有什么不同?三、10X的单细胞转录组数据的标准化需要考虑基因长度吗?先来看看第3个小问题10X的单细胞转录组数据的标准化需要考虑基因长度吗?答案是不需要。我们看一下seurat里面NormalizeData()函数是如何做标准化,然后求Log。test.seuLogNormalize:Featurecountsforeachcellaredividedbythetotalcountsforthatcellandmultipliedbythescale.factor(默认是10000).This
细胞生物学的相关研究一直受限于数据的完整性和表型的完整性,对应激状态和稳态下的细胞区别观察不够充分。过去五年中,计算机视觉和语音识别领域通过对大量的无标签数据进行学习、建模,很好的解决了数据不足的问题。同样在最近的研究中,机器学习方法使用单细胞数据进行扰动建模也推动了细胞生物领域前进。对于生物学家来讲,无论研究基因、转录本、修饰、蛋白功能,都要频繁的进行人为干预,实现对感兴趣变量的正向或者反向改变,观察细胞表型的变化。整个过程需要对干预工具的构建、导入、实验观察,从而得出表型结论。扰动建模的目的就是想要通过数学模型的建立,通过对已有数据的分析、归纳和总结,对一个分子的功能在没有湿实验时做出预判