草庐IT

limma包实现差异基因筛选

载入工作路径:安装limma包(这里用BiocManager安装的): 读取表达矩阵和分组信息:表达矩阵行为基因,列为样本。 构建分组矩阵和比较矩阵:线性拟合,会得到一个DEG文件,里面有logFC、P.Value值以及adj.P.Val值:根据标准进行筛选 :绘制火山图: 

单细胞差异基因可视化|Seurat和scanpy提取细胞簇主要差异基因(DEG)并绘制气泡图

1.背景单细胞数据分析在进行完细胞自聚类或者细胞类型注释后,一般需要对查到的差异基因可视化,用来显示基因和细胞群的相关性,进行后续分析。当然Seurat和scanpy本身可视化的方式有非常多,例如featureplot,violinplot,dotplot等,但是问题在于差异基因分析后,如何快速将每个细胞簇所对应的topdeg汇总,然后再对接函数绘制成图像。Seurat的操作比较简单,因为FindMarker()后自身生成的就是一个数据框,但scanpy的sc.tl.rank_genes_groups()就没有那么用户友好了。2.Seurat的实现library(Seurat)library(

「fastANI」软件界面化实践~ 解决Windows下全基因组相似度快速分析

终于有第一个投稿的插件,来自多年前的师弟ChuhaoLi(估计他入学的时候可能我正好开始写TBtools,或者没写多久?)。他干了一个出乎无意料的插件,尤其是用了Python!虽然我说过,逻辑上是支持的,但没想到真能支持(虽然不是用解释器,不过师弟用的方式似乎更好,体积更小)。相关插件已经上传到「TBtools」的「PluginStore」,欢迎大伙下载使用。期待大伙一起开发实用工具,加速更多人的生信数据分析。-CJ-陈程杰前言平均核苷酸一致性(averagenucleotideidentity,ANI)是衡量基因组之间相似性的一个常用指标。windows下暂时没发现一个好用的可以计算ANI的

基于可解释多模态深度学习的泛癌症整合组织-基因组分析

目录从一篇文章入手(基于多模态深度学习的泛癌症整合组织-基因组分析)PosthocExplainabilityLocal explanations.  V.s.  GlobalExplanations Evaluation用于千兆像素整张幻灯片图像生存预测的多模态共同注意转换器(MCAT)1.目的2.挑战解决:贡献:方法:PathomicFusion:AnIntegratedFrameworkforFusingHistopathologyandGenomicFeaturesforDiagnosisandPrognosis1.background&motivation ​编辑2.研究现状(用于肿

day31 画全基因范围内的染色体reads覆盖度图

参考教程:https://cloud.tencent.com/developer/article/1054625http://www.360doc.com/content/21/0714/12/76149697_986499282.shtmlhttp://www.bio-info-trainee.com/2163.html一、统计基本覆盖信息首先在linux里面运行:samtoolsmpileup-f/data/zds209/database/cellranger/refdata-gex-GRCh38-2020-A/fasta/genome.fa/data/zds209/ssresult/ba

泛基因组分析流程ppsPCP

论文https://academic.oup.com/bioinformatics/article/35/20/4156/5372683?login=falseppsPCP:aplantpresence/absencevariantsscannerandpan-genomeconstructionpipelinegithub主页https://github.com/Zhuxitong/ppsPCP/tree/v1.0依赖软件mummerblastbedtoolsblatgffreadBio::Perl这几个都可以用conda直接安装,但是mummer我这边conda还是3.几的版本,所以后续使

GTF处理脚本 - GTFtools

image.png主要功能及示例:1)计算merged外显子合并同一个基因的所有spliceisoforms的外显子,并生成bed格式文件,可以用来计算具有多个isoforms的基因的非重叠外显子长度pythongtftools.py-mmerged_exons.beddemo.gtf2)计算independentintronspythongtftools.py-dindependent_introns.beddemo.gtf3)计算基因长度由于一个基因可能有多个isoforms,因此作者提供了4种基因长度计算方法:mean,median,max及mergedexons,其中mergedexo

mysql - 在 MySQL 中存储基因表达数据——需要联结表吗?

我有几个mxn的基因表达数据矩阵,我想将它们存储在MySQL中。m大约有30,000个基因(可唯一识别)n大约是3,000个样本(大部分是唯一可识别的)我不确定存储这些数据的最佳方式是什么。我最初将矩阵直接读入MySQL表中,但后来有人告诉我这不是做事的好方法,因为列(样本)的数量是可变的。我无法转置矩阵并以这种方式存储它们,因为在创建列时,存在的基因数量超出了MySQL允许的数量。后来有人告诉我,“连接表”可能是实现此目的的更好方法。然而,在观看了几个关于这些的YouTube视频后,我还是一无所知。我也搜索过谷歌,似乎没有关于使用连接表在MySQL中存储基因表达数据的教程。那么,有人

用mecat2组装基因组

背景介绍mecat2可以说是比较早的一批可以用于三代测序平台的基因组组装软件了,2017年刚上硕士的时候就有接触到过。当然还有WTDBG2也是差不多同时期的软件。软件安装这次没法无脑conda了,得从源码开始编译。就当忆苦思甜吧,见识一下如果没有conda加持,软件安装是一个什么样的过程。不过mecat2的安装已经是比较新手友好型的了。gitclonehttps://github.com/xiaochuanle/MECAT2.gitcdMECAT2make记得把MECAT/Linux-amd64/bin的路径加入环境变量以便全局调用哦。软件运行1.生成输入文件把多个测序文件的存储路径写入fas

PEPPAN分析泛基因组

文章:Accuratereconstructionofbacterialpan-andcoregenomeswithPEPPAN.GenomeRes.2020引用:5GITHUB:https://github.com/zheminzhou/PEPPANcondapip3安装condacreate-npeppancondaactivatepeppan#dependencycondaconfig--addchannelsdefaultscondaconfig--addchannelsconda-forgecondaconfig--addchannelsbiocondacondainstallpyt