基因组_草庐IT

跟着Nature Communications学作图：R语言ggplot2做堆积柱形图展示群体基因组学的结果

论文Genomicinsightsintolocaladaptationandfutureclimate-inducedvulnerabilityofakeystoneforesttreeinEastAsiahttps://www.nature.com/articles/s41467-022-34206-8#Sec23完整的数据分析代码涉及到群体基因组学作图数据``https://github.com/jingwanglab/Populus_genomic_prediction_climate_vulnerability作者的github主页还有很多其他内容https://github.com

GenomeScope 2.0 评估基因组大小、杂合度和重复序列

GenomeScope是2017年发表在bioinformatic的一个工具，这个工具的目的就是处理一些高复杂度的基因组，比如说高杂合度或者基因组非常大的物种。GenomeScope只能预测二倍体基因组，GenomeScope2.0可以预测多倍体物种。安装$gitclonehttps://github.com/tbenavi1/genomescope2.0.git$cdgenomescope2.0/$Rscriptinstall.R在软件的安装目录下，genomescopre.R文件是核心的运行脚本，用法如下$Rscriptgenomescope.R\-ihistogram_file\-oou

基因组数据的块引导程序

我正在尝试实现一个块引导程序，但是我还没有找到一种有效地做到这一点的方法。我的data.frame具有以下结构：CHRPOSvar_Avar_B11920.90.7120000.80.3230.210.762300090.360.15...第一列是染色体识别，第二列是位置，最后两列是我要计算相关性的变量。问题在于，根据它们之间的距离（越依赖越接近），每行并不完全独立，因此我不能简单地做cor(df$var_A,df$var_B).从这种类型的数据中通常使用的问题的方法是执行BlockBootstrap。也就是说，我需要将数据分为长度X的块，随机选择该块内部的一行，然后计算我的感兴趣统计数据。但

SCS【13】单细胞转录组之识别细胞对“基因集”的响应 (AUCell)

点击关注，桓峰基因桓峰基因公众号推出单细胞系列教程，有需要生信分析的老师可以联系我们！首选看下转录分析教程整理如下：Topic 6. 克隆进化之 CanopyTopic 7. 克隆进化之 CardelinoTopic 8. 克隆进化之 RobustCloneSCS【1】今天开启单细胞之旅，述说单细胞测序的前世今生SCS【2】单细胞转录组之 cellrangerSCS【3】单细胞转录组数据 GEO下载及读取SCS【4】单细胞转录组数据可视化分析(Seurat4.0)SCS【5】单细胞转录组数据可视化分析(scater)SCS【6】单细胞转录组之细胞类型自动注释(SingleR)SCS【7】单

滑窗统计基因组的一些特征值比如基因密度和GC含量

1.划分窗口bedtoolsmakewindows-gChr.length-w50000>50k.windowsChr.length就是每条染色体的长度2.计算每个滑窗内基因的数量#同理可以换成任何其余东西比如SNPgrep-w"gene"input.gff|awk'{print4"\t"$5}'>gene.posgene.pos长这样，每个基因的位置信息,只要前三列的信息就行，其余无所谓bedtoolsintersect-a50k.windows-bgene.pos-c>out最后的结果和TBtools输出的一致，光拿基因密度来说如果不需要基因密度为0的窗口的信息，还是用TBtools方便一

跟着Nature Communication学作图：R语言ggplot2话点线图展示基因表达量的范围

论文MicrobiomesintheChallengerDeepslopeandbottom-axissedimentshttps://www.nature.com/articles/s41467-022-29144-4#code-availability对应代码链接https://github.com/ucassee/Challenger-Deep-Microbes论文里提供了大部分图的数据和代码，很好的学习材料，感兴趣的同学可以找来参考，今天的推文重复一下论文中的Figure3b示例数据集部分截图image.png读取数据dat01作图代码library(ggplot2)library(s

跟着Nature Communication学数据分析：R语言利用宏基因组的相对丰度数据做主坐标分析（PcoA)）

论文MicrobiomesintheChallengerDeepslopeandbottom-axissedimentshttps://www.nature.com/articles/s41467-022-29144-4#code-availability对应代码链接https://github.com/ucassee/Challenger-Deep-Microbes论文里提供了大部分图的数据和代码，很好的学习材料，感兴趣的同学可以找来参考，今天的推文重复一下论文中的Figure2bimage.png部分数据集截图如下相对丰度数据image.png分组数据image.png读取数据集读取相对丰

「干活」基因组组装之前要做的：Genome Survey

基因组组装之前，有一些问题还是需要注意的，genomesize是多少？评估得到的genomeheterozygosity是多少？重复序列的占比是多少？可以系统性地称为genomesurvey，这是一个非常简单的分析，但是其实有一些问题是值得注意的GenomeSurvey一般基于Illuminashortreads进行分析，因为二代测序便宜，先测出来试试水，再判断三代的数据量，这应该算是一个非常经济实惠的做法。分析流程1）fastp、Trimmomatic等软件挑一个过滤低质量序列2）Jellyfish2.3.0、KMC3我个人其实比较喜欢KMC，因为可以直接读取.gz文件（绝对不是因为之前KM

DNA 6. 基因组变异之绘制精美瀑布图（ComplexHeatmap）

桓峰基因公众号推出基于基因组变异数据生信分析教程并配有视频在线教程，目前整理出来的教程目录如下：DNA 1. Germline Mutation Vs. Somatic Mutation 傻傻分不清楚DNA 2. SCI 文章中基因组变异分析神器之 maftools DNA 3. SCI 文章中基因组变异分析神器之 maftoolsDNA 4. SCI 文章中基因组的突变信号（maftools）DNA 5. 基因组变异文件VCF格式详解DNA6.基因组变异之绘制精美瀑布图（ComplexHeatmap）最近刚好在做项目，就感觉maftools里面的瀑布图不是很好用，于是就改成使用Complex

ChatGPT启发，谷歌DeepMind预测7100万基因突变！AI破译人类基因遗传登Science

蛋白质预测模型AlphaFold在AI界掀起海啸级巨浪后，Alpha家族又迎来新贵。今天，GoogleDeepMind发布了全新AI模型——AlphaMissense，能够预测出7100万「错义突变」。具体讲，AlphaMissense成功预测出的89%「错义突变」中，57%是致病性，32%是良性的。论文地址：https://www.science.org/doi/10.1126/science.adg7492而仅有0.1%的变异，能被人类专家确认。为了研究人员更好了解其可能产生的影响，谷歌还将这份千万级「错义突变」所有目录公开。一直以来，发现根本病因是人类遗传学面临的最大挑战之一。而错义突变