草庐IT

Visual Genome数据集简介

参考知乎文章两篇VisualGenome数据集梳理VisualGenome数据集简介VG故事线依据本人阅读参考文章后的理解,讲解关于VG的故事线VisualGenome(VG)是斯坦福大学李飞飞组于2016年发布的大规模图片语义理解数据集,他们希望该数据集能像ImageNet那样推动图片高级语义理解方面的研究。数据集包括了很多图片,每张图片都有四种标注:RegionDescription、RegionGraph、SceneGraph、QA。其中"SceneGraph"如下图所示:然而,统计发现数据集中的物体种类和关系种类都遵循长尾分布。也就是说,数据集存在bias。因此,李飞飞后来的一个工作S

「干活」基因组组装之前要做的:Genome Survey

基因组组装之前,有一些问题还是需要注意的,genomesize是多少?评估得到的genomeheterozygosity是多少?重复序列的占比是多少?可以系统性地称为genomesurvey,这是一个非常简单的分析,但是其实有一些问题是值得注意的GenomeSurvey一般基于Illuminashortreads进行分析,因为二代测序便宜,先测出来试试水,再判断三代的数据量,这应该算是一个非常经济实惠的做法。分析流程1)fastp、Trimmomatic等软件挑一个过滤低质量序列2)Jellyfish2.3.0、KMC3我个人其实比较喜欢KMC,因为可以直接读取.gz文件(绝对不是因为之前KM

跟着Genes|Genomes|Genetics学数据分析:R语言edgeR包做转录组差异表达分析

论文Sex-SpecificCo-expressionNetworksandSex-BiasedGeneExpressionintheSalmonidBrookCharrSalvelinusfontinalis数据代码公开https://github.com/bensutherland/sfon_wgcna还有wgcna的代码,论文里对方法和结果部分介绍的还挺详细,可以对照着论文然后学习WGCNA的代码今天的推文先学习差异表达分析的代码论文中提供的原始count文件有100多个样本,数据量有点大。这里我只选择其中的20个样本。读取表达量文件library(readr)my.counts对数据进