genomes

Visual Genome数据集简介

参考知乎文章两篇VisualGenome数据集梳理VisualGenome数据集简介VG故事线依据本人阅读参考文章后的理解，讲解关于VG的故事线VisualGenome（VG）是斯坦福大学李飞飞组于2016年发布的大规模图片语义理解数据集，他们希望该数据集能像ImageNet那样推动图片高级语义理解方面的研究。数据集包括了很多图片，每张图片都有四种标注：RegionDescription、RegionGraph、SceneGraph、QA。其中"SceneGraph"如下图所示：然而，统计发现数据集中的物体种类和关系种类都遵循长尾分布。也就是说，数据集存在bias。因此，李飞飞后来的一个工作S

简介数据 xff xff0c xff0 人工智能

「干活」基因组组装之前要做的：Genome Survey

基因组组装之前，有一些问题还是需要注意的，genomesize是多少？评估得到的genomeheterozygosity是多少？重复序列的占比是多少？可以系统性地称为genomesurvey，这是一个非常简单的分析，但是其实有一些问题是值得注意的GenomeSurvey一般基于Illuminashortreads进行分析，因为二代测序便宜，先测出来试试水，再判断三代的数据量，这应该算是一个非常经济实惠的做法。分析流程1）fastp、Trimmomatic等软件挑一个过滤低质量序列2）Jellyfish2.3.0、KMC3我个人其实比较喜欢KMC，因为可以直接读取.gz文件（绝对不是因为之前KM

干活基因 code section sample

跟着Genes|Genomes|Genetics学数据分析：R语言edgeR包做转录组差异表达分析

论文Sex-SpecificCo-expressionNetworksandSex-BiasedGeneExpressionintheSalmonidBrookCharrSalvelinusfontinalis数据代码公开https://github.com/bensutherland/sfon_wgcna还有wgcna的代码，论文里对方法和结果部分介绍的还挺详细，可以对照着论文然后学习WGCNA的代码今天的推文先学习差异表达分析的代码论文中提供的原始count文件有100多个样本，数据量有点大。这里我只选择其中的20个样本。读取表达量文件library(readr)my.counts对数据进

分析转录 counts filtered 数据