统计_草庐IT

统计绘图 | 这个能不能作为【火山图】？

1.火山图？之前瞥到了小明的跟着Cell学作图：R语言ggplot2作图展示差异表达的基因，但没有细看，根据印象做了下面这个图。差异表达结果合并awk'NR==1{print}FNR>1{print}'*vs0.txt>allvs0.txt在R中读取library(tidyverse)df_deg作图，其中不显示padj大于0.5的基因；df_deg的contrast列：1vs0|2vs0|3vs0|4vs0|5vs0，不同的组的差异表达结果；df_deg的change列：Up|Down|Stable，可根据log2FoldChange和padj定义；my_gene是我想突出的基因构成的向量。

统计绘图 code log2FoldChange section

【统计】关联与建模，何时使用逐步回归？

前言辗转数月，思考了很久，想要以什么角度开始与大家分享一些医学统计学相关的观点，却迟迟没有动笔，直到数天前偶然阅读到郑老师一文——“为什么我不建议随便用逐步回归法构建回归模型？”，觉得较有感触，因此增加了一些自己的观点，希望与各位分享。如果有什么不足，欢迎大家指教。问题1：目前常见的医学研究类型有影响因素分析与模型构建两种，而逐步回归则经常出现在以上两种研究类型的混杂or预测因子筛选过程中（混杂筛选尤其常见于国内学术论文）。那么，这样的研究思路是否毫无问题呢？“事实上，逐步回归都是被应用于预测模型构建的变量筛选过程中的，并不推荐用来探讨影响因素（危险因素、关联等）。以国内众多影响因素研究方法部

何时逐步的多重

【统计】关联与建模，何时使用逐步回归？

前言辗转数月，思考了很久，想要以什么角度开始与大家分享一些医学统计学相关的观点，却迟迟没有动笔，直到数天前偶然阅读到郑老师一文——“为什么我不建议随便用逐步回归法构建回归模型？”，觉得较有感触，因此增加了一些自己的观点，希望与各位分享。如果有什么不足，欢迎大家指教。问题1：目前常见的医学研究类型有影响因素分析与模型构建两种，而逐步回归则经常出现在以上两种研究类型的混杂or预测因子筛选过程中（混杂筛选尤其常见于国内学术论文）。那么，这样的研究思路是否毫无问题呢？“事实上，逐步回归都是被应用于预测模型构建的变量筛选过程中的，并不推荐用来探讨影响因素（危险因素、关联等）。以国内众多影响因素研究方法部

何时逐步的多重

R语言与统计-6：生存分析和COX回归

R语言与统计-1：t检验与秩和检验R语言与统计-2：方差分析R语言与统计-3：卡方检验R语言与统计-4：线性回归分析与模型诊断R语言与统计-5：Logistic回归更详细的可以参考之前分享的：Kaplan-Meier生存分析的结果解读和绘制方法TCGA生存模型的构建以及模型预测和评估1.生存分析导入数据library(coin)data(glioma)head(glioma)#no.agesexhistologygroupeventtime#1141FemaleGrade3RITTRUE53#2245FemaleGrade3RITFALSE28#3348MaleGrade3RITFALSE69

COX 语言 section code jianshu

R语言与统计-6：生存分析和COX回归

R语言与统计-1：t检验与秩和检验R语言与统计-2：方差分析R语言与统计-3：卡方检验R语言与统计-4：线性回归分析与模型诊断R语言与统计-5：Logistic回归更详细的可以参考之前分享的：Kaplan-Meier生存分析的结果解读和绘制方法TCGA生存模型的构建以及模型预测和评估1.生存分析导入数据library(coin)data(glioma)head(glioma)#no.agesexhistologygroupeventtime#1141FemaleGrade3RITTRUE53#2245FemaleGrade3RITFALSE28#3348MaleGrade3RITFALSE69

COX 语言 section code jianshu

用k-mer分析进行基因组调查：（二）用jellyfish进行k-mer频数统计

(全文约1520字)【推荐】用Smudgeplot评估物种倍性后，用组合jellyfish+GenomeScope1.0做二倍体物种的基因组调查，用组合KMC+GenomeScope2.0做多倍体物种的基因组调查。1.k-mer进行基因组调查的软件k-mer进行基因组调查分为k-mer频数统计和基因组特征评估两步。jellyfish可以实现第一步k-mer频数统计。jellyfish的结果sample.histo可以用在GenomeScope上，实现第二步基因组特征评估。2.jellyfish简介jellyfish是CenterforBioinformaticsandComputational

k-mer 基因 li sample

用k-mer分析进行基因组调查：（二）用jellyfish进行k-mer频数统计

(全文约1520字)【推荐】用Smudgeplot评估物种倍性后，用组合jellyfish+GenomeScope1.0做二倍体物种的基因组调查，用组合KMC+GenomeScope2.0做多倍体物种的基因组调查。1.k-mer进行基因组调查的软件k-mer进行基因组调查分为k-mer频数统计和基因组特征评估两步。jellyfish可以实现第一步k-mer频数统计。jellyfish的结果sample.histo可以用在GenomeScope上，实现第二步基因组特征评估。2.jellyfish简介jellyfish是CenterforBioinformaticsandComputational

k-mer 基因 li sample

统计学习方法1.4-2.1 笔记

1.4模型评估与模型选择训练误差与测试误差关于模型的拟合好坏，计算训练集的训练误差进行衡量。关于模型预测的好坏，通过测试集衡量计算预测和真实的差异：测试误差：衡量预测效果训练误差：所有样本来自训练集，模型对于已知数据的预测能力。测试误差：样本来自测试集。模型对于未知数据的预测能力。误差率和准确率是测试误差的两个特例误差率里，当预测和真实不相等计1，相等计0。体现的预测和真实不相等的点的个数，在测试集里样本总个数的比例准确率是预测和真实相等的点的个数，在测试集里样本总个数的比例有时训练误差小，但测试误差不小，需要平衡。对于经验风险最小化，可以通过最小二乘法求解参数。让风险函数最小化，就是它的导数

笔记 1.4 section images upload

统计学习方法1.4-2.1 笔记

1.4模型评估与模型选择训练误差与测试误差关于模型的拟合好坏，计算训练集的训练误差进行衡量。关于模型预测的好坏，通过测试集衡量计算预测和真实的差异：测试误差：衡量预测效果训练误差：所有样本来自训练集，模型对于已知数据的预测能力。测试误差：样本来自测试集。模型对于未知数据的预测能力。误差率和准确率是测试误差的两个特例误差率里，当预测和真实不相等计1，相等计0。体现的预测和真实不相等的点的个数，在测试集里样本总个数的比例准确率是预测和真实相等的点的个数，在测试集里样本总个数的比例有时训练误差小，但测试误差不小，需要平衡。对于经验风险最小化，可以通过最小二乘法求解参数。让风险函数最小化，就是它的导数

笔记 1.4 section images upload

南半球热带气旋每周活动的动力与统计预报比较

摘要：欧洲中心的预报系统对于预测南半球每周（时间尺度）热带气旋生成的能力已经过了评估并与最先进的统计模式的能力进行了比较。概率技能得分已经应用于一系列普遍的动力和统计模式的后报产品中。在积分开始的前三周，欧洲中心的后报结果相比统计模型拥有更高的相对操作特征（ROC）分数，而且在第四周印度洋上空，动力模式的表现也更好。第二周后，欧洲中心后报产品较统计模型的布里尔分数（概率预测相对于测试样本的均方误差）更低，这可能是因为该版本的ECMWF模式较观测多生成了大约30%的TCs，因此产生了大量假警报。欧洲中心的概率预报应用了一种简单的校准方法，显著提高了它们的可靠性，但以牺牲清晰度为代价。在前三周

气旋南半球的 section