草庐IT

R语言 Logistic回归~模型构建

线性回归模型是研究连续型变量与一组自变量之间的关系。也就是说线性回归模型的因变量是连续型变量。如果因变量是分类变量,则是非线性的,此时需要用Logistic回归,对其发生概率进行线性回归。Logistic回归预测模型思路:1.模型构建2.模型评价3.模型验证模型构建~~二元Logistic回归二元Logistic模型构建应用条件1.足够的样本量(样本量一般为变量的10~20倍)2.独立性(传染病样本一般不能用Logistic回归)3.线性假设成立4.当观察对象时间不同或者有明显的时间区别,可采用Possion或生存分析#构建模型的glm函数为R自带model模型构建~~多元Logistic回归

跟着Nature Communications学作图:R语言circlize包做漂亮的弦图

论文Alatitudinalgradientofdeep-seainvasionsformarinefisheshttps://www.nature.com/articles/s41467-023-36501-4s41467-023-36501-4.pdf论文中对应的图实现的代码都有,链接是https://github.com/stfriedman/Depth-transitions-paper里面有个弦图很好看,在论文中对应的是figure3,对应画图代码是上面链接中的figure2image.png论文中的作图数据是没有提供的,这里我就随便构造一个数据,能够把论文中提供的代码运行通就可以示

跟着Nature Communications学作图:R语言ggplot2散点组合误差线展示响应比(Response ratio)

论文Meta-analysisoftheimpactsofglobalchangefactorsonsoilmicrobialdiversityandfunctionalityhttps://www.nature.com/articles/s41467-020-16881-7#Sec15论文里提供了数据和代码,很好的学习素材这篇论文是公众号的一位读者留言,说这篇论文提供了数据和代码,但是代码比较长,看起来比较吃力。我看了论文中提供的代码,大体上能够看懂,争取抽时间把论文中提供的代码都复现一下。因为论文中的图都对应着提供了作图数据,我们想复现论文中的图。关于用原始数据分析的部分后续有时间在单独介

R语言编程-Tidyverse 书籍 - 数据清洗

1描述统计不同概率分布就是不同随机现象规律性的数学描述。统计学最常用的四大概率分布:正太分布,t分布,卡方分布,F分布。数据分布形状的统计量:偏度(skewness,是否对称),峰度(Kurtosis,以标准正太分布为基准)多个统计参数分析-rstatix::get_summary_stats(),dlookr::desicribe()列联表-janitor包提供的tabyl(),结合adorn_*()函数2参数估计多次抽样得到多个样本平均值和标准差,多个样本平均值的标准差就是这个结果的标准误。但是如果不能多次抽样,就需要等到一个尽可能大的样本来计算标准误:SE=SD/sqrt(n).估计的参

跟着Nature学作图:R语言ggplot2三角热图按照指定的角度旋转

论文Whole-genomedoublingdrivesoncogeniclossofchromatinsegregationhttps://www.nature.com/articles/s41586-023-05794-2#MOESM10作图数据都有,论文中的图也很好看,抽时间复现今天的推文复现一下论文中的Figure1e三角热图ggplot2能够做这种三角热图,但是怎么让热图的尖朝上,之前还没有尝试过,基本思路就是可以让整个图进行旋转,查了一下怎么让ggplot2整体旋转,很多都是借助grid包的语法来实现,但是grid的作图我还不是很理解,找了好长时间看有没有ggplot2的扩展包可以

跟着Nature学数据分析:R语言iNEXT包估计物种数并使用ggplot2作图展示结果

论文EnvironmentalfactorsshapingthegutmicrobiomeinaDutchpopulationhttps://www.nature.com/articles/s41586-022-04567-7s41586-022-04567-7.pdf数据和代码下载链接https://github.com/GRONINGEN-MICROBIOME-CENTRE/DMP论文中提供的是模拟数据集这个分析的具体原理暂时还看不明白,当前只能试着把代码跑通输入数据集部分截图image.png读取数据集inDFmeta对数据集进行过滤他这里自定义了一个函数,很长很长,这里把他自定义的函数

跟着Nature学作图:R语言ggplot2堆积柱形图完整示例

论文Aglobalreptileassessmenthighlightssharedconservationneedsoftetrapodshttps://www.nature.com/articles/s41586-022-04664-7#Sec33数据代码链接https://github.com/j-marin/Global-reptile-assessment-今天的推文学习一下推文中的Figure1a的堆积柱形图,没有找到论文中的作图代码,但是找到了原始数据集,有了原始数据集就可以自己写代码来做这个图image.png作图数据集部分截图image.png读取数据集library(rea

跟着Nature Plants学作图:R语言ggplot2画分组折线图和置信区间

论文Theflyingspider-monkeytreeferngenomeprovidesinsightsintofernevolutionandarborescencehttps://www.nature.com/articles/s41477-022-01146-6#Sec44数据下载链接https://doi.org/10.6084/m9.figshare.19125641今天的推文重复一下论文中的Figure1d中左下角的小图image.png论文中提供的原始数据集如下image.png需要将其整理成3个单独的数据集image.png首先是做数据整理的代码library(readxl

R语言宏基因组学统计分析学习笔记

3.4微生物数据组成分析早在1897年,皮尔逊就警告说,在器官测量中使用两个绝对测量值的比值,可能会形成“伪相关”。自1920s以来,地质学的研究人员已经知道,使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用成分的比率来表述,并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中,对数比变换方法被地质学、生态学等领域的统计学家和研究人员广泛接受,因为通过对数比变换,可以消除组成数据的样本空间(单纯性)受约束问题,并将数据投影到多元空间中。因此,所有可用的标准多元技术都可以再次用于分析成分数据。微生物组成的数据分析方法和工

跟着Nature学作图:R语言ggplot2环形堆积柱形图完整示例

论文Aglobalreptileassessmenthighlightssharedconservationneedsoftetrapodshttps://www.nature.com/articles/s41586-022-04664-7#Sec33数据代码链接https://github.com/j-marin/Global-reptile-assessment-今天的推文学习一下推文中的Figure1b的环形堆积柱形图,没有找到论文中的作图代码,但是找到了原始数据集,有了原始数据集就可以自己写代码来做这个图image.png代码可以参考这个链接https://r-graph-galler