草庐IT

R语言初步-数据转换-4.mutate()函数

MMM_233 2023-03-28 原文

R语言学习笔记总结

R语言初步-用dplyr进行数据转换

install.packages("tidyverse")
install.packages("nycflights13")#仍然记得要先安装
library(nycflights13)#航班信息文件
library(tidyverse)

?flights#查看数据信息的说明书
flights#查看航班信息

4.使用mutate()函数添加新变量

mutate:变异 ; 突变 ; 改变 ; 数据修改

除了选择现有的列,也可以自己添加新的列,新的列是已有列的函数。
提示:如果数据列数太多,使用view()函数可以在Rstudio里看到所有的列
为了方便,我们可以先创建一个列数少的数据框,比如使用之前讲过的select()函数:

narrow_data <- select(flights,year:day,ends_with("delay"),distance,air_time)
> narrow_data
#运行后查看创建的narrow_data

# A tibble: 336,776 x 7
    year month   day dep_delay arr_delay distance air_time
   <int> <int> <int>     <dbl>     <dbl>    <dbl>    <dbl>
 1  2013     1     1         2        11     1400      227
 2  2013     1     1         4        20     1416      227
 3  2013     1     1         2        33     1089      160
 4  2013     1     1        -1       -18     1576      183
 5  2013     1     1        -6       -25      762      116
 6  2013     1     1        -4        12      719      150
 7  2013     1     1        -5        19     1065      158
 8  2013     1     1        -3       -14      229       53
 9  2013     1     1        -3        -8      944      140
10  2013     1     1        -2         8      733      138
# ... with 336,766 more rows

紧接着创建新的列gain和speed

mutate(narrow_data,gain=arr_delay-dep_delay ,speed=distance/air_time*60)
# A tibble: 336,776 x 9
    year month   day dep_delay arr_delay distance air_time  gain speed
   <int> <int> <int>     <dbl>     <dbl>    <dbl>    <dbl> <dbl> <dbl>
 1  2013     1     1         2        11     1400      227     9  370.
 2  2013     1     1         4        20     1416      227    16  374.
 3  2013     1     1         2        33     1089      160    31  408.
 4  2013     1     1        -1       -18     1576      183   -17  517.
 5  2013     1     1        -6       -25      762      116   -19  394.
 6  2013     1     1        -4        12      719      150    16  288.
 7  2013     1     1        -5        19     1065      158    24  404.
 8  2013     1     1        -3       -14      229       53   -11  259.
 9  2013     1     1        -3        -8      944      140    -5  405.
10  2013     1     1        -2         8      733      138    10  319.
# ... with 336,766 more rows

新创建的列同时也可以使用(但是保留的方法仍然是赋值给某个名称):

 mutate(narrow_data,
        gain=arr_delay-dep_delay,
        hours=air_time/60,
        gain_per_hour=gain/hours)
# A tibble: 336,776 x 10
    year month   day dep_delay arr_delay distance air_time  gain hours
   <int> <int> <int>     <dbl>     <dbl>    <dbl>    <dbl> <dbl> <dbl>
 1  2013     1     1         2        11     1400      227     9 3.78 
 2  2013     1     1         4        20     1416      227    16 3.78 
 3  2013     1     1         2        33     1089      160    31 2.67 
 4  2013     1     1        -1       -18     1576      183   -17 3.05 
 5  2013     1     1        -6       -25      762      116   -19 1.93 
 6  2013     1     1        -4        12      719      150    16 2.5  
 7  2013     1     1        -5        19     1065      158    24 2.63 
 8  2013     1     1        -3       -14      229       53   -11 0.883
 9  2013     1     1        -3        -8      944      140    -5 2.33 
10  2013     1     1        -2         8      733      138    10 2.3  
# ... with 336,766 more rows, and 1 more variable: gain_per_hour <dbl>

由于系统显示限制,最后一列没有展示出来,运行view()函数即可:

示例:
view(mutate(narrow_data,
            gain=arr_delay-dep_delay,
            hours=air_time/60,
            gain_per_hour=gain/hours
            )
     )
#运行后系统加载完整的数据表

如果只想要保留新的变量,那就使用transmute()函数:

transmute(narrow_data,
          gain=arr_delay-dep_delay,
          hours=air_time/60,
          gain_per_hour=gain/hours
          )
#运行后:
# A tibble: 336,776 x 3
    gain hours gain_per_hour
   <dbl> <dbl>         <dbl>
 1     9 3.78           2.38
 2    16 3.78           4.23
 3    31 2.67          11.6 
 4   -17 3.05          -5.57
 5   -19 1.93          -9.83
 6    16 2.5            6.4 
 7    24 2.63           9.11
 8   -11 0.883        -12.5 
 9    -5 2.33          -2.14
10    10 2.3            4.35
# ... with 336,766 more rows

此时参与计算的arr_delay、dep_delay、air_time、hours都消失,只有新转换的gain、hours 、gain_per_hour三列。


mutare()函数可以和前面提到的几个函数结合起来使用。其中进行运算的时候,肯定会涉及到R语言的计算语言,以下列出几个常用的:

  • +、—、*、/基本运算
  • sum()计算总和
  • mean()计算均值
  • log(),log2(),log10()
  • %/% 整数除法
  • %% 求余
  • x==y*(x%/% y)+(x%%y) 一个拆分整数的常用表达

举例:

transmute(flights,
          dep_time,
          hour=dep_time%/%60,    #计算了dep_time的小时数量
          minute=dep_time%%60    #计算了dep_time的分钟数量
          )
#运行:
# A tibble: 336,776 x 3
   dep_time  hour minute
      <int> <dbl>  <dbl>
 1      517     8     37
 2      533     8     53
 3      542     9      2
 4      544     9      4
 5      554     9     14
 6      554     9     14
 7      555     9     15
 8      557     9     17
 9      557     9     17
10      558     9     18
# ... with 336,766 more rows
  • lag()和lead() 返回一个序列的领先值和滞后值
  • cumsum()和cumprod() 累加和、累加积
  • cummin()、cummax()、cummean() 累加最小值、累加最大值、计算累加均值
 (x <- 1:10)
 [1]  1  2  3  4  5  6  7  8  9 10
 lag(x)
 #运行:
 [1] NA  1  2  3  4  5  6  7  8  9
 lead(x)
 #运行:
 [1]  2  3  4  5  6  7  8  9 10 NA
 cumsum(x)
 #运行:
 [1]  1  3  6 10 15 21 28 36 45 55
 cumprod(x)
 #运行:
 [1]       1       2       6      24     120     720    5040   40320  362880 3628800
 cummin(x)
 #运行:
 [1] 1 1 1 1 1 1 1 1 1 1
 cummax(x)
 #运行:
 [1]  1  2  3  4  5  6  7  8  9 10
 cummean(x)
 #运行:
 [1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
  • <、<=、>、>=、!= 逻辑比较
  • log(),log2(),log10()
  • min_rank() 排序函数,用于最常规的排秩
  • min_rank(desc())则是倒序排秩
    注意!min_rank() 是给出每个数据的排名,而不是把数据本身从大到小排列!
  • row_number()、dense_rank()、percent_rank()、cume_dist()、ntile()等等
y <- c(1,4,6,3,8,4,5,0)
min_rank(y) 
#运行:
[1] 2 4 7 3 8 4 6 1
min_rank(desc(y)) 
#运行:
[1] 7 4 2 6 1 4 3 8
min_rank(y) 
#运行:
[1] 2 4 7 3 8 4 6 1
row_number(y)
#运行:
[1] 2 4 7 3 8 5 6 1
dense_rank(y)
#运行:
[1] 2 4 6 3 7 4 5 1
percent_rank(y)
#运行:
[1] 0.1428571 0.4285714 0.8571429 0.2857143 1.0000000 0.4285714 0.7142857 0.0000000
cume_dist(y)
#运行:
[1] 0.250 0.625 0.875 0.375 1.000 0.625 0.750 0.125
ntile(y)
#运行:
Error in ntile(y) : argument "n" is missing, with no default
ntile(y,3)
#运行:
[1] 1 2 3 1 3 2 2 1

函数众多,可以自己在系统中查看帮助文档:

help(ntile)
help(cume_dist)
#运行后系统自动展示函数的基本说明

注意:进行复杂的运算时,形成立刻赋值给新变量的好习惯,便于检查

有关R语言初步-数据转换-4.mutate()函数的更多相关文章

  1. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

    我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

  2. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

  3. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  4. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  5. ruby - 将数组的内容转换为 int - 2

    我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值,但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗?ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案 只需将数组映射为整数:@land边注如果你想得到一条线的平均值,你可以这样做:values=@input[x]

  6. ruby - 将散列转换为嵌套散列 - 2

    这道题是thisquestion的逆题.给定一个散列,每个键都有一个数组,例如{[:a,:b,:c]=>1,[:a,:b,:d]=>2,[:a,:e]=>3,[:f]=>4,}将其转换为嵌套哈希的最佳方法是什么{:a=>{:b=>{:c=>1,:d=>2},:e=>3,},:f=>4,} 最佳答案 这是一个迭代的解决方案,递归的解决方案留给读者作为练习:defconvert(h={})ret={}h.eachdo|k,v|node=retk[0..-2].each{|x|node[x]||={};node=node[x]}node[

  7. ruby - 在没有 sass 引擎的情况下使用 sass 颜色函数 - 2

    我想在一个没有Sass引擎的类中使用Sass颜色函数。我已经在项目中使用了sassgem,所以我认为搭载会像以下一样简单:classRectangleincludeSass::Script::FunctionsdefcolorSass::Script::Color.new([0x82,0x39,0x06])enddefrender#hamlengineexecutedwithcontextofself#sothatwithintemlateicouldcall#%stop{offset:'0%',stop:{color:lighten(color)}}endend更新:参见上面的#re

  8. ruby-on-rails - 在 ruby​​ 中使用 gsub 函数替换单词 - 2

    我正在尝试用ruby​​中的gsub函数替换字符串中的某些单词,但有时效果很好,在某些情况下会出现此错误?这种格式有什么问题吗NoMethodError(undefinedmethod`gsub!'fornil:NilClass):模型.rbclassTest"replacethisID1",WAY=>"replacethisID2andID3",DELTA=>"replacethisID4"}end另一个模型.rbclassCheck 最佳答案 啊,我找到了!gsub!是一个非常奇怪的方法。首先,它替换了字符串,所以它实际上修改了

  9. ruby - 在 Ruby 中有条件地定义函数 - 2

    我有一些代码在几个不同的位置之一运行:作为具有调试输出的命令行工具,作为不接受任何输出的更大程序的一部分,以及在Rails环境中。有时我需要根据代码的位置对代码进行细微的更改,我意识到以下样式似乎可行:print"Testingnestedfunctionsdefined\n"CLI=trueifCLIdeftest_printprint"CommandLineVersion\n"endelsedeftest_printprint"ReleaseVersion\n"endendtest_print()这导致:TestingnestedfunctionsdefinedCommandLin

  10. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

随机推荐