草庐IT

Day6-dplyr-S

Sun506 2023-03-28 原文

安装R包

options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) 
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") 
install.packages("dplyr")
library(dplyr)

读取iris数据

test <- iris[c(1:2,51:52,101:102),]
head(test)#有5列

1.新增列

  • 新增一列:方法一
    mutate(test, new = Sepal.Length * Sepal.Width)
  • 新增一列:方法二
    test$new<-test$Sepal.Length*test$Sepal.Width
    head(test)
  • 新增一列:方法三(transform)
test <- iris[c(1:2,51:52,101:102),]
transform(test,new=Sepal.Length * Sepal.Width)
  • 新增一列:方法四(transform)
attach(test)
test$new<-Sepal.Length*Sepal.Width 

2.按列筛选

  • 方法一:dplyr::select
#按照下标或者名字
select(test,1)
select(test,Sepal.Length)
select(test,c(1,5))
select(test, Petal.Length, Petal.Width)
#筛选并且重命名
test %>% select(Length=Petal.Length,Width=Petal.Width)#可以用 %>% 
select(test,Length=Petal.Length,Width=Petal.Width)
select(test,Length=1,Width=2)
#选择多列时可以用这个方法
vars <- c("Petal.Length", "Petal.Width")
select(test, one_of(vars))
#提取Sepal 开头的列
select(test,starts_with("Sepal"))
#提取h结尾的列
select(test,ends_with("h"))
#提取包含.的列
select(test,contains("."))
#提取匹配数字的列:
test %>% select_if(is.numeric)
#匹配为因子的列:
test %>% select_if(is.factor)
#注意MASS包也有select,此时可以
library(tidyverse)
select = dplyr::select
  • 方法二
test[,c(1,5)]
t=test[,1]#此方法提取单列时会变为Values
class(t)
  • 方法三
    test$Sepal.Length

3.筛选行

test <- iris[c(1:2,51:52,101:102),]

  • 方法一:dplyr::filter
filter(test, Species == "setosa")
filter(test, Species == "setosa"&Sepal.Length > 5 )#两个条件都符合;
filter(test, Species %in% c("setosa","versicolor"))
#基于逻辑筛选
filter(condition1,condition2)#两个条件都符合;
filter(condition1,!condition2)#条件1是TRUE,条件2是FALSE;
filter(condition1 | condition2)#两个条件符合其中一个即可;
filter(xor(condition1, condition2)#只有一个条件符合!两个都符合不可以。注意使用
  • 方法二
    test[1,]

4.排序

  • 方法一:dplyr::arrange
arrange(test, Sepal.Length)#默认从小到大排序
arrange(test, desc(Sepal.Length))#用desc从大到小
  • 方法二:order返回的是下标排名
test[order(test$Sepal.Length),] 
test[order(test$Sepal.Length,test$Sepal.Width),] #先按照Sepal.Length排序,再Sepal.Width排序
  • 方法三:sort返回的是具体数值
sort(test$Sepal.Length)
test[sort(test$Sepal.Length),]#这样得不到想要的结果

5.summarise():汇总

summarise(test, mean(Sepal.Length), sd(Sepal.Length))# 计算Sepal.Length的平均值和标准差
# 先按照Species分组,计算每组Sepal.Length的平均值和标准差
group_by(test, Species)
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))

6.管道操作 %>%

test %>% 
  group_by(Species) %>% 
  summarise(mean(Sepal.Length), sd(Sepal.Length))
#count统计某列的unique值
count(test,Species)

7.连接两个表

options(stringsAsFactors = F)
test1 <- data.frame(x = c('b','e','f','x'), 
                    z = c("A","B","C",'D'),
                    stringsAsFactors = F)
test1
test2 <- data.frame(x = c('a','b','c','d','e','f'), 
                    y = c(1,2,3,4,5,6),
                    stringsAsFactors = F)
test2
#1.內连inner_join,取交集
inner_join(test1,test2,by = "x")
#2.左连left_join
left_join(test1, test2, by = 'x')
left_join(test2, test1, by = 'x')
#3.全连full_join
full_join( test1, test2, by = 'x')
#4.半连接:返回能够与y表匹配的x表所有记录semi_join
semi_join(x = test1, y = test2, by = 'x')
#5.反连接:返回无法与y表匹配的x表的所记录anti_join
anti_join(x = test2, y = test1, by = 'x')

8.cbind():合并列,需要行相同。rbind():合并行,需要列相同

test1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
test1
test2 <- data.frame(x = c(5,6), y = c(50,60))
test2
test3 <- data.frame(z = c(100,200,300,400))
test3
rbind(test1, test2)
cbind(test1, test3)

有关Day6-dplyr-S的更多相关文章

  1. ruby-on-rails - rails : Find tasks that were created on a certain day? - 2

    我有一个任务列表(名称、starts_at),我试图在每日View中显示它们(就像iCal)。deftodays_tasks(day)Task.find(:all,:conditions=>["starts_atbetween?and?",day.beginning,day.ending]end我不知道如何将Time.now(例如“2009-04-1210:00:00”)动态转换为一天的开始(和结束),以便进行比较。 最佳答案 deftodays_tasks(now=Time.now)Task.find(:all,:conditio

  2. 什么是0day漏洞?如何预防0day攻击? - 2

    什么是0day漏洞?0day漏洞,是指已经被发现,但是还未被公开,同时官方还没有相关补丁的漏洞;通俗的讲,就是除了黑客,没人知道他的存在,其往往具有很大的突发性、破坏性、致命性。0day漏洞之所以称为0day,正是因为其补丁永远晚于攻击。所以攻击者利用0day漏洞攻击的成功率极高,往往可以达到目的并全身而退,而防守方却一无所知,只有在漏洞公布之后,才后知后觉,却为时已晚。“后知后觉、反应迟钝”就是当前安全防护面对0day攻击的真实写照!为了方便大家理解,中科三方为大家梳理当前安全防护模式下,一个漏洞从发现到解决的三个时间节点:T0:此时漏洞即0day漏洞,是已经被发现,还未被公开,官方还没有相

  3. ruby - Rails 比较 date.end_of_day.to_datetime 和 date.to_datetime.end_of_day 返回的日期对象值时返回 false - 2

    ruby1.9.3dev(2011-09-23修订版33323)[i686-linux]轨道3.0.20最近为什么在与DateTimeonRails相关的RSpecs项目上工作我发现在给定日期以下语句发出的值date.end_of_day.to_datetime和date.to_datetime.end_of_day虽然它们表示相同的日期时间,但比较时返回false。为了确认这一点,我打开了Rails控制台并尝试了以下操作1.9.3dev:053>monday=Time.now.monday=>2013-02-2500:00:00+05301.9.3dev:054>monday.cla

  4. Ruby,从 Date.day_fraction_to_time 获取小时、秒和时间 - 2

    我找到了这个方法here.start=DateTime.nowsleep15stop=DateTime.now#minutesputs((stop-start)*24*60).to_ihours,minutes,seconds,frac=Date.day_fraction_to_time(stop-start)我有以下错误:`':privatemethod`day_fraction_to_time'calledforDate:Class(NoMethodError)我检查了/usr/lib/ruby/1.9.1/date.rb并找到了它:defday_fraction_to_time(

  5. Ruby strftime : Day without leading zero, %e 不工作 - 2

    我正在尝试用没有前导零的日期来格式化日期使用%d它工作正常,但前导零date_time.strftime("%d/%m/%y")result:04/01/11我搜索了一下,发现我应该使用%e而不是%d,但是执行以下操作会得到一个空字符串。date_time.strftime("%e/%m/%y")result:这跟Ruby的版本有关系吗?我在Windows机器上使用v1.8.7。更重要的是,是否有另一种方法可以在没有前导零的情况下完成一天(比gsub更方便)? 最佳答案 如果你想删除月份或日期的前导零,只需在格式前添加一个减号,如下

  6. ruby-on-rails - Rails : Date. 今天 - 1.day - 2

    使用rails控制台,我只是被这个咬住了:假设今天是12月11日。Date.today-1.day#December10(nospaces)Date.today-1.day#December10(aspaceonbothsidesoftheminussign)Date.today-1.day#December11whaaaat?Date.today-5.days#Stilldecember11!有人能解释一下这是怎么回事吗?我有点担心这在代码中很容易被遗漏。关于如何对此进行编码还有其他建议吗? 最佳答案 您看到的差异是由ruby​​

  7. day1-数组part01| 704. 二分查找、27. 移除元素 - 2

    数组理论基础数组是存放在连续内存空间上的相同类型数据的集合。数组下标从0开始数组内存空间的地址是连续的c++中vector和array的区别1、vector是顺序容器,其利用连续的内存空间来存储元素,但是其内存空间大小是能够改变的。2、array是顺序容器,其也是利用连续的内存空间来存储元素,但它的内存空间是固定大小的,申请之后就无法改变。3、vector的底层是array实现的二维数组二维数组在内存的空间地址是连续的704|二分查找思路1、把整个数组一分为二;2、判断目标值在左区间还是右区间,若在左区间,则修改右区间指针的位置;若在右区间,则修改新区间的左区间位置3、重复上述过程,直到lef

  8. day44|● 完全背包● 518. 零钱兑换 II ● 377. 组合总和 Ⅳ - 2

    518.零钱兑换II1.代码classSolution{public:intchange(intamount,vector&coins){vectorf(amount+1,0);f[0]=1;for(inti=0;i2.动规五部曲1.确定dp数组和其下标含义由题目说可知求选择钱票得到总和为target的方案数,dp[j]相当于选择物品体积相加为i的方案数2.递推公式每次加入物品,都有可能到达体积j,所以在每次加上这个物品到达j时加上这个方案数f[j]+=f[j-coins[i]];3.初始化因为在for循环和dp公式中没有确切的值,肯定需要初始化,初始化第一个就可以保证后面的推导出来了,f[0

  9. 代码随想录day2|有序数组的平方、长度最小的子数组、螺旋矩阵 - 2

    前言:今天去校医院拔了两颗牙,太痛了,今天写的博客就比较水。1、有序数组的平方(双指针法)classSolution{public:vectorsortedSquares(vector&nums){intk=nums.size()-1;vectorresult(nums.size(),0);//创造一个数组result长度与nums相同for(inti=0,j=nums.size()-1;i2、长度最小的子数组(滑动窗口)classSolution{public:intminSubArrayLen(inttarget,vector&nums){intresult=INT32_MAX;//返回值

  10. javascript - 在自定义日历中自动突出显示 "rest of day" - 2

    我正在使用vanillaJS创建一个事件调度程序。我目前正在研究通过将鼠标“拖动”到所需时间来突出显示时间跨度的能力。我已经让它工作得很好,但我希望如果用户从一天(例如星期一)开始拖动到下一天(例如星期二),则当天剩余的时间会自动突出显示。换句话说,如果您从星期一凌晨03点开始突出显示并拖到星期二凌晨5点,则突出显示区域应自动为星期一03-07和星期二00-05。我几乎可以正常工作了,但是所有这些坐标和计算让我头晕目眩。我们非常欢迎任何帮助或指导。这是我遇到问题的片段:if((j>=(startCol-1)&&j=(startRow-1)&&i(startCol-1))&&(j=(st

随机推荐