lm 默认设置model = TRUE,这意味着用于学习的整个数据集被复制并与拟合对象一起返回。这由 predict 使用,但会产生内存开销(示例如下)。
我想知道,复制的数据集是否用于 predict 以外的任何其他原因?
不是必须回答,但我也想知道出于 predict 以外的原因存储数据的模型。
object.size(lm(mpg ~ ., mtcars))
#> 45768 bytes
object.size(lm(mpg ~ ., mtcars, model = FALSE))
#> 28152 bytes
更大的数据集 = 更大的开销。
为了分享我的动力,twidlr包强制用户在使用 predict 时提供数据。如果这使得在学习时复制数据集变得不必要,那么默认为 model = FALSE 来节省内存似乎是合理的。我打开了一个相关问题 here .
次要动机 - 您可以使用 pipelearner 轻松拟合许多模型,例如 lm ,但每次复制数据都会产生巨大的开销。所以找到减少内存需求的方法会非常方便!
最佳答案
我认为返回模型框架是为了防止非标准评估。
我们来看一个小例子。
dat <- data.frame(x = runif(10), y = rnorm(10))
FIT <- lm(y ~ x, data = dat)
fit <- FIT; fit$model <- NULL
有什么区别
model.frame(FIT)
model.frame(fit)
??检查 methods(model.frame) 和 stats:::model.frame.lm 表明,在第一种情况下,模型框架是从 FIT$model 中有效提取的;而在第二种情况下,它将由 fit$call 和 model.frame.default 重构。这样的差异也导致了两者之间的差异
# depends on `model.frame`
model.matrix(FIT)
model.matrix(fit)
因为模型矩阵是从模型框架构建的。如果我们进一步挖掘,我们会发现这些也是不同的,
# depends on `model.matrix`
predict(FIT)
predict(fit)
# depends on `predict.lm`
plot(FIT)
plot(fit)
请注意,这可能是问题所在。如果我们故意去掉dat,我们无法重建模型框架,那么这一切都会失败:
rm(dat)
model.frame(fit)
model.matrix(fit)
predict(fit)
plot(fit)
在使用 FIT 时会起作用。
这还不够糟糕。下面这个非标准评价下的例子真的很糟糕!
fitting <- function (myformula, mydata, keep.mf = FALSE) {
b <- lm(formula = myformula, data = mydata, model = keep.mf)
par(mfrow = c(2,2))
plot(b)
predict(b)
}
现在让我们再次创建一个数据框(我们之前已将其删除)
dat <- data.frame(x = runif(10), y = rnorm(10))
你能看到吗
fitting(y ~ x, dat, keep.mf = TRUE)
有效但
fitting(y ~ x, dat, keep.mf = FALSE)
失败了?
这是我在一年前回答/调查的一个问题:R - model.frame() and non-standard evaluation它被要求提供 survival 包。这个例子真的很极端:即使我们提供 newdata,我们仍然会出错。保留模型框架是唯一的方法!
最后关于您对内存成本的观察。事实上,$model 并不主要负责潜在的大型 lm 对象。 $qr 是,因为它与模型矩阵具有相同的维度。考虑一个包含很多因素的模型,或者像 bs、ns 或 poly 这样的非线性项,与模型矩阵相比,模型框架要小得多。因此省略模型帧返回无助于减小 lm 对象大小。这实际上是开发 biglm 的动机之一。
由于我不可避免地提到了biglm,我再次强调,这种方法只有助于减少最终模型对象的大小,而不是模型拟合期间的RAM使用量。
关于r - `lm` 是否由于 `model` 以外的原因返回 `predict`,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44730860/
这似乎应该有一个直截了当的答案,但在Google上花了很多时间,所以我找不到它。这可能是缺少正确关键字的情况。在我的RoR应用程序中,我有几个模型共享一种特定类型的字符串属性,该属性具有特殊验证和其他功能。我能想到的最接近的类似示例是表示URL的字符串。这会导致模型中出现大量重复(甚至单元测试中会出现更多重复),但我不确定如何让它更DRY。我能想到几个可能的方向...按照“validates_url_format_of”插件,但这只会让验证干给这个特殊的字符串它自己的模型,但这看起来很像重溶液为这个特殊的字符串创建一个ruby类,但是我如何得到ActiveRecord关联这个类模型
我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中,我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返
这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加?这是我的解决方案,但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife
我有一个包含多个键的散列和一个字符串,该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么,如果包含,则返回它包含的键的值?例如,对于上面的h和s的例子,输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。 最佳答案
我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查
我的日期格式如下:"%d-%m-%Y"(例如,今天的日期为07-09-2015),我想看看是不是在过去的七天内。谁能推荐一种方法? 最佳答案 你可以这样做:require"date"Date.today-7 关于ruby-检查日期是否在过去7天内,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/32438063/
这里有一个很好的答案解释了如何在Ruby中下载文件而不将其加载到内存中:https://stackoverflow.com/a/29743394/4852737require'open-uri'download=open('http://example.com/image.png')IO.copy_stream(download,'~/image.png')我如何验证下载文件的IO.copy_stream调用是否真的成功——这意味着下载的文件与我打算下载的文件完全相同,而不是下载一半的损坏文件?documentation说IO.copy_stream返回它复制的字节数,但是当我还没有下
我们的git存储库中目前有一个Gemfile。但是,有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它,我必须将它添加到我们的Gemfile中,但每次我checkout到我们的master/dev主分支时,由于与跟踪的gemfile冲突,我必须删除它。我想要的是类似Gemfile.local的东西,它将继承从Gemfile导入的gems,但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗? 最佳答案 设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI