草庐IT

数据增强方法

全部标签

ruby - 在 Ruby 中解析大文件的最快方法

我有一个大约150MB的简单文本文件。我的代码将读取每一行,如果它与某些正则表达式匹配,它就会写入输出文件。但是现在,遍历文件的所有行(几分钟)只需要很长时间,就像File.open(filename).eachdo|line|#dosomestuffend我知道循环遍历文件行需要一段时间,因为即使我对“#dosomestuff”中的数据不做任何操作,它仍然需要很长时间。我知道一些unix程序几乎可以立即解析这样的大文件(比如grep),所以我想知道为什么ruby​​(MRI1.9)读取文件需要这么长时间,有什么方法可以让它更快吗? 最佳答案

ruby-on-rails - 在 Ruby 中运行 eval 有安全的方法吗?

我们正在开发一种与Tropo具有类似要求的产品(参见https://github.com/tropo/tropo-samples/tree/master/ruby),允许用户编写一个ruby​​脚本,该脚本可以访问传入的一些函数和变量。但是,我们希望避免用户访问全局调用删除所有用户或终止程序。有没有办法用eval来完成这个? 最佳答案 这在很大程度上取决于您如何实现它,但请研究绑定(bind)与eval的使用。通过创建您自己的绑定(bind)并使用“安全”对象预加载它,您可以限制用户可以使用他的代码执行的操作。http://rdoc

ruby - Rails 3 db :migrate 的未定义方法 `visitor'

我在Rails3中进行数据库迁移时遇到异常。undefinedmethod`visitor'for#编辑请查看解决方案here.在我的项目中没有出现字符串visitor所以我很困惑。这是完整的转储:$rakedb:migrate--trace**Invokedb:migrate(first_time)**Invokeenvironment(first_time)**Executeenvironment**Invokedb:load_config(first_time)**Invokerails_env(first_time)**Executerails_env**Executedb:l

ruby-on-rails - 使用 Gerrit 部署 Ruby on Rails 数据库

我正在考虑在我的下一个项目中使用RubyonRails。了解Rails网站的部署很容易理解(听起来我会使用PhusionPassenger)但现在我正试图找出数据库。我看到很多关于“数据库迁移”的内容,它允许我使用ruby​​代码更新数据库。我还看到我被允许创建这些迁移的up和down变体。但是,我只能理解这是如何在一个方向上干净利落地工作的。想象一下,如果我突然说“颜色列不能为空”。因此,up将使其成为必需项并为所有NULL条目提供默认值。但是向下会做什么呢?如果您关心它与它的开始方式相同,则不能将默认值设置回NULL。这对于发布到生产环境来说并不重要。这可能只会在一个方向上完成(在

ruby - RSpec 规范伪造类常量的最佳实践或解决方法

假设我有Car和Mechanic类(class)。汽车有“运行”方法。Mechanic出于某种原因需要Car。然后我编写RSpec规范。在mechanic中,我定义了一个这样的假类:classCar;end然后将mechanic在其上使用的方法stub。如果我单独运行测试,一切正常。但是当我一起运行两个测试时(rspecspec/directory/),我的Mechanicspecs使用真实的Car类。所以。我想这是因为ruby​​类是“开放的”,我已经为汽车规范加载了一次类。但是有更好的方法吗?这种情况的最佳做法是什么?这是否意味着我的代码需要一些改进,因为它可能是紧密耦合的?我在g

ruby-on-rails - 使用 API 获取数据时,最好将该数据存储在另一个数据库中,还是最好在需要时继续获取该数据?

这个问题在这里已经有了答案:CachingcallstoanexternalAPIinarailsapp(1个回答)关闭6年前。我正在使用TMDBapi来获取电影标题和发行年份等信息,但我想知道我是否需要创建一个额外的数据库来在本地存储所有这些信息,而不是继续使用api获取信息?例如,我是否应该创建一个电影模型并调用:film.title并通过这样做访问存储有标题的本地数据库,或者我调用:Tmdb::Movie.detail(550).title然后再调用一次api?

ruby - 在 ruby​​ 中模拟 3rd 方对象的最佳方法是什么?

我正在使用twittergem编写一个测试应用程序,我想编写一个集成测试,但我不知道如何模拟Twitter命名空间中的对象。这是我要测试的功能:defbuild_twitter(omniauth)Twitter.configuredo|config|config.consumer_key=TWITTER_KEYconfig.consumer_secret=TWITTER_SECRETconfig.oauth_token=omniauth['credentials']['token']config.oauth_token_secret=omniauth['credentials']['s

ruby-on-rails - rake 数据库 :migrate not working on my postgres db

好的,所以我有一个Rails应用程序,我试图在postgres数据库上运行迁移,我通常使用mysql,一切都很好,但是当我运行命令时,我得到了这个rakedb:migrate(in/Users/tamer/Sites/my_app)/Users/tamer/.rvm/gems/ruby-1.9.2-p290@my_app/gems/activerecord-3.0.3/lib/active_record/connection_adapters/postgresql_adapter.rb:487:[BUG]Segmentationfaultruby1.9.2p290(2011-07-09

ruby-on-rails - 我如何解析一个 Excel 文件,它会给我提供与视觉上完全一样的数据?

我正在使用Rails5(Ruby2.4)。我想阅读.xls文档,我想将数据转换为CSV格式,就像它出现在Excel文件中一样。有人推荐我使用Roo,所以我有book=Roo::Spreadsheet.open(file_location)sheet=book.sheet(0)text=sheet.to_csvarr_of_arrs=CSV.parse(text)但是,返回的内容与我在电子表格中看到的内容不同。例如,电子表格中的一个单元格有16:45.81当我从上面获取CSV数据时,返回的是"0.011641319444444444"如何解析Excel文档并准确获取我所看到的内容?我不在

ruby - 真正的 sinatra(ruby/rack) after_filter 最快的方法是什么?

好的,这是一个简单的任务。在我向客户端呈现html之后,我想使用请求中的信息执行数据库调用。我正在使用sinatra,因为它是一个轻量级的微框架,但我真的支持ruby​​中的任何东西,如果它更快/更容易(Rack?)。我只想获取url并根据url将客户端重定向到其他地方。那么如何使用rack/sinatra作为一个真正的after_filter。after_filter我的意思是在响应发送到客户端之后。还是没有线程就无法实现?我fork了sinatra并在过滤器之后添加,但是没有办法刷新响应,即使是假设流式传输文件(显然是二进制文件)的send_data也在等待after_filter