草庐IT

网页作业

全部标签

ruby - 使用 Ruby 获取网页的所有链接

我正在尝试使用Ruby检索网页的每个外部链接。我将String.scan与此正则表达式一起使用:/href="https?:[^"]*|href='https?:[^']*/i然后,我可以使用gsub删除href部分:str.gsub(/href=['"]/)这工作正常,但我不确定它在性能方面是否有效。这可以使用还是我应该使用更具体的解析器(例如nokogiri)?哪种方式更好?谢谢! 最佳答案 使用正则表达式对于快速而肮脏的脚本来说很好,但Nokogiri使用起来非常简单:require'nokogiri'require'open

ruby - 在每天不同的时间设置一个 Whenever 作业

我正在尝试设置一个应该每天执行2次的Whenever作业,恰好在上午11点和晚上11点。有没有办法只用一个block来做到这一点?我的意思是这样的:every:day,:at=>['11am','11pm']dorunner"Task"end 最佳答案 Whenever现在支持问题中提出的语法。只需将数组传递给:at选项即可。every:day,at:["11am","11pm"]dorunner"Task"end 关于ruby-在每天不同的时间设置一个Whenever作业,我们在Sta

ruby-on-rails - Sidekiq:失败作业的重试更改率?

我有特定类型的作业,我希望重试的频率高于默认Sidekiq间隔设置的频率。这目前可能吗?理想情况下,作业将每5秒重试一次,最多一分钟。不完全确定这是目前插入Sidekiq作业的微不足道的事情。 最佳答案 根据:https://github.com/mperham/sidekiq/wiki/Error-Handling你可以这样做:classWorkerincludeSidekiq::Workersidekiq_retry_indo|count|5endend 关于ruby-on-rail

ruby - 如何使用 watir 滚动网页

我正在尝试滚动网页以查找并单击滚动页面时延迟加载的内容。我正在使用以下命令require'watir-webdriver'@browser=Watir::new:firefox@browser.send_keys:space我在firefox上使用网络驱动程序,我在ubuntu上,但它不工作。在下面的ruby​​代码中,我试图向下滚动页面,直到找不到带有:id的元素。该元素正在延迟加载。几秒钟后我超时了,不知道下面的代码有什么问题。When/^deal(\d+)isloaded$/do|id|(0..5).eachdo|click|@browser.send_keys:spaceend

ruby - 使用 Ruby 获取网页内容——我遇到了麻烦

我想从这个*页面中获取内容。我查找的所有内容都提供了解析CSS元素的解决方案;但是,那个页面没有。这是我发现的唯一看起来应该有效的代码:file=File.open('http://hiscore.runescape.com/index_lite.ws?player=zezima',"r")contents=file.readputscontents错误:tracker.rb:1:in'initialize':Invalidargument-http://hiscore.runescape.com/index_lite.ws?player=zezima(Errno::EINVAL)fr

ruby - sidekiq 取消计划作业列表

我有几个这样运行的预定作业:MyWorker.perform_at(3.hours.from_now,'mike',1)我在想,如果稍后,比如说一个小时后,我想取消这份工作,我会怎么做呢? 最佳答案 我最近写了一些代码来处理这个问题,它可以在我的sidekiq-statusgem分支中找到。您可以在此处查看或使用它:https://github.com/Robinson7D/sidekiq-status(目前,您必须将它用作gemfile中的git:信息,直到项目的主分支实现它)要使用它,首先要存储job_identifier:jo

ruby - Cron 作业无法加载 gem

我有一个连接到AmazonS3存储桶并下载最新生产备份的ruby​​脚本。我已经测试了脚本(非常简单)并且工作正常。但是,当我安排此脚本作为cron作业运行时,它似乎在加载Amazon(aws-s3)gem时失败。我的脚本的前几行如下所示:#!/usr/bin/envrubyrequire'aws/s3'正如我所说,当我手动运行此脚本时,它运行良好。当我通过计划的cron作业运行它时,它在尝试加载gem时失败了:`require':nosuchfiletoload--aws/s3(LoadError)此脚本的crontab如下所示:03***~/Downloader/download.

ruby - 同时运行延迟作业和 Sidekiq

我目前使用延迟作业来异步处理作业。我没有创建worker,而是经常使用.delay方法。我想转到Sidekiq,但是我的工作类型太多,无法确保所有工作都是线程安全的。所以我想并行运行DelayedJob和Sidekiq,并一次迁移一种类型的作业。既然DelayedJob和Sidekiq都提供了.delay方法,那么如何区分两者呢?还有其他潜在问题吗? 最佳答案 对于Sidekiq2.17.1及更高版本,在Rails初始化程序的某处,调用以下命令:Sidekiq.hook_rails!Sidekiq.remove_delay!并且您将

ruby-on-rails - 在 Heroku 上重启后长时间运行的 delayed_job 作业保持锁定状态

当Herokuworker重新启动时(根据命令或作为部署的结果),Heroku将SIGTERM发送到worker进程。对于delayed_job,SIGTERMsignaliscaught然后工作人员在当前作业(如果有)停止后停止执行。如果工作人员需要很长时间才能完成,那么Heroku将发送SIGKILL。在delayed_job的情况下,这会在数据库中留下一个锁定的作业,不会被其他工作人员接收。我想确保作业最终完成(除非出现错误)。鉴于此,解决这个问题的最佳方法是什么?我看到两个选项。但我想获得其他输入:修改delayed_job以在收到SIGTERM时停止处理当前作业(并释放锁定)

ruby - 每当 gem 并从偏移量开始每 n 分钟安排一次作业

出于惊人的目的,我尝试将作业安排为每5分钟运行一次的2分钟偏移。那就是我想要1个作业运行1,6,11,16..而另一个运行在2,7,12,17...我找不到执行此操作的示例。所以我尝试了:every5.minutes,:at=>1docommand"echo'youcanuserawcronsytaxtoo'"end这似乎可行,但所有“:at”示例看起来都期待字符串格式的时间。以上是否有效或恰好有效并且每个选项并不真正支持开始时间。 最佳答案 听起来这两个工作之间存在依赖关系,所以我认为有两种方法可以处理这个问题。如果你想在1、6、