草庐IT

nokogiri_object

全部标签

ruby - 使用 open-uri 和 nokogiri 在完全加载之前读取 HTML

我正在使用open-uri和nokogiri以及ruby​​来进行一些简单的网络爬虫。有一个问题,有时html在完全加载之前就被读取了。在这种情况下,我无法获取加载图标和导航栏以外的任何内容。告诉open-uri或nokogiri等待页面完全加载的最佳方法是什么?目前我的脚本是这样的:require'nokogiri'require'open-uri'url="https://www.the-page-i-wanna-crawl.com"doc=Nokogiri::HTML(open(url,ssl_verify_mode:OpenSSL::SSL::VERIFY_NONE))puts

ruby-on-rails - rails : replacing try with the Null Object Pattern

在我的大多数应用程序中,我都有一个current_user方法。为了避免像current_user.name这样的情况出现异常,其中current_user是nil,rails提供了try方法。这个问题是我需要记住在current_user可能是nil的地方使用try。我想使用NullObject模式来消除这种额外的开销。classNullUserdefmethod_missing(method_name,*args)nilendenddefcurrent_userreturnNullUser.newunlessUserSession.find@current_user||=UserS

ruby - 在 Ruby 中使用 Nokogiri 解析 HTML

使用此HTML代码:....................如何使用Nokogiri选择类为1的第二个或第三个div? 最佳答案 您可以使用Ruby将大型结果集缩减为特定项目:page.css('div.one')[1,2]#Twoitemsstartingatindex1(2nditem)page.css('div.one')[1..2]#Itemswithindicesbetween1and2,inclusive因为Ruby索引从零开始,所以你必须注意你想要的项目。或者,您可以使用CSS选择器来查找nthitem:#Second

ruby - 我们可以一起使用 selenium-webdriver 和 nokogiri 吗?

我使用Nokogiri如下:require'nokogiri'require'open-uri'#GetaNokogiri::HTML::Documentforthepagewe’reinterestedin...doc=Nokogiri::HTML(open('http://www.google.com/search?q=sparklemotion'))但是我不好,可能是由于公司的防火墙,我得到了错误:C:/Ruby193/lib/ruby/1.9.1/net/http.rb:762:in`initialize':getaddrinfo:Nosuchhostisknown.(Sock

objective-c - Ruby ||= Objective-C 中的等价物

我最近一直在学习ruby​​,并且基本上爱上了||=特性,因为它可以使在ObjectiveC中编写惰性getter变得更加容易。目前我写的getter如下:-(NSArray*)myArray{if(!_myArray){_myArray=[NSArrayarray];}return_myArray}除非我遗漏了||=的某些内容,否则我将能够使用Ruby编写以前的代码:-(NSArray*)myArray{return_myArray||=[NSArrayarray];}那显然更干净了。Objective-C语言/运行时中是否有任何东西可以让您做到这一点?此外,以下是getter的单行

ruby - main :Object (NoMethodError) though method is defined 的未定义方法

我已经使用以下代码片段定义了一个脚本:check_paramsparamdefcheck_params(param)#somecodeend当我运行它时,我得到了undefinedmethod`check_params'formain:Object(NoMethodError) 最佳答案 Ruby期望方法在你调用它之前被声明,尝试在你调用方法之前移动你的方法定义:defcheck_params(param)#somecodeendcheck_paramsparam 关于ruby-main

ruby - 通过 Nokogiri 获取可见的文本词

我想用Nokogiri打开一个网页,提取用户在浏览器中访问该页面时看到的所有词,并分析词频。使用nokogiri从html文档中获取所有可读单词的最简单方法是什么?理想的代码片段应该是一个html页面(比如一个文件),并给出一组来自所有类型可读元素的单个单词。(无需担心javascript或css隐藏元素并因此隐藏单词;所有设计用于显示的单词都可以。) 最佳答案 你想要Nokogiri::XML::Node#inner_text方法:require'nokogiri'require'open-uri'html=Nokogiri::H

ruby - 使用 Nokogiri 拆分 BR 标签上的内容

我有一段代码试图用nokogiri解析,看起来像这样:Link1(info1),Blah1,Link2(info1),Blah1,Link3(info2),Blah1Foo2,我可以使用如下方式访问td.j的源代码:data_items=doc.css("td.j")我的目标是将每一行拆分成一个哈希数组。我能看到的唯一合乎逻辑的拆分点是拆分BR,然后在字符串上使用一些正则表达式。我想知道是否有更好的方法来做到这一点,也许只使用nokogiri?即使我可以使用nokogiri来提取3个行项目,它也会使我的事情变得更容易,因为我可以对.content结果进行一些正则表达式解析。但不确定如何

ruby-on-rails - XPath 或 CSS 解析速度更快(对于 HTML 文件上的 Nokogiri)?

我想知道NokogiriXPath或CSS解析是否可以更快地处理HTML文件。速度有何不同? 最佳答案 Nokogiri没有XPath或CSS解析。它将XML/HTML解析为单个DOM,然后您可以使用CSS或XPath语法进行查询。CSS选择器在要求libxml2执行查询之前在内部转换为XPath。因此(对于完全相同的选择器)XPath版本会快一点点,因为CSS不需要先转换成XPath。但是,您的问题没有通用答案;这取决于您选择的是什么,以及您的XPath是什么样的。很有可能,您不会编写与Nokogiri创建的相同的XPath。例如

论文解读OTA: Optimal Transport Assignment for Object Detection

CSDN优秀解读:https://blog.csdn.net/jiaoyangwm/article/details/1266387752021https://arxiv.org/pdf/2103.14259.pdf关键解读在目标检测中标签分配的最新进展主要寻求为每个GT对象独立定义正/负训练样本。在本文中,我们创新性地从全局的角度重新审视标签分配,并提出将分配程序制定为一个最优传输(OT)问题——优化理论中一个被充分研究的课题。具体来说,我们将每个需求方(锚框)和供应商(GT标签)的单位传输成本定义为他们的分类和回归损失加权之和。在公式化后,找到最好的分配方案即为最小传播成本解决最优传输方案,