我正在使用open-uri和nokogiri以及ruby来进行一些简单的网络爬虫。有一个问题,有时html在完全加载之前就被读取了。在这种情况下,我无法获取加载图标和导航栏以外的任何内容。告诉open-uri或nokogiri等待页面完全加载的最佳方法是什么?目前我的脚本是这样的:require'nokogiri'require'open-uri'url="https://www.the-page-i-wanna-crawl.com"doc=Nokogiri::HTML(open(url,ssl_verify_mode:OpenSSL::SSL::VERIFY_NONE))puts
给定以下内容,如何获取URL的完整路径uri=URI("http://foo.com/posts?id=30&limit=5#time=1305298413")我只想要posts?id=30&limit=5#time=1305298413我试过uri.path并返回/posts和ui.query返回'id=30&limit=5' 最佳答案 您要找的方法是request_uriuri.request_uri=>"/posts?id=30&limit=5"如果需要,您可以使用任何您想要删除前导/的方法。编辑:要获取#符号后的部分,请使用
require'net/http'require'rubygems'require'json'url=URI.parse('http://www.xyxx/abc/pqr')resp=Net::HTTP.get_response(url)#get_responsetakesanURIobjectdata=resp.bodyputsdata这是我在ruby中的代码,resp.data以xml形式提供给我数据。restapi默认返回xml数据,如果headercontent-type是application/json,则返回json。但我想要json格式的数据。为此我必须设置heade
我想使用Ruby的OpenURI检查该URL是否可以正常访问。所以我想查看它的响应代码(4xx或5xx表示错误等)是否可以找到? 最佳答案 您可以使用status方法返回包含状态代码和消息的数组。require"open-uri"open("http://www.example.org")do|f|putsf.base_uri#=>http://www.example.orgputsf.status#=>["200","OK"]end 关于ruby-URI响应代码,我们在StackOve
我有这个可以为我生成一个超链接:我希望它显示在td标签中,所以我想使用这个content_tag来帮助我:"example")%>我想要我的td中的超链接,所以我有这样的东西:,:class=>"example")%>但是我收到语法错误,我该怎么办? 最佳答案 内联:'example')%>或block形式:'example')do%> 关于ruby-on-rails-如何在RoR中使用content_tag嵌入标签?,我们在StackOverflow上找到一个类似的问题:
在我们的Rails应用中,我们有一个ControllerAction,它打开一个外部URL,并将它作为JSON返回给我们的前端使用。今天,我收到以下错误:Errno::EAFNOSUPPORT:协议(protocol)不支持地址族-socket(2)我们的开发人员建议,如果地址同时返回IPv6响应和IPv4响应,这就是错误。我们不支持IPv6,所以这可以解释它。这是触发请求的方法:defmedline_responseopen("http://apps.nlm.nih.gov/medlineplus/services/mpconnect_service.cfm?mainSearchCr
好的,这是一个简单的任务。在我向客户端呈现html之后,我想使用请求中的信息执行数据库调用。我正在使用sinatra,因为它是一个轻量级的微框架,但我真的支持ruby中的任何东西,如果它更快/更容易(Rack?)。我只想获取url并根据url将客户端重定向到其他地方。那么如何使用rack/sinatra作为一个真正的after_filter。after_filter我的意思是在响应发送到客户端之后。还是没有线程就无法实现?我fork了sinatra并在过滤器之后添加,但是没有办法刷新响应,即使是假设流式传输文件(显然是二进制文件)的send_data也在等待after_filter
我使用OpenURI库。object=open("http://example.com")如果http://example.com服务器代码响应等于200我的程序按预期运行。但是如果http://example.com服务器响应代码等于400(或其他),然后脚本中止并显示OpenURI::HTTPError:404NotFound。如果我使用“开始救援”构造并处理“HTTPError异常”,我可以避免这种情况。这是正确的方法吗?我应该使用Net/Http库而不是OpenURI来处理所有情况吗? 最佳答案 挽救OpenURI::HTT
在我的应用程序中,用户上传了一张图片,然后我将其放在S3上。该图像稍后用作div的背景,使用以下样式div#id{background:url('')no-repeat;}创意网址类似于:http://myhost.s3-website-us-east-1.amazonaws.com/27/display/608-(rec'd_021014)_user_image.jpg?1392767029如上所述,问题在于creative.url可以包含特殊字符(引号、括号等),并且根据http://www.w3.org/TR/CSS2/syndata.html#value-def-uri,它需要
我正在开发一个使用BungieOAuth使用thisgem进行身份验证的Rails应用程序.我在initializers/devise.rb中的配置如下:config.omniauth:bungie,ENV['CLIENT_ID'],ENV['CLIENT_SECRET'],ENV['X_API_KEY'],ENV['REDIRECT_URL']Bungie的开发人员门户需要使用HTTPS的重定向URL,因此我将我的应用程序推送到Heroku并使用了aredirect强制身份验证返回本地主机进行测试。使用这种方法,一切正常。但是,当我将应用程序推向生产环境时,Bungie对我的应用程序