草庐IT

cricinfo记分卡的html解析

全部标签

ruby - 解析 100mb JSON 负载的有效方法

我每12小时在我的亚马逊EC2微型实例上运行一次cron作业。它下载118MB的文件并使用json库解析它。这当然会使实例内存不足。我的实例有416MB的可用内存,但随后我运行脚本,它下降到6MB,然后被操作系统杀死。我想知道我在这里有什么选择?是否可以通过Ruby有效地解析它,或者我是否必须下降到像C这样的低级东西?我可以获得一个功能更强大的亚马逊实例,但我真的很想知道是否可以通过Ruby做到这一点。更新:我看过yajl。它可以在解析时为您提供json对象,但问题是,如果您的JSON文件仅包含1个根对象,那么它将被迫解析所有文件。我的JSON看起来像这样:--Root-Obj1-Ob

ruby - 如何获取 ruby​​ Nokogiri NodeSet 的 inner_html 未转义?

我想从NokogiriNodeSet中获取未转义的内部html。有谁知道如何做到这一点? 最佳答案 有什么不妥吗?nodeset.inner_html 关于ruby-如何获取ruby​​NokogiriNodeSet的inner_html未转义?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/1762687/

Ruby 错误地解析了两位数的年份

Ruby正确解析第一个日期,但第二个日期不正确。使用ruby​​1.9.3和2.1.2测试。知道如何让它始终如一地工作吗?(我们将出生日期设为2位数年份)Date.strptime("10/11/89","%d/%m/%y")=>Fri,10Nov1989Date.strptime("15/10/63","%d/%m/%y")=>Mon,15Oct2063 最佳答案 strptime方法将文本“63”解析为2063年,而不是您想要的1963年。这是因为该方法使用POSIXstandard来决定世纪。.chronicgem也有类似的问

ruby - 如何在 Jekyll 中没有 html 扩展名的情况下使用 page.url 链接到页面?

我正在用Jekyll构建一个网站。为了删除帖子中的html扩展名,我将以下内容添加到_config.ymlpermalink:/kb/:title为了从页面中删除html扩展名,我为每个页面创建了文件夹,并在每个页面文件夹中放置了一个index.html文件。现在帖子和页面在没有html扩展名的情况下也能正常工作,但是当我使用page.url链接到页面时,它会返回整个链接(/kb/index.html)而不仅仅是/kb。我可以使用什么变量链接到没有html扩展名的页面? 最佳答案 {{page.url}}返回的值反射(reflect

ruby-on-rails - 如何使用 OptionParser 解析 rake 参数

引用thatanswer我试图使用OptionParser来解析rake参数。我从那里简化了示例,我必须添加两个ARGV.shift才能使其工作。require'optparse'namespace:userdo|args|#FixIhatetohavehereputs"ARGV:#{ARGV}"ARGV.shiftARGV.shiftputs"ARGV:#{ARGV}"desc'Createsuseraccountwithgivencredentials:rakeuser:create'#environmentisrequiredtohaveaccesstoRailsmodelsta

ruby - 为什么 "23 Dogs"在 pry 中被解析为 2015 年 11 月 23 日,但 "3 Dogs"给出解析器错误?

我在Twitter上找到了以下代码片段(查看帖子历史以获取来源)。[5]pry(main)>Date.parse('3Dogs')ArgumentError:invaliddate[6]pry(main)>Date.parse('23Dogs')=>Mon,23Nov2015这只是一个偷偷摸摸的彩蛋吗?如果是这样,为什么这个特定的日期和结果?如果不是彩蛋,为什么23Dogs解析为日期,但3Dogs不解析? 最佳答案 这与Pry无关。如果您检查Date::parse的文档你会看到,“如果可选的第二个参数[comp]为真[默认值]并且检

Ruby mp3 Id3解析

目前我正在从事一个音乐项目,处理用户上传的mp3。问题是我找不到对所有文件都能正常工作的id3库。我已经尝试过id3-ruby和Mp3Info库,但它们都没有给我始终如一的正确结果。例如,最常见的问题:错误的流参数(比特率和采样率,有时是持续时间)不支持扩展标签我决定添加一个表单,用户可以在其中提供艺术家和标题等可选信息;这有点帮助,但并没有完全解决问题。最有用、最强大的ruby​​ID3库是什么? 最佳答案 http://www.hakubi.us/ruby-taglib/我将它用于一个项目并且效果很好。taglib的包装器,非常

ruby - 在 Ruby 中解析二进制文件

我需要能够使用Ruby解析二进制文件。此文件包含通过header找到的数据block,header包括文件偏移量和每个block的长度。如何正确取出数据?到目前为止,我一直无法根据我读出的偏移量在文件中四处寻找,因为它们以我不知道如何转换为IO#seek理解的格式的字符串形式出现。有什么帮助吗?将偏移量和长度转换为可用值(如整数或其他值)的通用方法会有所帮助。 最佳答案 你想要String#unpack. 关于ruby-在Ruby中解析二进制文件,我们在StackOverflow上找到一

ruby - 使用 Nokogiri(而不是 Tidy)清理 HTML

tidygem不再维护并且存在多个内存泄漏问题。有些人建议使用Nokogiri。我目前正在使用以下方法清理HTML:Nokogiri::HTML::DocumentFragment.parse(html).to_html不过我有两个问题:Nokogiri删除了DOCTYPE有没有一种简单的方法可以强制清理后的HTML具有html和body标签? 最佳答案 如果您正在处理完整文档,您需要:Nokogiri::HTML(html).to_html这将强制html和body标签,并引入或保留DOCTYPE:putsNokogiri::HT

ruby-on-rails - 在尊重 CDATA 的同时转义 HTML 符号的正则表达式

我编写了一个内容管理系统,它使用服务器端正则表达式在将页面响应发送到客户端浏览器之前转义页面响应中的&符号。正则表达式注意已经转义或属于HTML实体一部分的&符号。例如,以下内容:a&b,c&d,©2009getschangedtothis:a&b,c&d,©2009(Onlythefirst&ismodified.)Hereistheregularexpression,whichwastakenandmodifiedfromaRailshelper:html.gsub(/&(?!([a-zA-Z][a-zA-Z0-9]*|(#\d+));)