草庐IT

解析HTML

全部标签

ruby - 我如何 robuSTLy 解析格式错误的 CSV?

我正在处理来自政府来源(FEC、州选民数据库等)的数据。它的格式不一致,以各种令人愉快的方式破坏了我的CSV解析器。它是外部来源和权威的。我必须解析它,我不能让它重新输入、在输入时验证等等。就是这样;我不控制输入。属性:字段包含格式错误的UTF-8(例如Foo\xABbar)行的第一个字段指定已知集中的记录类型。了解记录类型,您就会知道有多少个字段以及它们各自的数据类型,但直到您知道为止。文件中的任何给定行都可以使用带引号的字符串("foo",123,"bar")或不带引号的字符串(foo,123,bar)。我还没有遇到它在给定行中混合的任何地方(即"foo",123,bar),但它可

ruby - 使用 FasterCSV gem 克服 CSV 解析的基本问题

我发现了FasterCSV(1.5.0)的CSV解析问题,这似乎是一个真正的错误,但我希望有一个解决方法。基本上,当字段用引号引起来时,在分隔符后添加一个空格(在我的例子中是逗号)会生成MalformedCSVError。这是一个简单的例子:#Noquotesonfields--worksfineFasterCSV.parse_line("one,two,three")=>["one","two","three"]#Quotesaroundfieldswithnospacesafterseparators--worksfineFasterCSV.parse_line("\"one\",

Ruby CSV 解析带有转义引号的字符串

我的CSV文件中有一行包含一些转义引号:173,"Yukihiro\"TheRubyGuy\"Matsumoto","Japan"当我尝试使用RubyCSV解析器解析它时:require'csv'CSV.foreach('my.csv',headers:true,header_converters::symbol)do|row|putsrowend我收到这个错误:.../1.9.3-p327/lib/ruby/1.9.1/csv.rb:1914:in`block(2levels)inshift':Missingorstrayquoteinline122(CSV::MalformedCS

ruby - 如何解析 URL 并提取所需的子字符串

假设我有这样一个字符串:"http://something.example.com/directory/"我想做的是解析这个字符串,并从字符串中提取"something"。第一步,显然要检查以确保字符串包含"http://"-否则,它应该忽略该字符串。但是,我如何才能提取该字符串中的"something"?假设这将要评估的所有字符串都具有相似的结构(即我正在尝试提取URL的子域-如果正在检查的字符串确实是一个有效的URL-其中有效以"http://").谢谢。附言我知道如何检查第一部分,即我可以简单地在"http://"处拆分字符串,但这并不能解决全部问题,因为这会产生"http://

ruby-on-rails - 在带有 HTTPParty 的 Controller 中解析 JSON

在我的Controller中,我有以下代码...response=HTTParty.get('https://graph.facebook.com/zuck')logger.debug(response.body.id)我收到一个NoMethodError/undefined方法`id'如果我这样做...logger.debug(response.body)它按预期输出...{"id":"4","name":"MarkZuckerberg","first_name":"Mark","last_name":"Zuckerberg","link":"http:\/\/www.faceboo

ruby-on-rails - Rails 如何解析文本/事件流?

我有一个APIurl,它是内容类型为数据流的:text/event-stream。怎么可能收听流?喜欢订阅每个事件来打印数据?我尝试使用ruby​​库em-eventsource我的test.rb文件:require"em-eventsource"EM.rundosource=EventMachine::EventSource.new("my_api_url_goes_here")source.messagedo|message|puts"newmessage#{message}"endsource.startend当我访问我的apiurl时,我可以看到每秒更新的数据。但是当我在终端中

ruby - 使用 Poltergeist 时如何获取元素的 HTML?

我正在使用带有Poltergeist驱动程序的Capybara。我的问题是:如何获取节点的HTML(字符串)?我读到过使用RackTest驱动程序你可以像这样得到它:find("table").native#=>nativeNokogirielementfind("table").native.to_html#=>"..."但是Poltergeist在节点上调用#native会返回Capybara::Poltergeist::Node,而不是原生的Nokogiri元素。然后在Capybara::Poltergeist::Node上再次调用#native再次返回相同的Capybara::

ruby - Nokogiri 保持 HTML 实体不变

我希望Nokogiri保持HTML实体不变,但它似乎正在将实体转换为实际符号。例如:Nokogiri::HTML.fragment('®').to_s结果:"®"似乎没有任何东西可以将原始HTML返回给我。.inner_html、.text、.content方法都返回'®'而不是'®'有没有办法让Nokogiri保持这些HTML实体不变?我已经搜索过stackoverflow并找到了类似的问题,但没有一个与这个问题完全相同。 最佳答案 这不是一个理想的答案,但您可以通过设置允许的编码来强制它生成实体(如果不是好听的名

ruby-on-rails - 当不应显示属性时,删除 slim 中的 HTML 标记属性

当类不应在Slim中显示时,我想删除类属性。在ERB中,我可以使用:/>我如何在Slim中执行此操作?我找到了这个,但我觉得必须有一个更惯用的解决方案:| 最佳答案 如果一个属性的值为nil,那么整个属性将被忽略(实际上这发生在nil或false大多数情况下,但看起来class属性对于false和true的行为不同):inputclass=('foo'ifcondition)这将输出如果条件为真,并且如果condition为假。 关于ruby-on-rails-当不应显示属性时,删除sl

ruby - 解析 HTTParty 响应

我正在使用HTTParty提取Facebook用户的图书列表,但我在解析响应时遇到问题:Facebook以这种方式返回数据:{"data":[{"name":"Title","category":"Book","id":"21192118877902","created_time":"2011-11-11T20:50:47+0000"},{"name":"Title2","category":"Book","id":"1886126860176","created_time":"2011-11-05T02:35:56+0000"},然后HTTParty将其解析为ruby​​对象。我试过