parsing

jquery - 用于下载和解析网页的语言/库？

什么语言和库适合用脚本来解析和下载少量网络资源？例如，一些网站发布伪播客，但不是正确的RSS提要；他们只是定期发布一个MP3文件和一个包含播放列表的网页。我想编写一个脚本来定期运行并解析链接和播放列表信息的相关页面，下载MP3，并将播放列表放在MP3标签中，以便它在我的iPod中很好地显示。我也可以编写很多类似的应用程序。您会推荐什么语言？我希望脚本在Windows和MacOS上运行。以下是一些备选方案:JavaScript。这样我就可以使用jQuery进行解析。不过我不知道jQuery是否可以在浏览器之外工作。python。可能很好的图书馆支持做我想做的事。但我不喜欢Python语法

jquery 用于 strong section noreferrer ruby parsing clojure web-crawler

json - 从 Ruby 中的 JSON 文件解析并从嵌套哈希中提取数字

现在我正在使用Ruby从JSON文件中提取信息。那么我怎样才能从以下文本文件中只提取“分数”一词旁边的数字呢？例如，我想得到0.6748984055823062、0.6280145725181376等等。{"sentiment_analysis":[{"positive":[{"sentiment":"Popular","topic":"games","score":0.6748984055823062,"original_text":"Populargames","original_length":13,"normalized_text":"Populargames","normal

json Ruby 34 code normalized parsing

ruby-on-rails - Ruby Time.parse 给我超出范围的错误

我正在使用Time.parse从字符串创建时间对象。出于某种原因Time.parse("05-14-200919:00")导致参数我们的范围错误，而Time.parse("05-07-200919:00")没有有什么想法吗？最佳答案如果您知道字符串的格式，请使用:Time.strptime(date,format,now=self.now){|year|...}http://www.ruby-doc.org/core-1.9/classes/Time.html#M000266它将解决您的问题，并且可能比Time.parse更快。

ruby-on-rails rails code section Time ruby datetime

ruby - 解析日期如 1240915075

我正在学习编程，我选择Ruby作为第一门学习语言。我正在解析一个XML，其中日期采用这种形式:12409150751224855068这种格式怎么称呼？如何在日期或时间对象中使用该值？谢谢! 最佳答案这是UNIX时间(有时称为Epoch时间)。它测量自1970年1月1日以来经过的秒数(Unix纪元是1970年1月1日00:00:00UTC时间)这是一个示例转换器:http://www.esqsoft.com/javascript_examples/date-to-epoch.htm关于使用Ruby转换整数时间的stackoverf

1240915075 ruby section stackoverflow noreferrer parsing date

ruby - 你如何将一段文字解析成句子？ (最好用 Ruby)

考虑到Mr.andDr.和U.S.A等案例，您如何将段落或大量文本分解成句子(最好使用Ruby)？(假设你只是把句子放到一个数组的数组中)更新:我想到的一种可能的解决方案是使用词性标注器(POST)和分类器来确定句子的结尾:从琼斯先生那里获取数据当他走上意大利避暑别墅的阳台时，感受到温暖的阳光照在脸上。他很高兴还活着。分类器Mr./PERSONJones/PERSONfelt/Othe/Owarm/Osun/Oon/Ohis/Oface/Oas/Ohe/Ostepped/Oout/Oonto/Othe/Obalcony/Oof的/Ohis/Osummer/Ohome/Oin/OItal

句子 ruby section the text parsing split nlp

ruby-on-rails - Rails ActiveSupport 时间解析？

Rails'ActiveSupportmoduleextendsthebuiltinrubyTimeclasswithanumberofmethods.值得注意的是，有一个to_formatted_s方法，它让您可以编写Time.now.to_formatted_s(:db)来获取数据库格式的字符串，而不必到处写丑陋的strftime格式字符串。我的问题是，有没有办法倒退？类似于Time.parse_formatted_s(:db)的东西，它会解析数据库格式的字符串，返回一个新的Time对象。这似乎是Rails应该提供的东西，但如果是的话，我找不到它。是我找不到，还是需要自己写？谢谢

ruby-on-rails ActiveSupport Time code ruby parsing

ruby-on-rails - Ruby:从字符串中提取单词

我正在尝试从字符串中解析单词并将它们放入数组中。我试过以下方法:@string1="orienteddesign,decomposition,encapsulation,andtesting.Uses"puts@string1.scan(/\s([^\,\.\s]*)/)它似乎可以解决问题，但它有点不稳定(例如，我应该包括更多特殊字符)。在ruby中有更好的方法吗？可选:我有一个CS类(class)描述。我打算把里面的所有单词都提取出来放在一个字符串数组中，从生成的数组中去掉英语中最常见的单词，然后把剩下的单词作为标签，用户可以用来搜索cs类(class)。

ruby-on-rails 单词 section string1 ruby regex parsing

ruby-on-rails - 如何将 yaml 文件解析为 ruby 哈希和/或数组？

我需要加载一个yaml文件到Hash中，我应该怎么办？最佳答案我会使用类似的东西:hash=YAML.load(File.read("file_path")) 关于ruby-on-rails-如何将yaml文件解析为ruby哈希和/或数组？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/3481652/

ruby ruby-on-rails section stackoverflow questions parsing hash yaml

ruby-on-rails - 您将如何解析 Ruby 中的 url 以获取主域？

我希望能够使用Ruby解析任何URL以获取没有www的域的主要部分(只是example.com) 最佳答案请注意没有算法方法可以找到可以为特定顶级域注册域的最高级别(每个注册管理机构的政策不同)，唯一的方法是创建所有顶级域的列表以及域可以注册的级别。这就是为什么PublicSuffixList存在。我是PublicSuffix的作者，一个将域分解为不同部分的Ruby库。举个例子require'uri/http'uri=URI.parse("http://toolbar.google.com")domain=PublicSuffix

ruby-on-rails rails section domain google ruby parsing url dns

ruby - 从 href html 标签中使用 ruby 中的 nokogiri 提取链接(URL)？

我想从网页中提取所有URL，如何使用nokogiri做到这一点？例子:site1site2site3resultshouldbeanlist:l=['http://example.org/site/1/','http://example.org/site/2/','http://example.org/site/3/' 最佳答案你可以这样做:doc=Nokogiri::HTML.parse(site1site2site3site4site5site6HTML_ENDl=doc.css('div.heata').map{|link|

ruby nokogiri site example lt parsing

5 6 789 10 11