草庐IT

Spark的常用SQL日期函数

全部标签

Spark RDD转换成DataFrame的两种方式

spark官方提供了两种方法实现从RDD转换到DataFrame。第一种方法是利用反射机制来推断包含特定类型对象的Schema,这种方式适用于对已知的数据结构的RDD转换; 第二种方法通过编程接口构造一个Schema,并将其应用在已知的RDD数据中。一、反射机制推断Schema实现反射机制Schema需要定义一个caseclass样例类,定义字段和属性,样例类的参数名称会被反射机制利用作为列名objectRddToDataFrameByReflect{//定义一个student样例类caseclassStudent(name:String,age:Int)defmain(args:Array[

ruby - Ruby 中优雅的日期解析

我在Controller操作中有两个日期参数,如果它们为零或解析失败,我想回退到默认值。不幸的是,如果解析失败,DateTime.strptime似乎会抛出异常,这迫使我写下这个怪物:starting=ifparams[:starting].present?beginDateTime.strptime(params[:starting],"%Y-%m-%d")rescue@meeting_range.firstendelse@meeting_range.firstend感觉不好的人。有没有什么方法可以使用不需要begin...rescueblock的Rubystdlib来解析日期?Ch

ruby - 如何在 Ruby 1.9.3 中获取今天的日期?

我正在使用Ruby1.9.3,当我执行Date.today时,我得到NoMethodError:undefinedmethodtoday'forDate:Class`我对此很困惑,因为它确实出现在documentation中.虽然我知道这是2.0的文档,但我看到的答案可以追溯到它在1.8.7中实现时的范围。这是在1.9中删除的吗? 最佳答案 您是否需要“日期”?>require'date'=>true>Date.today=># 关于ruby-如何在Ruby1.9.3中获取今天的日期?,

ruby-on-rails - 在 sum 函数中将 nil 视为零

我有一个Seller模型,其中有_manyItems。我想获得卖家所有商品的总售价。在seller.rb我有deftotal_item_costitems.to_a.sum(&:sale_price)end如果所有商品都有促销价,这会很好用。但是,如果它们尚未售出,则sale_price为零并且total_item_cost中断。在我的应用中,sale_price可以是nil或零。在我的total_item_cost方法中,如何将nil值视为零? 最佳答案 items.map(&:sale_price).compact.sum或it

ruby - 每个月用日期对象迭代

所以我有两个ruby​​Date对象,我想每个月迭代它们。例如,如果我有Date.new(2008,12)和Date.new(2009,3),它会生成2008-12、2009-1、2009-2、2009-3(当然是Date对象)。我尝试使用范围,但它每天都会产生。我看到了Date的步骤方法,但是它只允许我传递天数(每个月都有不同的天数)。有人有什么想法吗? 最佳答案 这是非常Ruby的东西:每个月的第一天(Date.new(2008,12)..Date.new(2011,12)).select{|d|d.day==1}它将为您提供范

ruby - 是否有针对 Ruby 的 ISO-8601 日期解析的完整实现?

Time.iso8601方法是ISO-8601的一个受限子集。它有什么局限性?有人知道Ruby的完整实现吗?我正在使用MRI1.8.7。更新看起来没有一个类可以处理所有各种8601日期和日期/时间组合。但是,我设法通过使用Date.parse和Time.iso8601方法解决了这些问题。缺点是您需要在代码中决定输入看起来像日期还是日期/时间。警告:时区差异Time.iso8601和Time.parse的行为不同。>>Time.parse("2010-09-06T12:27:00.10-05:00")=>MonSep0618:27:00+01002010>>Time.iso8601("2

ruby-on-rails - 为 Rails 3.1.1 关闭详细的 sql/ActiveRecord

尽管SQL/ActiveRecord调用的冗长功能在大多数情况下都很有用,但在我有一些循环正在进行的情况下,我想将其关闭。有没有办法关闭它?irb(main):055:0>City.first←[1m←[35mCityLoad(1.0ms)←[0mSELECT`cities`.*FROM`cities`LIMIT1=># 最佳答案 在控制台中:禁用:old_logger=ActiveRecord::Base.loggerActiveRecord::Base.logger=nil启用:ActiveRecord::Base.logger

ruby-on-rails - 文字和构造函数之间的区别? ([] 与 Array.new 和 {} 与 Hash.new)

我很想知道[]和Array.new以及{}和Hash.new之间的更多区别我对它进行了相同的基准测试,似乎简写是赢家require'benchmark'many=500000Benchmark.bmdo|b|b.report("[]\t"){many.times{[].object_id}}b.report("Array.new\t"){many.times{Array.new.object_id}}b.report("{}\t"){many.times{{}.object_id}}b.report("Hash.new\t"){many.times{Hash.new.object_id

Spark Kafka流媒体 - 如何确定批次的末端

我使用Kafka流媒体从KAFKA主题中消费。(KafkaDirect流)此主题中的数据每5分钟从另一个来源到达。现在,我需要处理每5分钟后到达的数据,并将其转换为SparkDataFrame。现在,流是数据的连续流。我的问题是,如何确定我已经完成了在Kafka主题中加载的第一组数据的阅读?(以便我可以将其转换为数据框架并开始我的工作)我知道我可以提及某个数字的批处理间隔(在JavastreamingContext中),但是即使那样,我也永远无法确定源将数据将数据推到主题的时间。欢迎任何建议。看答案如果我正确理解您的问题,您希望不创建批处理,直到阅读5分钟的所有数据。开箱即用的Spark不会提

ruby - 在 Ubuntu 上安装 ruby​​-odbc gem 时出现 "ERROR: sql.h not found"

尝试在Debian/Ubuntu上安装ruby​​-odbcgem会导致以下错误;“错误:找不到sql.h” 最佳答案 这也发生在OSX上,所以brew来拯救:brewinstallunixodbc 关于ruby-在Ubuntu上安装ruby​​-odbcgem时出现"ERROR:sql.hnotfound",我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/17068590/