草庐IT

scala-cats

全部标签

scala - 使用Spark在hdfs中递归搜索所有文件名

我一直在寻找一种方法来获取Hadoop文件系统(hdfs)中目录及其子目录中的所有文件名。我发现我可以使用这些命令来获取它:sc.hadoopConfiguration.set("mapreduce.input.fileinputformat.input.dir.recursive","true")sc.wholeTextFiles(path).map(_._1)这是“wholeTextFiles”文档:ReadadirectoryoftextfilesfromHDFS,alocalfilesystem(availableonallnodes),oranyHadoop-supporte

scala - Spark : Calculate event end time on 30-minute intervals based on start time and duration values in previous rows

我有一个带有event_time字段的文件,每条记录每30分钟生成一次,并指示事件持续了多少秒。示例:Event_time|event_duration_seconds09:00|80009:30|180010:00|270012:00|100013:00|1000我需要将连续的事件转换为一个具有持续时间的事件。输出文件应如下所示:Event_time_start|event_time_end|event_duration_seconds09:00|11:00|530012:00|12:30|100013:00|13:30|1000ScalaSpark中是否有一种方法可以将数据帧记录与

scala - 有没有办法优化spark sql代码?

更新:我正在使用sparksql1.5.2。尝试读取许多parquet文件并过滤和聚合行-我的hdfs中的~30个文件中存储了~35M行,处理时间超过10分钟vallogins_12=sqlContext.read.parquet("events/2015/12/*/login")vall_12=logins_12.where("event_data.level>=90").select("pid","timestamp","event_data.level").withColumn("event_date",to_date(logins_12("timestamp"))).drop(

scala - sbt assembly 的不及物依赖

我下载了一个(事件的)git项目,它需要我安装scala(也包括sbt)和hadoop。当我尝试通过sbt(sbt程序集)构建它时,它会产生大量关于不及物依赖性的警告。我试图与项目供应商联系,但他们没有给我适当的答复;只是告诉我它正在他们的机器上工作。当我尝试“sbtassembly”时,我得到:[info]Resolvingjline#jline;2.12...[info]Doneupdating.[warn]Foundintransitivedependency(org.apache.hadoop:hadoop-common:2.6.0)whilepublishMavenStyle

scala - oozie spark 2.0 操作给出异常 : java. lang.NoClassDefFoundError: org/apache/spark/internal/Logging

我在尝试使用oozie运行spark操作时遇到以下异常ERRORyarn.ApplicationMaster:Userclassthrewexception:java.lang.NoClassDefFoundError:org/apache/spark/internal/Loggingjava.lang.NoClassDefFoundError:org/apache/spark/internal/Loggingatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClass(Cla

scala - 如何在Spark中找到RDD的长度

这个问题在这里已经有了答案:HowtofindsparkRDD/Dataframesize?(3个答案)关闭4年前。如何找到下面RDD的长度?varmark=sc.parallelize(List(1,2,3,4,5,6))scala>mark.map(l=>l.length).collect:27:error:valuelengthisnotamemberofIntmark.map(l=>l.length).collect

scala - 在 spark 集群中运行用 Scala 编写的 Spark 代码

我的笔记本电脑上安装了IntelliJIDE。我正在尝试做一些用Scala编写的BigdataSparkPOC。我的要求是用IntelliJIDE写的spark-scala代码在点Run的时候要运行在sparkcluster中。我的spark集群驻留在windowsazurecloud中。我怎样才能做到这一点? 最佳答案 一种方法是创建一个脚本来运行创建的jar文件,然后运行该脚本。还有另一种使用AzureToolkit插件的方式。您可以使用AzureToolkitforIntelliJIntellijIdea插件提交,运行debu

scala - 从 HDFS 到 Spark 的文件处理不起作用

我正在尝试从SparkShell上的HDFS读取文件并收到如下错误。当我创建第一个RDD时它工作正常但是当我尝试依赖那个RDD时,它给我带来了一些连接错误。我有单节点hdfs设置,在同一台机器上,我有spark运行。请帮忙。当我在同一个盒子上运行“jps”命令以查看hadoop集群是否按预期工作时,我看到一切正常并看到下面的输出。[hadoop@idcrebalancedev~]$jps23606DataNode28245Jps23982TaskTracker26537Main23738SecondaryNameNode23858JobTracker23488NameNode下面是RD

scala - 提供的依赖未能提供

我尝试使用Gradle构建一个Scalding(Scala中的hadoop抽象层)项目。看起来像Hadoopbecameaprovideddependency在最新版本中,它需要一些解决方法。所以我像这样修补了我的build.gradle脚本:applyplugin:'scala'applyplugin:'idea'configurations{provided}sourceSets{main{compileClasspath+=configurations.provided}}repositories{mavenLocal()mavenCentral()maven{url'http:

scala - 如何对 RDD 进行分区

我有一个文本文件,其中包含大量由空格分隔的随机浮点值。我正在将此文件加载到Scala中的RDD中。这个RDD是如何分区的?此外,是否有任何方法可以生成自定义分区,以便所有分区具有相同数量的元素以及每个分区的索引?valdRDD=sc.textFile("hdfs://master:54310/Data/input*")keyval=dRDD.map(x=>process(x.trim().split('').map(_.toDouble),query_norm,m,r))我在这里从HDFS加载多个文本文件,进程是我调用的函数。我可以使用mapPartitonsWithIndex解决方案