草庐IT

scala-compiler

全部标签

scala - 关闭 SparkContext java.lang.NumberFormatException

我在我们的集群中运行一个spark作业,该作业运行了几分钟然后失败并提示容器异常。我尝试增加执行程序和驱动程序内存但没有用。我一次又一次地得到同样的异常。任何人都可以帮助解决这个问题。错误scheduler.DAGSchedulerEventProcessLoop:DAGSchedulerEventProcessLoop失败;关闭SparkContextjava.lang.NumberFormatException:对于输入字符串:“spark.locality.wait”17/04/1715:07:56INFOyarn.ApplicationMaster:Registeredsign

scala - Scala中如何根据三列过滤数据

我是scala的新手,我想为一个数据集迭代三个循环并执行一些分析。例如我的数据如下:Sample.csv1,100,0,NA,0,1,0,Friday,1,51,100,0,NA,0,1,0,Wednesday,1,91,100,1,NA,0,1,0,Friday,1,51,100,2,NA,0,1,0,Friday,1,51,101,0,NA,0,1,0,Friday,1,51,101,1,NA,0,1,0,Friday,1,51,101,2,NA,0,1,0,Friday,1,51,102,0,NA,0,1,0,Friday,1,51,102,1,NA,0,1,0,Friday,1

scala - Spark 内存限制超出问题

我有一份在spark上运行的工作,它是使用sparkRDD在scalaim中编写的。由于昂贵的分组操作我得到这个错误:容器因超出内存限制而被YARN终止。使用了22.4GB的22GB物理内存。考虑提升spark.yarn.executor.memoryOverhead。我增加了头顶的内存,但我得到了同样的结果。我使用10台r4.xlarge机器。我尝试使用r4.2xlarge甚至r4.4xlarge,但也出现同样的错误。我正在测试的数据是5GB压缩数据(将近50个解压缩数据和近600万条记录)。一些配置:spark.executor.memory:20480Mspark.driver.

scala - 在 Spark RDD Println Error 中,如何显示 [Ljava.lang.String;@8e6606 等数据

我在使用Scala时遇到ApacheSpark的一个问题。我正在尝试创建一个Spark应用程序,它根据用户输入打印一个RDD。输入数据是这样的:List("aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf")代码是这样的:valwSchemaString="col1col2col3col4";valwSchema=StructType(wSchemaString.split("").map(fieldName=>Struc

scala - 如何在现有的 Hadoop 2.x 中使用 spark

我们已经在服务器上安装了Hadoop2.5。是不是可以用那个Hadoop来部署Spark程序呢?我希望Spark使用现有的Yarn来调度任务,并能够读写现有的HDFS。我怎样才能做到这一点? 最佳答案 您可以尝试使用可用的ApacheSpark预构建下载https://spark.apache.org/downloads.html如果那没有解决,那么你需要通过添加你的hadoopjar来构建sparkhttps://spark.apache.org/docs/latest/building-spark.html很简单然后您的Spar

scala - 为什么我的 Spark 应用程序无法使用 "object SparkSession is not a member of package"进行编译,但 spark-core 是依赖项?

我是spark开发的新手,正在尝试在redhatlinux环境中使用sbt构建我的第一个spark2(scala)应用程序。以下是环境详细信息。CDHVersion:5.11.0ApacheSpark2:2.1.0.cloudera1ScalaVersion:2.11.11JavaVersion:1.7.0_101申请代码:importorg.apache.spark.sqlimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.types._importorg.apache.spark.sqlobjectMy

scala - 如何在一列中将一个字符串变成另一个字符串

我有一个数据框df,其中有两列是这样的。+-----+------------------+|x|y|+-----+------------------+|0.0|{12,16,17,18,19}||0.0|{18,16,17,18,19}||0.0|{15,16,67,18,19}||0.0|{65,16,17,18,19}||0.0|{9,16,17,18,19}||1.0|{12,16,17,28,39}||0.0|{24,16,17,28,19}||0.0|{90,16,17,18,29}||1.0|{30,16,17,18,19}||1.0|{28,16,17,18,19}|

scala - ClassNotFoundException : com. 数据 block .spark.csv.DefaultSource

我正在尝试使用sparkscala从Hive导出数据。但我收到以下错误。Causedby:java.lang.ClassNotFoundException:com.databricks.spark.csv.DefaultSource我的scala脚本如下所示。importorg.apache.spark.sql.hive.HiveContextvalsqlContext=newHiveContext(sc)valdf=sqlContext.sql("SELECT*FROMsparksdata")df.write.format("com.databricks.spark.csv").sa

scala - 如何使用 spark 生成大量随机整数?

我需要很多随机数,每行一个。结果应该是这样的:24324243244234234423423413103131310313...所以我写了这个spark代码(对不起,我是Spark和scala的新手):importutil.Randomimportorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._objectRandomIntegerWriter{defmain(args:Array[String]){if(args.length")Syst

scala - Spark 流式传输多个套接字源

我是Spark的新手。对于我的项目,我需要合并来自不同端口上不同流的数据。为了测试我做了一个练习,目的是打印来自不同端口的流的数据。下面你可以看到代码:objecthello{defmain(args:Array[String]){valssc=newStreamingContext(newSparkConf(),Seconds(2))vallines9=ssc.socketTextStream("localhost",9999)vallines8=ssc.socketTextStream("localhost",9998)lines9.print()lines8.print()ssc