草庐IT

scala-cats

全部标签

scala - 在 Spark 中创建的数据之上创建 Hive 表

我在Spark下创建了ORC格式的数据,如下所示:varselect:String="SELECT..."sqlContext.sql(select).write.format("orc").save("/tmp/out/20160101")select="SELECT..."sqlContext.sql(select).write.format("orc").save("/tmp/out/20160102")&soon...现在我正尝试在Hive中创建一个外部表,如下所示:CREATEEXTERNALTABLE`mydb.mytable`(`col1`string,`col2`dec

scala - 监听器异常 : Mkdirs failed to create/tmp/temporary ( full permission given to the dir. )

当我编写流数据时显示此错误时,我正在学习结构化流CountQuery:org.apache.spark.sql.streaming.StreamingQuery=org.apache.spark.sql.execution.streaming.StreamingQueryWrapper@604770e3org.apache.spark.sql.streaming.StreamingQueryException:QueryCount[id=4ce8572a-24c9-4cde-97e4-051426cbb15e,runId=59c60d53-73ee-43a4-8792-d5907a88

scala - Google dataproc spark 作业失败并显示 "Node was restarted while executing a job."消息

我正在为各种Spark流作业运行多个数据处理集群。所有集群都配置为单节点。最近(大约10天前)我开始在所有集群上遇到作业失败。每个作业运行大约。3天后失败并显示相同的消息:===========CloudDataprocAgentError===========com.google.cloud.hadoop.services.agent.AgentException:Nodewasrestartedwhileexecutingajob.Thiscouldbeuser-initiatedorcausedbyComputeEnginemaintenanceevent.(TASK_FAILE

scala - Cassandra 全表转储到 HDFS

我正在尝试使用来自Datastax的Spark-Cassandra连接器(v2.0.2,Sparkv2.0.0):valdf=sparkSession.sparkContext.cassandraTable[MyRec](keyspace,tableName).toDF()df.write.format("orc").save(hdfsLocation)它看起来非常简单并且运行了一段时间但我开始遇到这样的异常:Causedby:com.datastax.driver.core.exceptions.ReadFailureException:Cassandrafailureduringr

scala - 将 DataFrame 作为文本文件加载到 HDFS 和 S3

这个问题在这里已经有了答案:WritesingleCSVfileusingspark-csv(16个答案)关闭5年前。我正在尝试使用以下代码将DataFrame作为文本格式文件加载到HDFS和S3中。DataFrame名称为finalData。valtargetPath="/user/test/File"valnow=Calendar.getInstance().getTime()valformatter=newSimpleDateFormat("yyyyMMddHHmmss")valtimeStampAfterFormatting=formatter.format(now)valta

scala - Spark 提交成功运行,但通过 oozie 提交时无法连接到配置单元

我正在使用CDH5.9.0、Spark1.6和Scala2.10.0。我创建了一个scala和spark程序来创建一个表并将数据从文件加载到配置单元。当我使用sparksubmit运行它时,它完成了。但是同样的程序通过oozie提交时,会抛出下面的异常。以下是异常(exception)。LogType:stdoutLogUploadTime:FriOct2710:08:28-04002017LogLength:1725842017-10-2710:08:20,652INFO[main]yarn.ApplicationMaster(SignalLogger.scala:register(

scala - 如何更改数据框列列表的列类型

我正在尝试更改Spark1.6.0中Dataframe的列列表的类型。然而,到目前为止找到的所有示例只允许对单个列(df.withColumn)或数据框中的所有列进行转换:valcastedDF=filteredDf.columns.foldLeft(filteredDf)((filteredDf,c)=>filteredDf.withColumn(c,col(c).cast("String")))对于数据框中的列列表,是否有任何高效的批处理方法? 最佳答案 withColumn*没有任何问题,但您可以根据需要使用select:im

scala - Scala Spark 中的 groupBy 函数需要 Lzocodec 吗?

我在ScalaSpark中创建了一个如下所示的函数。defprepareSequences(data:RDD[String],splitChar:Char='\t')={valx=data.map(line=>{valArray(id,se,offset,hour)=line.split(splitChar)(id+"-"+se,Step(offset=if(offset=="NULL"){-5}else{offset.toInt},hour=hour.toInt))})valy=x.groupBy(_._1)}我需要groupBy但是一旦我添加它,我就会收到错误消息。错误要求Lzoc

scala - 在加载语句中期望 StringLiteral 接近 'inpath'

我是hadoop和hive的新手。我正在尝试将数据加载到配置单元表中,但遇到以下错误。另一方面,我尝试使用语句stmt.execute("INSERTINTOemployeeVALUES(1201,'Gopal',45000,'Technicalmanager')")将记录插入配置单元表>它成功地插入了记录,但是在加载大量数据时却失败了。valfilePath=C:\\AllProjects\\xxxxxxx\\src\\main\\resources\\input\\sample.txtvalcon=DriverManager.getConnection("jdbc:hive2://

apache-spark - 如何使用 Spark Scala 连接 3 个 RDD

我想使用sparkrdd加入3个表。我使用sparksql实现了我的目标,但是当我尝试使用Rdd加入它时,我没有得到想要的结果。下面是我使用sparkSQL和output的查询:scala>actorDF.as("df1").join(movieCastDF.as("df2"),$"df1.act_id"===$"df2.act_id").join(movieDF.as("df3"),$"df2.mov_id"===$"df3.mov_id").filter(col("df3.mov_title")==="AnnieHall").select($"df1.act_fname",$"df