language-scala

scala - 使用 Apache Spark 写入 HDFS 时的输出序列

我正在使用apacheSpark开发一个项目，要求将经过处理的spark输出写入特定格式，例如Header->Data->Trailer。为了写入HDFS，我使用.saveAsHadoopFile方法并使用key作为文件名将数据写入多个文件。但问题是数据的顺序未维护，文件写入Data->Header->Trailer或三者的不同组合。RDD转换有什么我遗漏的吗？最佳答案好的，在阅读了来自Google的StackOverflow问题、博客和邮件存档之后。我发现了.union()和其他转换的工作原理以及分区的管理方式。当我们使用.u

scala - 如何配置 Spark Streaming Scala 应用程序以从 Hadoop + Yarn 上的 HBase 读取

Spark、Hadoop+Yarn上的Hbase，我想从使用SBT构建的Scala应用程序读取和写入HBase。我无法创建HBaseScala应用程序:/usr/local/sparkapps/HBaseWordCount/src/main/scala/com/mydomain/spark/hbasewordcount/HbaseWordCount.scalapackagecom.mydomain.spark.hbasewordcountimportorg.apache.spark._importorg.apache.spark.streaming._importorg.apache.

Streaming Hadoop hbase 34 code scala apache-spark sbt

scala - CombineBy Key Spark 方法

下面的这段代码应该使用combineByKey()找到Per-KeyAverage:valresult=input.combineByKey((v)=>(v,1),(acc:(Int,Int),v)=>(acc._1+v,acc._2+1),(acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2)).map{case(key,value)=>(key,value._1/value._2.toFloat)}result.collectAsMap().map(println(_))我对上述方法的执行感到困惑。假设我

CombineBy scala code section 累加 hadoop apache-spark

scala - Hortonwork HDP 2.1 支持什么版本的 Scala？

我正在使用Scala2.10.4构建Scalding作业。它成功地创造了工作。但是当我在我的Hortonworks中运行该作业时，它会抛出以下异常。根据一些回答，这个问题是由于scala版本冲突导致的。你能解释一下这个问题吗？我在我的Hortonworks中搜索了一个scala版本，但找不到。我做错了什么吗？最佳答案底部的堆栈跟踪显示您的作业在HadoopUtils.getRootQueue中抛出，您尝试在Option实例上执行.get，这恰好是一个None。所以我认为这不是版本问题，而是您应该在选项上使用.getOrElse或

Hortonwork scala code section 中运 hadoop mapreduce cascading scalding

scala - Spark 多个数据帧保存

我有一个spark作业，它创建一个数据框，我将它保存到HDFS。我想做的是将该数据框的一个子集保存到另一个地方，但我想在这方面表现出色。我拥有的唯一转换是保存本身……spark作业的所有其他代码元素都是一个操作。我不缓存数据框。我担心从旧数据框创建新数据框的放置操作会再次经历所有原始数据框转换。例如，我有这样的东西:valdf=hiveContext.read.json("hdfs://HOSTNAME:PORT/user/spark/data/in/*")valdf2=df.withColumn("new_column",some_udf("old_column")).drop("o

scala Spark column 34 final_df hadoop apache-spark functional-programming

scala - printwriter 在 hdfs 路径中只考虑一个斜杠而不是双斜杠

我的代码是:valdf=sqlContext.read.format("com.databricks.spark.xml").option("rowTag",header).load("/input/du3_init.dat")valdfCI2=df.select("CI2")dfCI2.printSchema()valpath="hdfs://nameservice/user/CI2_Schema"newPrintWriter(path){write(dfCI2.schema.treeString);close}当我在spark中执行时，我得到了Exceptioninthread"m

斜杠 printwriter code section FileOutputStream scala hadoop

java - 将带有 List 的 scala hashmap 转换为带有 java list 的 java hashmap

我是scala和spark的新手。我有以下案例A类案例类A(uniqueId:String,属性:HashMap[String,List[String]])现在我有一个类型为A的数据帧。我需要对该DF的每一行调用一个java函数。我需要将Hashmap转换为JavaHashMap并将List转换为javalist..我该怎么做。我正在尝试做以下事情valrddCaseClass=RDD[A]vala=rddCaseClass.toDF().map(x=>{valrowData=x.getAs[java.util.HashMap[String,java.util.List[String]

java hashmap code section blockquote scala hadoop apache-spark

scala - 使用 spark 将 null 设置为 Hive 表中数字数据类型的值

我正在寻找一种解决方案，我需要使用Spark在其中没有值的数字字段中填充null。我写的代码如下:valmyDF=sqlContext.sql("frommystg.my_acct_tableselectid,amt,tot_amtwhereid=12345")myDF.map(row=>{valrow1=row.getAs[Double]("tot_amt")valmy_tot_amt={if(row1.isNaN())null.asInstanceOf[Double]elseMath.abs(row1.toDouble)}Row(row(0),row(1),my_tot_amt)}

scala spark code row section hadoop apache-spark spark-dataframe

scala - 如何捕获 Spark 异常并做某事？

当我将数据保存到hdfs失败时，如何捕获异常并在catchblock中执行某些操作。像这样:try{item.map(r=>doSome(r).saveAsTextFiles(outputPath+"/data")}catch{casee:Exception=>{valfailMessage="Exceptionfromoutputpart"+e.getClass+"\t"+e.getMessageprintln("Theexceptionisexecuted")update(aaa)}}finally{mc.close()}我想在保存操作抛出异常时更新一些状态。怎么做？

某事 scala section 34 Exception hadoop apache-spark

scala - 给定核心和执行程序的数量，如何确定 spark 中 rdd 的分区数量？

10个节点集群有20个执行器和代码读取一个包含100个文件的文件夹的分区数是多少？最佳答案它在您运行的不同模式下是不同的，您可以使用spark.default.parallelism设置对其进行调整。来自Spark文档:ForoperationslikeparallelizewithnoparentRDDs,itdependsontheclustermanager:Localmode:numberofcoresonthelocalmachineMesosfinegrainedmode:8Others:totalnumberofc

给定 scala section spark stackoverflow hadoop apache-spark cluster-computing rdd

132 133 134135136 137 138