language-scala

scala - 无法在spark中使用reduceByKey((v1，v2)=> v1 + v2)scala函数计算单词

我刚开始学习spark。在独立模式下使用spark并尝试在scala中进行字数统计。我观察到的问题是reduceByKey()没有按预期对单词进行分组。打印NULL数组。我遵循的步骤如下...创建一个文本文件并包含一些由空格分隔的单词。在sparkshell中，我正在执行以下命令。scala>importorg.apache.spark.SparkContextimportorg.apache.spark.SparkContextscala>importorg.apache.spark.SparkContext._importorg.apache.spark.SparkContext.

数计 scala INFO scheduler 09 hadoop apache-spark bigdata

scala - Spark 中向量之间的平方距离

我正在尝试在spark中使用平方距离函数，但似乎没有任何效果。我尝试了Vector.sqdist但收到此错误“sqdist不是scala.collections的成员......”(但文档显示它是[org.apache.spark.mllib.linalg的成员。我导入的矢量](http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.linalg.Vector))./*SimpleApp.scala*/importorg.apache.spark.SparkContextimport

scala Spark apache code hadoop apache-spark

java - HDFS:使用 Java/Scala API 移动多个文件

我需要使用Java/Scala程序移动HDFS中的多个文件，这些文件对应于给定的正则表达式。例如，我必须将名称为*.xml的所有文件从文件夹a移动到文件夹b。使用shell命令，我可以使用以下命令:bin/hdfsdfs-mva/*.xmlb/我可以使用JavaAPI移动单个文件，使用以下代码(scala语言)，使用FileSystem类上的rename方法://Prepareinitialconfigurationvalconf=newConfiguration()conf.set("fs.defaultFS","hdfs://hdfs:9000/user/root")valfs=F

Scala java code Path section hadoop hdfs

scala - 在 scala 中将 Spark Dataframe 转换为 RDD

我正在寻找更好的方法将Dataframe转换为RDD。现在我正在将数据帧转换为集合和循环集合以准备RDD。但我们知道循环不是好的做法。valrandomProduct=scala.collection.mutable.MutableList[Product]()valresults=hiveContext.sql("selectid,valuefromdetails");valcollection=results.collect();vari=0;results.collect.foreach(t=>{valproduct=newProduct(collection(i)(0).asI

scala Dataframe section Product results hadoop apache-spark apache-spark-sql

scala - 我如何用这个在 GraphX 中创建一个图形

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我很难理解我将如何在Apachespark的GraphX中创建以下内容。我得到以下内容:一个hdfs文件，其中包含以下形式的大量数据:node:ConnectingNode1,ConnectingNode2..例如:123214:521345,235213,657323我需要以某种方式将这些数据存储在EdgeRDD中，以便我可以在GraphX中创建我的图表，但我不知道我将如何去做。

建一中创 section class scala hadoop apache-spark mapreduce spark-graphx

scala - spark - select 中的条件语句

我正在从Dataframecol1和col2中选择两个Column。df.select((col("a")+col("b")).as("sum_col")现在用户希望此sum_col的空格固定为4。所以a和b的长度是2因此最大值可以小于100(二)或大于100(三)所以需要有条件地添加1或2个空格。任何人都可以告诉我如何在selectblock中使用条件逻辑将Column转换为concat并决定一个或两个空格被添加最佳答案只需使用format_string函数importorg.apache.spark.sql.function

select scala code section 34 apache-spark hadoop bigdata

scala - 在 Scala 的 split() 方法中使用单引号和双引号有什么区别？

我正在研究cca-175练习题。我得到一个由|分割的文本文件:Christopher|Jan11,2015,|5Kapil|11Jan,2015|5Thomas|6/17/2014|5John|22-08-2013|5Mithun|2013|5Jitendra||5然后我将文件保存为RDD并尝试映射它。但是，当在split方法中使用单引号和双引号时，Scala会返回两种不同的结果，使用单引号是正确的。使用单引号line.split('|')，它返回:Array[String]=Array(Christopher,Jan11,2015,5)，这是对的。使用双引号line.split("|

引号 scala INFO DAGScheduler console apache-spark hadoop cloudera

scala - 内存不足异常或工作节点在 spark scala 作业期间丢失

我正在使用spark-shell执行一个spark-scala作业，我面临的问题是，在最后阶段和最终映射器结束时，就像在第5阶段，它分配50并很快完成49，在第50个它需要5分钟，并说内存不足并失败。我正在使用SPARK_MAJOR_VERSION=2我正在使用下面的命令spark-shell--masteryarn--confspark.driver.memory=30G--confspark.executor.memory=40G--confspark.shuffle.service.enabled=true--confspark.dynamicAllocation.enabled

scala spark java ByteArrayOutputStream apache-spark hadoop hive spark-shell

scala - 使用 foreach 行在数据框中捕获和写入字符串

在使用Scala替换从数据帧的每一行的特定字段中获取的内容后，trycatch并写入字符串值。但是由于它部署在集群上无法捕获任何记录。谁能提供解决方案？假设TEST_DB.finalresult有2个字段input1和input2:valfinalresult=spark.sql("select*fromTEST_DB.finalresult")finalResult.foreach{row=>valparam1=row.getAs("input1").asInstanceOf[String]valparam2=row.getAs("input2").asInstanceOf[Stri

foreach scala 34 code section apache-spark hadoop apache-spark-sql

scala - 使用 Scala 在 Spark 中创建映射值

我是spark-scala开发的新手。我正在尝试使用scala在spark中创建映射值，但出现类型不匹配错误。scala>valnums=sc.parallelize(Map("red"->"#FF0000","azure"->"#F0FFFF","peru"->"#CD853F")):21:error:typemismatch;found:scala.collection.immutable.Map[String,String]required:Seq[?]Erroroccurredinanapplicationinvolvingdefaultarguments.valnums=sc

中创 scala code 34 String hadoop apache-spark