scala-cats_草庐IT

scala - 如何迭代行并将一行列值与 Scala 中的下一行列值进行比较？

我是Scala的新手。我需要一些直接的帮助。我有M*N个sparksql数据框，如下所示。我需要将每一行列值与下一行列值进行比较。A1到A2，A1到A3，等等直到N。B1到B2B1到B3。你能指导我如何在sparksql中比较行吗？IDCOLUMN1Column21A1B12A2B23A3B3提前致谢桑托斯最佳答案如果我对问题的理解正确——您想将每个值与前一条记录中同一列的值进行比较(使用某种函数)。您可以使用lagWindowFunction来做到这一点:importorg.apache.spark.sql.expressio

行列代行 34 section Column scala hadoop apache-spark

scala - 未找到 HIVE 表

以下是尝试创建HIVE表的简单代码::importjava.util.Propertiesimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.SQLContextimportsqlContext.implicits._valconf=newSparkConf().setAppName("HIVE_Test").setMaster("local").set("spark.executor.memory","1g").set("spark.driver.a

scala HIVE SparkILoop apache hadoop apache-spark apache-spark-sql

scala - 运行 Spark 应用程序时获取 java.lang.ClassNotFoundException

我是Spark(Scala)的新手，我正在尝试通过sparksubmit运行一个spark应用程序。不幸的是，我遇到了java.lang.ClassNotFoundException异常。这是我的spark提交命令:./spark-submit--class"spark.phoenix.a"--masterlocal--deploy-modeclient/home/ec2-user/phoenix-0.0.1-SNAPSHOT.jar这是我的异常(exception):java.lang.ClassNotFoundException:spark.phoenix.aatjava.net.

ClassNotFoundException scala gt lt spark hadoop apache-spark apache-phoenix

scala - Spark 流序列化错误

我在spark-streaming应用程序中遇到序列化错误。下面是我的驱动程序代码:packagecom.testimportorg.apache.spark._importorg.apache.spark.streaming._importorg.json.JSONObject;importjava.io.SerializableobjectSparkFillerextendsSerializable{defmain(args:Array[String]):Unit={valsparkConf=newSparkConf().setAppName("SparkFiller").setM

scala Spark apache hadoop apache-spark spark-streaming bigdata

maven - 客户端 yarn 作业的 Scala 错误

我知道对此有一些疑问，但没有足够的信息来解决我的问题。我尝试在我的Eclipse项目中以yarn-client模式运行作业。我有一个包含2个节点的hadoop集群(其中一个节点当前已关闭)。我尝试在集群模式下运行它(使用spark-submit)并且它工作正常。我尝试通过以下方式从eclipse项目在本地运行它:我正在尝试制作这样的Spark上下文:SparkConfconf=newSparkConf().setAppName("AnomalyDetection-BuildModel").setMaster("local[*]");这是有效的。但是当我尝试使用“yarn-client”

maven Scala lt gt version hadoop apache-spark hadoop-yarn

scala - 使用 Scala 的 Mapreduce 程序

我正在尝试运行一个用scala编写的mapreduce程序。我在类路径中包含了scala-library。运行程序时，我的程序抛出以下错误。$hadoopjar~/HadoopScala.jarcom.learning.spark.WordCount/input/wordcountinput.csv/output-libjars~/lib/org.scala-lang.scala-library_2.12.2.v20170412-161608-VFINAL-21d12e9.jarExceptioninthread"main"java.lang.NoClassDefFoundError:

Mapreduce scala java section hadoop

scala - 在运行时设置对目录的权限 scala spark

我正在尝试从HDFS上的spark代码中创建一个目录并在其中写入一个文件。但在编写时失败并出现以下错误。Permissiondenied:user=root,access=WRITE,inode="/root/test/_temporary/0":hdfs:hadoop:drwxr-xr-x我们如何在运行时在scala中设置目录的权限？更新我正在使用这些命令来授予对创建的目录的权限。dir.canExecute()dir.canRead()dir.canWrite()dir.setWritable(true,false)dir.setReadable(true,false)dir.se

scala spark section dir strong hadoop apache-spark pyspark spark-dataframe

scala - 当我们传递单个文件时，hadoop distcp 不会创建文件夹

我在hadoopDistcp中面临以下问题，非常感谢任何建议或帮助。我正在尝试将数据从Google云平台复制到AmazonS31)当我们有多个文件要从源复制到目标时(这工作正常)valsourcefile:String="gs://XXXX_-abc_account2621/abc_account2621_click_20170616*.csv.gz[Multiplefilestocopy(wehave*inthefilename)]Output:S3://S3bucketname/xxx/xxxx/clientid=account2621/date=2017-08-18/Filesi

传递 hadoop 34 account abc_account scala amazon-s3 google-cloud-storage distcp

scala - HashPartitioner 是如何工作的？

我阅读了HashPartitioner的文档.不幸的是，除了API调用之外，没有太多解释。我假设HashPartitioner根据键的散列对分布式集进行分区。例如，如果我的数据是这样的(1,1),(1,2),(1,3),(2,1),(2,2),(2,3)所以分区器会将其放入不同的分区中，相同的键落在同一个分区中。但是我不明白构造函数参数的意义newHashPartitoner(numPartitions)//WhatdoesnumPartitionsdo?对于上面的数据集，如果我这样做，结果会有什么不同newHashPartitoner(1)newHashPartitoner(2)ne

HashPartitioner scala code prettyprint-override pre apache-spark rdd partitioning

scala - java.lang.NoSuchMethodError 当 rdd.saveAsTextFile 由 spark-shell

parallelize整数并尝试保存为文本文件，如下所示:scala>valtest=sc.parallelize(List(12,2,3,4))test:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[0]atparallelizeat:24另存为文本文件scala>test.saveAsTextFile("/test")如下所示的错误堆栈跟踪:java.lang.NoSuchMethodError:org.apache.hadoop.mapred.TaskID.(Lorg/apache/hadoop/mapreduce/Job

NoSuchMethodError saveAsTextFile PairRDDFunctions apache scala hadoop apache-spark