scala-compiler

scala - 如何在 hadoop 上使用 Spark 启动 Jar 文件

我正在安装hadoop的GoogleCloudPlatform上做一个项目。我在scala中编写了一个程序，并使用sbt的汇编指令创建了一个可执行JAR现在我必须上传并在我的平台上运行它。我尝试使用命令spark-submit--class"Hi"provaciao.jar但即使它在sparkstandalone上本地工作，我也会收到错误消息。我用的是spark的1.1.0版本，hadoop的2.4版本这是我的错误日志marooned91_gmail_com@hadoop-m-on8g:/home/hadoop/spark-install/bin$spark-submit--class

何在 hadoop java URLClassLoader section scala apache-spark google-cloud-platform

hadoop - 清除目录/tmp/sqoop-hadoop/compile/

我想删除sqoop编译目录中的许多旧目录(例如:/tmp/sqoop-hadoop/compile/cebe706d23ebb1fd99c1f063ad51ebd7)以清理空间。sqoop是否只在编译目录/tmp/sqoop-hadoop/compile/中存放临时文件？删除早于特定日期的所有目录会导致任何问题吗？最佳答案 Doessqoopstoresonlytemporaryfilesinthecompiledirectory/tmp/sqoop-hadoop/compile/?它会根据为每个sqoop命令生成的java代码创

hadoop sqoop-hadoop section sqoop

scala - 我想将 Hive 中所有现有的 UDTF 转换为 Scala 函数并从 Spark SQL 使用它

任何人都可以给我一个用scala编写的返回多行并将其用作SparkSQL中的UDF的示例UDTF(例如；explode)吗？表:表1+------+----------+----------+|userId|someString|varA|+------+----------+----------+|1|example1|[0,2,5]||2|example2|[1,20,5]|+------+----------+----------+我想创建以下Scala代码:defexampleUDTF(var:Seq[Int])={//codetoexplodevarAfield???}sql

scala code example 34 hadoop apache-spark hive apache-spark-sql

scala - Spark 上下文抛出 'error: identifier expected but ' [' found.'

我正在读一本书，上面说我应该能够输入sc.[\t]并得到响应。我看到的是...scala>sc.[\t]:1:error:identifierexpectedbut'['found.sc.[\t]^:1:error:identifierexpectedbut']'found.sc.[\t]这是spark1.6.1连接到hadoop2.7.2sc命令似乎有效...scala>scres1:org.apache.spark.SparkContext=org.apache.spark.SparkContext@3cead673附言我一生中从未使用过Scala。最

amp 39 code section scala hadoop apache-spark

scala - Spark DataFrame 并行性

下面是我使用ApacheSpark的用例1)我在HDFS上有大约2500个Parquet文件，文件大小因文件而异。2)我需要处理每个parquet文件并构建一个新的DataFrame并将一个新的DataFrame写入orc文件格式。3)我的Spark驱动程序是这样的。我正在迭代每个文件，处理单个Parquet文件，创建一个新的DataFrame并将一个新的DataFrame编写为ORC，下面是代码片段。valfs=FileSystem.get(newConfiguration())valparquetDFMap=fs.listStatus(newPath(inputFilePath))

DataFrame scala section parquet hadoop apache-spark apache-spark-sql

scala - 使用 Oozie 将 Spark 转为 Hbase

我试图从Spark在Hbase中创建一个表并插入数据，从中读取数据。当我从命令行运行spark作业时它工作正常。但是，每次我尝试使用oozie运行它时，它都会抛出不同类型的异常。这是我的sparkhbase代码valsc=newSparkContext("local","Hbasespark")valtableName="Morbidity_Dummy2"valconf=HBaseConfiguration.create()//AddlocalHBaseconfconf.addResource(newPath("file:///opt/cloudera/....../hbase-sit

转为 scala hbase 34 apache hadoop apache-spark oozie

scala - 如何从 spark-shell 从 S3 文件加载 RDD？

我在S3中有一个文本文件，我想使用spark-shell将其加载到RDD中。我已经下载Spark2.3.0forHadoop.天真地，我希望我只需要设置hadoop设置就可以了。valinFile="s3a://some/path"valaccessKey="some-access-key"valsecretKey="some-secret-key"sc.hadoopConfiguration.set("fs.s3a.access.key",accessKey)sc.hadoopConfiguration.set("fs.s3a.secret.key",secretKey)sc.tex

spark-shell scala code hadoop spark apache-spark amazon-s3

scala - 在 Spark (HDFS) 中写入 CSV 文件时选择哪个选项？

我必须比较CSV文件，然后我必须删除所有重复的行。所以，我的情况就像我有一个文件夹，我必须将每个过滤结果放在该文件夹中，当一些新文件出现时，我必须将文件夹中的现有文件与新文件进行比较，最后，我必须把将结果返回到同一文件夹。eg:/data/ingestion/file1.csva1b1c1a2b2c2a3b3c3/data/ingestion/file2.csva4b4c4a5b5c5a6b6c6newupcomingfile(upcoming_file.csv):a1b1c1a5b5c5a7b7c7现在我的方法是从/data/ingestion/*中存在的所有文件创建一个数据帧。然后

scala Spark ingestion 34 hdfs apache-spark hadoop dataframe

scala - 无法使用 IntelliJ 在本地连接到 hdfs kerberized 集群

我正在尝试通过笔记本电脑上安装的intelliJ在本地连接到hdfs。我正在尝试连接的集群是使用边缘节点进行Kerberized化的。我为边缘节点生成了一个key表，并在下面的代码中进行了配置。我现在可以登录到边缘节点了。但是当我现在尝试访问名称节点上的hdfs数据时，它会抛出错误。下面是试图连接到hdfs的Scala代码:importorg.apache.spark.sql.SparkSessionimportorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.{FileSystem,Path}importor

kerberized IntelliJ 34 hdfs namenodename scala security apache-spark hadoop kerberos

scala - 我们不能在 map 函数中使用 sparkContext 吗？

我正在尝试调用map中的用户定义函数，如下所示，df.select("path").map(x=>func1(sparkSession,fs,path))deffunc1(sparkSession:SparkSession,fileSystem:FileSystem,path:String){readHDFSfilepathandcounttherecords.}使用上述方法我无法从HDFS读取文件。真正的原因是什么？无法将上下文传递给map内的函数吗？最佳答案在高层次上，SparkSession是允许驱动程序与执行程序通信的对

sparkContext scala section code path apache-spark hadoop apache-spark-sql