scala-compiler

scala - 使用 HBase 的 Spark 作业失败

我运行的任何涉及HBase访问的Spark作业都会导致以下错误。我自己的工作是在Scala中，但提供的python示例以相同的方式结束。集群是Cloudera，运行CDH5.4.4。相同的作业在使用CDH5.3.1的不同集群上运行良好。非常感谢任何帮助!...15/08/1521:46:30WARNTableInputFormatBase:initializeTablecalledmultipletimes.Overwritingconnectionandtablereference;TableInputFormatBasewillnotclosetheseoldreferencesw

scala - 如何使用scala在apache spark中存储一个 Action 的结果

如何在apacheSparkScala的输出目录中存储从以下操作生成的结果:计数？valcountval=data.map((_,"")).reduceByKey((_+_)).count以下命令不起作用，因为计数未存储为RDD:countval.saveAsTextFile("OUTPUTLOCATION")有什么方法可以将countval存储到本地/hdfs位置？最佳答案 @szefuf说的是正确的，在count之后你有一个Long，你可以用任何你想要的方式保存它。如果您想使用.saveAsTextFile()将其保存为RDD

scala apache code section countval hadoop apache-spark

scala - 将文件从远程服务器上运行的 Apache Zeppelin 传输到 HDFS

我有一个在远程服务器上运行的ApacheZeppelin实例，我正在使用Scala通过Spark解释器与其通信。我想将存储在该服务器目录中的csv文件传输到也在远程服务器上的HDFS(Hadoop)。我无权访问服务器上的任何配置文件，我无法安装任何东西，我只能在Zeppelin中发出命令。我试过使用标准sc.textFile("file:///test.csv")语句，但它返回以下错误:org.apache.spark.SparkException:Jobabortedduetostagefailure:Task0instage19.0failed4times,mostrecentfa

Zeppelin Apache code section scala hadoop apache-spark hdfs apache-zeppelin

scala - SBT 找不到 hadoop-aws 3.1.1

build.sbt:(片段)valhadoop_aws="org.apache.hadoop"%"hadoop-aws"%"3.1.1"libraryDependencies+=hadoop_aws但是，当尝试sbtupdate时:>update[info]Updating...[warn]modulenotfound:org.apache.hadoop#hadoop-aws;3.1.1[warn]====local:tried[warn]====local-preloaded-ivy:tried[warn]====local-preloaded:tried[warn]====publ

hadoop-aws hadoop error scala sbt amazon-s3

java - spark提交抛出错误java.lang.ClassNotFoundException : scala. runtime.java8.JFunction2$mcIII$sp

我写了一个字数统计代码，但是当我尝试使用下面的命令在Windows中从CMD运行它时，它抛出了一个异常。spark-submit--classcom.sample.WordCount--masterlocalfile:///E:/WordCountSample/target/WordCountSample-0.0.1-SNAPSHOT.jarfile:///C:/Users/siddh/OneDrive/Desktop/sample.txtpom.xml4.0.0SparkSampleInScalaWordCountSample0.0.1-SNAPSHOTjarWordCountSam

java ClassNotFoundException gt lt SparkSubmit scala apache-spark hadoop

scala - 更改 Spark 的 Hadoop 版本

如何在不提交jar和定义特定Hadoop二进制文件的情况下为Spark应用程序设置Hadoop版本？这有可能吗？我只是不太确定在提交Spark应用程序时如何更改Hadoop版本。这样的东西是行不通的:valsparkSession=SparkSession.builder.master("local[*]").appName("SparkJobHDFSApp").getOrCreate()sparkSession.sparkContext.hadoopConfiguration.set("hadoop.common.configuration.version","2.7.4")

Hadoop scala section Spark apache-spark

Error: Error while compiling statement: FAILED: SemanticException Unable to load data to destination

ods层新加了一张表，和以前的格式一样DROPTABLEIFEXISTSods_students_industry_level;CREATETABLE`ods_students_industry_level`(`id`INTCOMMENT'编号',`first_industry`STRINGCOMMENT'一级行业',`second_industry`STRINGCOMMENT'二级行业',`parent_id`INTCOMMENT'父级id')COMMENT'行业级别信息表'PARTITIONEDBY(`dt`STRING)ROWFORMATDELIMITEDFIELDSTERMINATED

Error SemanticException 39 COMMENT 96 hadoop hive

scala - Scalding 示例 WordCount 本地模式

我正在尝试运行Scalding示例字数统计示例。我已按照此github链接执行步骤:-https://github.com/twitter/scalding/wiki/Getting-Started但是我遇到了ClassNotFoundException。下面是我的StackTrace:-[cloudera@localhostscalding-develop]$**sudoscripts/scald.rb--localWordCount--inputinput.txt--output./someOutputFile.tsv**cannotfind/root/.sbt/boot/scal

WordCount Scalding java twitter scala hadoop noclassdeffounderror

scala - 从 Scala 中的配置单元表创建数据框时无法将模式名称作为输入

我正在尝试从clickstream_db架构中存在的现有配置单元表创建数据框。valganulardataframe=hc.table("clickstream_db.granulartable");报错:org.apache.spark.sql.catalyst.analysis.NoSuchTableExceptionatorg.apache.spark.sql.hive.client.ClientInterface$$anonfun$getTable$1.apply(ClientInterface.scala:112)atorg.apache.spark.sql.hive.cli

配置单 scala apache spark hadoop apache-spark hive

scala - 用于 Spark 集成测试的 Hive 配置

我正在寻找一种方法来配置Hive以进行SparkSQL集成测试，以便将表写入临时目录或测试根目录下的某个位置。我的调查表明这需要同时设置fs.defaultFS和hive.metastore.warehouse.dir之前HiveContext被build。只需设置后者，如本answer中所述不适用于Spark1.6.1。valsqlc=newHiveContext(sparkContext)sqlc.setConf("hive.metastore.warehouse.dir",hiveWarehouseDir)表元数据位于正确的位置，但写入的文件位于/user/hive/wareho

scala Spark code section warehouse hadoop apache-spark hive scalatest