scala-compiler

scala - 定义一个 Scala 变量范围

我是这个领域的新手，正在尝试基本的东西，但陷入了一个简单的变量范围问题。在下面的代码中，我想在整个程序中使用“item”并打印它的值。但是，当我在foreach循环中使用“item”时，它会将其视为局部变量，并且它的值在循环外不可用。你能告诉我我错在哪里吗？importscala.collection.immutable._valset1=Set()valset2=Set("A","B","C")varitem:String=nullprintln(set1.isEmpty)println(set2.head)println(set2.tail)set2.foreach{item=>i

scala - 使用 Spark 和 Scala 将数据插入 Hive 表时出现问题

我是Spark的新手。这是我想做的事情。我创建了两个数据流；第一个从文本文件中读取数据并使用hivecontext将其注册为temptable。另一个不断从Kafka获取RDD，对于每个RDD，它创建数据流并将内容注册为temptable。最后，我将这两个临时表连接到一个键上以获得最终结果集。我想将该结果集插入配置单元表中。但我没有想法。试图遵循一些示例，但只在配置单元中创建一个包含一列的表，而且该表也不可读。你能告诉我如何在特定的数据库和配置单元表中插入结果吗？请注意，我可以使用show函数看到连接的结果，因此真正的挑战在于插入配置单元表。下面是我使用的代码。imports.....

时出 scala 34 sqlContext section hadoop apache-spark hivecontext

scala - 使用hadoop parquet处理大数据到CSV输出

我有3个数据集，我想加入并分组它们以获得包含聚合数据的CSV。数据作为parquet文件存储在Hadoop中，我使用Zeppelin运行ApacheSpark+Scala进行数据处理。我的数据集如下所示:user_actions.show(10)user_clicks.show(10)user_options.show(10)+--------------------+--------------------+|id|keyword|+--------------------+--------------------+|00000000000000000001|aaaa1||00000

大数 parquet 34 user code scala hadoop apache-spark apache-zeppelin

scala - 如何将 RDD[List[String]] 转换为 String 并将其拆分

我有以下情况，当我需要从列表中获取行并将其拆分时。scala>varnonErroniousBidsMap=rawBids.filter(line=>!(line(2).contains("ERROR_")||line(5)==null||line(5)==""))nonErroniousBidsMap:org.apache.spark.rdd.RDD[List[String]]=MapPartitionsRDD[108]atfilterat:33scala>nonErroniousBidsMap.take(2).foreach(println)List(0000002,15-04-0

String 并将 code 34 nonErroniousBidsMap scala hadoop apache-spark

scala - 读取保存在 HBase 列中的 AVRO 结构

我是Spark和HBase的新手。我正在处理HBase表的备份。这些备份位于S3存储桶中。我正在使用newAPIHadoopFile通过spark(scala)阅读它们，如下所示:conf.set("io.serializations","org.apache.hadoop.io.serializer.WritableSerialization,org.apache.hadoop.hbase.mapreduce.ResultSerialization")valdata=sc.newAPIHadoopFile(path,classOf[SequenceFileInputFormat[Im

取保 scala apache spark gt hadoop apache-spark hbase avro

java - NoSuchMethodError : com. fasterxml.jackson.module.scala.deser.BigDecimalDeserializer

sc.newAPIHadoopRDD不断给我错误。valhBaseRDD=sc.newAPIHadoopRDD(hbase_conf,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result]);java.lang.NoSuchMethodError:ava.lang.NoSuchMethodError:com.fasterxml.jackson.module.scala.deser.

BigDecimalDeserializer NoSuchMethodError apache hbase scala java hadoop apache-spark jackson

hadoop - 配置单元错误 : compiling statement: FAILED: ParseException line 15:0 missing EOF at 'collection' near ''\n''

我是hive的新手，我正在创建一个具有以下属性的表，CREATEEXTERNALTABLEEXTTBL_Transactions(TRANSACTION_IDvarchar(70)COMMENT'UniqueID,`PrimaryKey',DEFINITION_IDvarchar(70)COMMENT'Definition,NullAllowed',USER_IDvarchar(70)COMMENT'Contactid,ForeignKey',PURCHASE_DATETIMETimestampCOMMENT'Saveddattime,NullAllowed',PURCHASE_AMO

amp 39 code section hadoop hive hiveql hive-query

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

在对SparkDataframe执行mapPartitions操作时，是否有任何方法可以从SparkExecutor获取Hadoop文件系统？如果没有，至少有什么方法可以获取Hadoop配置以生成新的Hadoop文件系统？考虑到HDFS是基于Kerberos的。用例类似于(伪代码):spark.sql("SELECT*FROMcities").mapPartitions{iter=>iter.groupedBy(some-variable).foreach{rows=>hadoopFS.write(rows)}TaskContext.getPartitionId}

Executor Hadoop section scala spark apache-spark apache-spark-sql hdfs

java - scala mapreduce 异常 : java. lang.ClassNotFoundException : scala. Function2

我已经在我自己的ubuntulinux18.04机器上安装并配置了jdk1.8/hadoop2.8.4/scala2.10.6，WordCountjava应用程序使用“hadoopjar”命令运行正常。然后我在与javawordcount相同的intellij项目中尝试了scala代码，代码如下:importjava.io.IOExceptionimportjava.util._importorg.apache.hadoop.fs.Pathimportorg.apache.hadoop.io._importorg.apache.hadoop.mapred._objectwc01{@th

scala ClassNotFoundException IntWritable mapreduce java hadoop exception

Scala 日期格式

我有一个data_date，其格式为yyyymmdd:beginDate=Some(LocalDate.of(startYearMonthDay(0),startYearMonthDay(1),startYearMonthDay(2)))varDate=beginDate.get.......valdata_date=Date.toString().replace("-","")这会给我一个“20180202”的结果但是，对于我的用例，我需要结果为201802(yyyymm)。我不想更改beginDate的值，我只想更改data_date值以适合我的用例，我该怎么做？我可以使用拆分功能

Scala 日期 date code section apache-spark hadoop apache-spark-sql

60 61 626364 65 66