language-scala

scala - Flink 在 EMR 上写入 S3

我正在尝试使用EMR和Flink将一些输出写入S3。我正在使用Scala2.11.7、Flink1.3.2和EMR5.11。但是，我收到以下错误:java.lang.NoSuchMethodError:org.apache.hadoop.conf.Configuration.addResource(Lorg/apache/hadoop/conf/Configuration;)Vatcom.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize(EmrFileSystem.java:93)atorg.apache.flink.runtime.fs

scala Flink apache 34 amazon-web-services hadoop amazon-s3 apache-flink

scala - 为什么我的测试集群在安全模式下运行？

我正在测试一些基本的HDFS操作，例如创建目录。我的测试中有以下集群配置:importorg.apache.hadoop.fs._importorg.apache.hadoop.fs.permission.FsPermissionimportorg.apache.hadoop.hdfs.{HdfsConfiguration,MiniDFSCluster}//...privatevalbaseDir=newFile("./target/hdfs/test").getAbsoluteFileprivatevalconf=newHdfsConfiguration()conf.set(Mini

scala 为什么 hadoop code section hdfs safe-mode

scala - Spark Scala - 读取具有多种键类型的序列文件？

我有序列文件，其键为LongWritable或Text。这些值都是相同的格式(json)。我想在一个spark作业中一次处理它们，但我不知道如何编写代码以便它适用于Text和LongWritable键.实际上，我什至不关心我工作中的序列记录键，我没有使用它们。这是我为LongWritable所做的。我将如何增强它以同时适用于LongWritable和Text键？有没有办法只加载序列文件记录值并忽略键？valrdd=sparkCtx.sequenceFile[Long,String](srcDir)//putintoJsonrecords,don'tcareaboutseqkeyvalj

多种 scala code section String hadoop apache-spark

scala - 写入 HDFS - hive 时如何控制 Spark 流中的行数和/或输出文件大小？

使用SparkStreaming读取和处理来自Kafka的消息并写入HDFS-Hive。由于我希望避免创建许多垃圾文件系统的小文件，我想知道是否有办法确保最小文件大小和/或强制文件中输出行数最少的能力，除了超时。谢谢。最佳答案据我所知，无法控制输出文件中的行数。但是您可以控制输出文件的数量。控制它并考虑您的数据集大小可能会帮助您满足您的需求，因为您可以计算输出中每个文件的大小。您可以使用coalesce和repartition命令执行此操作:df.coalesce(2).write(...)df.repartition(2).w

scala Spark code section repartition apache-spark hadoop apache-kafka spark-streaming

scala - 将 spark dataframe 写入现有的 parquet hive 表

想要将spark数据帧写入现有的parquethive表。我可以使用df.write.mode("append").insertIto("myexistinghivetable")来完成，但是如果我检查文件系统，我可以看到spark文件以.c000扩展名登陆.那些文件是什么意思？以及如何将dataframe写入parquethive表。最佳答案我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTa

dataframe parquet section spark scala apache-spark hadoop apache-spark-sql hiveql

scala - sbt 运行错误 : java. lang.RuntimeException:非零退出代码:1

我正在使用SBT编写一个sparkscala应用程序，当我将它作为scala应用程序运行时，它会显示输出。当我执行sbtpackage时，它会下载所有依赖项并显示成功。当我执行sbtrun时，它抛出错误:[info]Runningmain.scala.com.sntz.omega.TestUsingSpark'sdefaultlog4jprofile:org/apache/spark/log4j-defaults.properties[error](run-main-0)java.lang.NoSuchMethodError:org.apache.hadoop.io.retry.Ret

RuntimeException scala AsyncEventQueue apache spark apache-spark hadoop sbt

scala - 如何从数据帧中提取数据帧的子集

我想从我从parquet文件生成的df中提取数据帧的子集+----+-----+----------+-----+-----------------+-----+-----------+-----+|year|state|count1|rowId|count2|rowId|count3|rowId|+----+-----+----------+-----+-----------------+-----+-----------+-----+|2014|CT|343477|0|343477|0|343477|0||2014|DE|123431|1|123431|1|123431|1||20

scala 数据帧 rowId 123431 343477 apache-spark hadoop bigdata

scala - 无法使用 CSV 文件的 spark scala 显示数据帧记录

我通过使用map函数将RDD转换为DF创建了dataframe。当我尝试显示记录时，它给我exception。下面是我的代码://Createdcaseclasscaseclassemployees(emp_id:java.lang.Long,emp_name:String,job_name:String,manager_id:java.lang.Long,hire_date:String,salary:java.lang.Double,commision:java.lang.Double,dep_id:java.lang.Long);//CreatedDFvalemployeesDf

scala spark code section java apache-spark hadoop bigdata

scala - 使用spark scala远程连接hbase

我在我的窗口(这是我的本地)中配置了Hadoop和spark，我在一个虚拟机(同一台机器)中设置了cloudera，它里面有hbase。我正在尝试使用sparkstream提取数据并将其放入vm中的hbase中。这有可能吗？我的尝试:打包hbaseimportorg.apache.hadoop.hbase.HBaseConfigurationimportorg.apache.hadoop.hbase.client.{ConnectionFactory,HBaseAdmin,HTable,Put,Get}objectConnect{defmain(args:Array[String]){

scala hbase java ConnectionImplementation apache-spark hadoop spark-streaming

scala - 从spark中的json模式动态生成df.select语句

我正在从宽字符串中选择列，其偏移量如下所示df2=df.select(substring(col("a"),4,6).as("c")).cast(IntegerType)但是我必须从字符串中提取1000列，如果我可以提供诸如列名、数据类型、宽度、起始位置和结束位置等详细信息，那么如何使用jsonsparkstruct模式生成select语句。另外，我不得不将一些列转换为intergertype或longtype，但是我观察到这些字段被像111111111将在转换为integertype时转换为1 最佳答案如果可以使用configf

select scala section 列名 apache-spark hadoop bigdata

143 144 145146147 148 149