草庐IT

sparking

全部标签

scala - 我应该添加哪个依赖项以使用 intelliJ 使用 scala-spark 在 s3 中获取 txt 文件?

我正在使用IntelliJide和scala语言,我想使用IAM用户凭证访问存储在AWSS3中的文本文件。我还没有使用依赖项在我的系统上下载Hadoop。我已经使用Aws依赖项和jets3t依赖项完成了此操作。但我想用Spark来做。我遇到的基本错误是:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classorg.apache.hadoop.fs.s3a.S3AFileSystemnotfound,java.lang.RuntimeException:java.lang.ClassNotFoundExcepti

apache-spark - 关于 HIVE_STATS_JDBC_TIMEOUT 的任何更新以及如何在源代码级别跳过它

当我尝试对Hive使用Spark-Sql时,抛出如下错误。Exceptioninthread"main"java.lang.NoSuchFieldError:HIVE_STATS_JDBC_TIMEOUTatorg.apache.spark.sql.hive.HiveUtils$.formatTimeVarsForHiveClient(HiveUtils.scala:204)atorg.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver$.main(SparkSQLCLIDriver.scala:90)atorg.apache.sp

hadoop - 如何使 hadoop snappy 输出文件的格式与 Spark 生成的文件格式相同

我们使用的是Spark,到目前为止输出的是PSV文件。现在为了节省空间,我们想压缩输出。为此,我们将更改为使用SnappyCodec保存JavaRDD,如下所示:objectRDD.saveAsTextFile(rddOutputFolder,org.apache.hadoop.io.compress.SnappyCodec.class);然后我们将使用Sqoop将输出导入数据库。整个过程运行良好。对于以前在HDFS中生成的PSV文件,我们也想将它们压缩为Snappy格式。这是我们尝试的命令:hadoopjar/usr/hdp/2.6.5.106-2/hadoop-mapreduce/

apache-spark - Hive unix_timestamp 在源列中的毫秒数不起作用

我正在使用Hive1.1a_ingestion_dtm中最后六位代表毫秒。但是如果我也指定模式,unix_timestamp配置单元函数会给我相同的结果那么我如何获得包含毫秒的unix_timestamp结果selecta_ingestion_dtm,unix_timestamp(a_ingestion_dtm)fromomegalimit10;+-----------------------------+-------------+--+|a_ingestion_dtm|_c1|+-----------------------------+-------------+--+|2019

scala - 在 Spark Scala 中动态创建数据帧

我有几列数据来自Dataframe1,在一个循环中(来自不同的行)。我想用所有这些不同的行/列数据创建一个Dataframe2。下面是示例数据,我尝试使用Seq:varDF1=Seq(("11111111","0101","6573","X1234",12763),("44444444","0148","8382","Y5678",-2883),("55555555","0154","5240","Z9011",8003))我想在上面的Seq下面添加2个动态行,然后使用最终的Seq创建一个Dataframe。("88888888","1333","7020","DEF34",500)(

apache-spark - Spark : Understanding Dynamic Allocation

我已经启动了一个具有以下配置的spark作业:--masteryarn--deploy-modecluster--confspark.scheduler.mode=FAIR--confspark.dynamicAllocation.enabled=true--confspark.dynamicAllocation.maxExecutors=19--confspark.dynamicAllocation.minExecutors=0它运行良好并成功完成,但在检查sparkhistoryui后,这是我看到的:我的问题是(我关心的是理解而不是解决方案):如果没有任务可做,为什么spark会请

apache-spark - 有没有办法一次加入两个以上的数据集?

我有4个具有不同架构的数据集。我需要用left-anti加入他们。我不想一一加入,而是想知道有没有办法一次加入所有这些。 最佳答案 所以这里是spark2.4.3的嵌套连接。所以我只是随机抽取一些东西来给你一个实现嵌套连接的想法。FirstDataFramescala>valsomeDF=Seq(("user1","math","algebra-1","90"),("user1","physics","gravity","70"),("user3","biology","health","50"),("user2","biology

hadoop - 运行 Spark 作业时出现奇怪的错误

我正在运行一个有80台机器的spark集群。每台机器都是一个8核,50GB内存的虚拟机(41似乎是Spark可用的)。我在几个输入文件夹上运行,我估计输入的大小约为250GBgz压缩。我在驱动程序日志中收到错误信息,我不知道该怎么做。示例(按照它们在日志中出现的顺序):240884[Resultresolverthread-0]WARNorg.apache.spark.scheduler.TaskSetManager-Losttask445.0instage1.0(TID445,hadoop-w-59.c.taboola-qa-01.internal):java.net.SocketT

hadoop - Spark SQL(1.1.0版本)是否支持hive索引?

我使用了sparkSQLconnecthive,基本查询可以,但是无法创建索引,请问sparkSQL支持索引吗?DROPTABLEtest_tabe;CREATETABLEtest_tabe(....,areaSTRING...)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LINESTERMINATEDBY'\n'STOREDASRCFILE--STOREDASSEQUENCEFILE;CREATEINDEXidx_compact_indexONTABLEtest_tabe(area)AS'COMPACT'WITHDEFERREDREBUILD#!!

java - Spark : Read Iterate on 2 files

我需要一些有关Spark+Java编程的帮助。这是我的问题:我在hdfs中有一个大文件,名为A,另一个大文件名为B。基本上,我需要同时迭代第一个(A)和第二个(B)。我的意思是这样的(这是伪代码):a=read.A;//ReadrecordfromAb=read.B;//ReadrecordfromBwhile(a!=EOF){if(a>b){b=read.B;//WriteOutputinsomeway}else{a=read.A;//Writeoutputinsomeway}}是否可以使用Spark+Java做类似的事情? 最佳答案