草庐IT

sparking

全部标签

scala - 在 Spark/Hadoop 中保存为自定义输出格式

我有一个包含多个数据结构的RDD,而这些数据结构之一是Map[String,Int]。为了便于可视化,我在map转换后得到以下内容:valdata=...//ThisisaRDD[Map[String,Int]]在这个RDD的一个元素中,Map包含以下内容:*keyvalue*map_id->7753Oscar->39Jaden->13Thomas->1Chris->52然后在RDD的其他元素中包含其他名称和数字,每个map包含一个特定的map_id。无论如何,如果我简单地执行data.saveAsTextFile(path),我将在我的文件中获得以下输出:Map(map_id->77

scala - Spark 标度 : select column name from other dataframe

有两个json,第一个json有更多的列,并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作,但是df1有10列,而df2只有8列。如果手动从df1中删除2列,则except将起作用。但是我有50多个表/json,需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3?所以df3将拥有来自df1的有限列的数据,并且它将与df2列匹配。 最佳答案

apache-spark - HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同?

我正在学习ApacheSpark和HDFS。尽管我对一件事感到困惑,但我大部分都理解它们。我的问题是:HDFS中的数据节点是否与spark集群中的执行程序节点相同?换句话说,HDFS中的节点是在对它们包含的数据进行操作,还是来自HDFS中的数据节点的数据被发送到对数据进行操作的spark集群中的执行程序节点?如果您想让我澄清任何事情,请告诉我!任何帮助将非常感激!谢谢,泰勒 最佳答案 我总是先从独立的角度思考这些概念,然后再从集群的角度考虑。考虑到单台机器(并且您还将在本地模式下运行Spark),DataNode和NameNode只

scala - Spark 中的 FileNotFound 错误

我在集群上运行一个简单的spark程序:vallogFile="/home/hduser/README.md"//Shouldbesomefileonyoursystemvalconf=newSparkConf().setAppName("SimpleApplication")valsc=newSparkContext(conf)vallogData=sc.textFile(logFile).cache()valnumAs=logData.filter(line=>line.contains("a")).count()valnumBs=logData.filter(line=>line

hadoop - 无法在 EMR 中运行 Spark 步骤

如果你能给我一些启发,我将不胜感激。我在AmazonEMR中作为Spark步骤运行字数统计map缩减时遇到问题。但是我设法通过ssh连接到主节点并在spark-shell中运行字数统计逻辑没有问题。它提示说__spark_conf_xx.zip在主HDFS上不存在,虽然复制时没有错误16/04/0507:20:21INFOyarn.Client:Uploadingresourcefile:/mnt/tmp/spark-1d701ab0-7990-4ca2-bee2-099aed8e8e6b/__spark_conf__9006968814682693730.zip->hdfs://ip

hadoop - 重命名在 hadoop - Spark 中创建的文件

这个问题在这里已经有了答案:HDFS:movemultiplefilesusingJava/ScalaAPI(1个回答)关闭5年前。在HDFS中通过write创建的文件有自己的命名约定。要将其更改为自定义名称,可以使用hadoopfs-mvoldnamenewname通过脚本进行选择Spark/Hadoop中是否有任何其他选项可以为创建的文件提供自定义名称。

apache-spark - parquet支持哪些压缩类型

我正在使用spark以parquet格式在Hadoop和hive上写入数据。我想启用压缩,但我只能找到2种压缩类型-大多数时候都使用snappy和Gzip。Parquet是否也支持任何其他压缩,如Deflate和lzo? 最佳答案 ApacheParquet支持的压缩类型在parquet-format存储库中指定:/***Supportedcompressionalgorithms.**Codecsaddedin2.4canbereadbyreadersbasedon2.4andlater.*Codecsupportmayvaryb

java - 如何在 Apache Spark 中将时区设置为 UTC?

在Spark的WebUI(端口8080)和环境选项卡上有以下设置:user.timezoneZulu您知道我如何/在哪里可以将其覆盖为UTC吗?环境细节:星火2.1.1jre-1.8.0-openjdk.x86_64没有jdkEC2亚马逊Linux 最佳答案 现在您可以使用:spark.conf.set("spark.sql.session.timeZone","UTC")自https://issues.apache.org/jira/browse/SPARK-18936在2.2.0此外,我将默认时区设置为UTC以避免隐式转换Tim

hadoop - Spark 看不到 Hive 外部表

我是Spark和AWS的菜鸟。我在AWS中有一个DynamoDB表。我使用Hive在EMR上创建了一个Spark集群。使用HiveShell,我创建了外部表“RawData”以连接到DynamoDB。现在,当我使用DynamoDB依赖项jar启动spark-shell--jars/usr/share/aws/emr/ddb/lib/emr-ddb-hive.jar,/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar我可以使用HiveContext查询表“RawData”并得到结果。但是当我使用spark-submit提交我的Spark程序时,我在

scala - 不止一个 Spark 上下文错误

我在下面有这个Spark代码:importorg.apache.hadoop.hbase.client._importorg.apache.hadoop.hbase.{HBaseConfiguration,HTableDescriptor}importorg.apache.hadoop.hbase.mapreduce.TableInputFormatimportorg.apache.hadoop.hbase.io.ImmutableBytesWritableimportorg.apache.hadoop.hbase.util.Bytesimportkafka.serializer.St