sparking

scala - 在 Spark/Hadoop 中保存为自定义输出格式

我有一个包含多个数据结构的RDD，而这些数据结构之一是Map[String,Int]。为了便于可视化，我在map转换后得到以下内容:valdata=...//ThisisaRDD[Map[String,Int]]在这个RDD的一个元素中，Map包含以下内容:*keyvalue*map_id->7753Oscar->39Jaden->13Thomas->1Chris->52然后在RDD的其他元素中包含其他名称和数字，每个map包含一个特定的map_id。无论如何，如果我简单地执行data.saveAsTextFile(path)，我将在我的文件中获得以下输出:Map(map_id->77

自定 Hadoop code map map_id scala apache-spark rdd

scala - Spark 标度 : select column name from other dataframe

有两个json，第一个json有更多的列，并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作，但是df1有10列，而df2只有8列。如果手动从df1中删除2列，则except将起作用。但是我有50多个表/json，需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3？所以df3将拥有来自df1的有限列的数据，并且它将与df2列匹配。最佳答案

dataframe column section strong df scala apache-spark hadoop apache-spark-sql

apache-spark - HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同？

我正在学习ApacheSpark和HDFS。尽管我对一件事感到困惑，但我大部分都理解它们。我的问题是:HDFS中的数据节点是否与spark集群中的执行程序节点相同？换句话说，HDFS中的节点是在对它们包含的数据进行操作，还是来自HDFS中的数据节点的数据被发送到对数据进行操作的spark集群中的执行程序节点？如果您想让我澄清任何事情，请告诉我!任何帮助将非常感激!谢谢，泰勒最佳答案我总是先从独立的角度思考这些概念，然后再从集群的角度考虑。考虑到单台机器(并且您还将在本地模式下运行Spark)，DataNode和NameNode只

apache-spark apache code strong section hadoop mapreduce hdfs

scala - Spark 中的 FileNotFound 错误

我在集群上运行一个简单的spark程序:vallogFile="/home/hduser/README.md"//Shouldbesomefileonyoursystemvalconf=newSparkConf().setAppName("SimpleApplication")valsc=newSparkContext(conf)vallogData=sc.textFile(logFile).cache()valnumAs=logData.filter(line=>line.contains("a")).count()valnumBs=logData.filter(line=>line

FileNotFound scala apache spark hadoop apache-spark hdfs

hadoop - 无法在 EMR 中运行 Spark 步骤

如果你能给我一些启发，我将不胜感激。我在AmazonEMR中作为Spark步骤运行字数统计map缩减时遇到问题。但是我设法通过ssh连接到主节点并在spark-shell中运行字数统计逻辑没有问题。它提示说__spark_conf_xx.zip在主HDFS上不存在，虽然复制时没有错误16/04/0507:20:21INFOyarn.Client:Uploadingresourcefile:/mnt/tmp/spark-1d701ab0-7990-4ca2-bee2-099aed8e8e6b/__spark_conf__9006968814682693730.zip->hdfs://ip

中运 hadoop application 1459839685827 Client apache-spark emr

hadoop - 重命名在 hadoop - Spark 中创建的文件

这个问题在这里已经有了答案:HDFS:movemultiplefilesusingJava/ScalaAPI(1个回答)关闭5年前。在HDFS中通过write创建的文件有自己的命名约定。要将其更改为自定义名称，可以使用hadoopfs-mvoldnamenewname通过脚本进行选择Spark/Hadoop中是否有任何其他选项可以为创建的文件提供自定义名称。

中创 hadoop section 自定 notice apache-spark spark-dataframe

apache-spark - parquet支持哪些压缩类型

我正在使用spark以parquet格式在Hadoop和hive上写入数据。我想启用压缩，但我只能找到2种压缩类型-大多数时候都使用snappy和Gzip。Parquet是否也支持任何其他压缩，如Deflate和lzo？最佳答案 ApacheParquet支持的压缩类型在parquet-format存储库中指定:/***Supportedcompressionalgorithms.**Codecsaddedin2.4canbereadbyreadersbasedon2.4andlater.*Codecsupportmayvaryb

apache-spark parquet section parquet-format hadoop hive compression

java - 如何在 Apache Spark 中将时区设置为 UTC？

在Spark的WebUI(端口8080)和环境选项卡上有以下设置:user.timezoneZulu您知道我如何/在哪里可以将其覆盖为UTC吗？环境细节:星火2.1.1jre-1.8.0-openjdk.x86_64没有jdkEC2亚马逊Linux 最佳答案现在您可以使用:spark.conf.set("spark.sql.session.timeZone","UTC")自https://issues.apache.org/jira/browse/SPARK-18936在2.2.0此外，我将默认时区设置为UTC以避免隐式转换Tim

何在 Apache 34 section code java apache-spark pyspark apache-spark-sql jvm

hadoop - Spark 看不到 Hive 外部表

我是Spark和AWS的菜鸟。我在AWS中有一个DynamoDB表。我使用Hive在EMR上创建了一个Spark集群。使用HiveShell，我创建了外部表“RawData”以连接到DynamoDB。现在，当我使用DynamoDB依赖项jar启动spark-shell--jars/usr/share/aws/emr/ddb/lib/emr-ddb-hive.jar,/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar我可以使用HiveContext查询表“RawData”并得到结果。但是当我使用spark-submit提交我的Spark程序时，我在

hadoop Spark section code amazon-web-services apache-spark hive emr

scala - 不止一个 Spark 上下文错误

我在下面有这个Spark代码:importorg.apache.hadoop.hbase.client._importorg.apache.hadoop.hbase.{HBaseConfiguration,HTableDescriptor}importorg.apache.hadoop.hbase.mapreduce.TableInputFormatimportorg.apache.hadoop.hbase.io.ImmutableBytesWritableimportorg.apache.hadoop.hbase.util.Bytesimportkafka.serializer.St

scala Spark import apache section hadoop apache-spark

193 194 195196197 198 199