spark-submit

database - 将 Spark 与 Cassandra 结合使用的优势

我看到结合使用Spark和Cassandra比较流行。我知道Cassandra是一种大数据解决方案，提供可靠性而不是一致性，因此适合实时系统。它还为查询提供类似SQL的语法，但在底层管理其数据的方式与普通数据库截然不同。另一方面，Hadoop提供的一致性优于可靠性，因此适合分析系统。它的接口(interface)是MapReduce，对于现在来说速度很慢而且级别太低。所以这就是Sparks的用武之地。Sparks使用Hadoop的HDFS并用更好的架构取代旧的MapReduce，该架构更多地利用内存而不是硬盘，并公开更好的接口(interface)，例如RDD和数据帧。所以我的问题是:

scala - Spark Dataframe - 如何访问 json 结构

我有一个像这样的json文件:{"employeeDetails":{"name":"xxxx","num":"415"},"work":[{"monthYear":"01/2007","workdate":"1|2|3|....|31","workhours":"8|8|8....|8"},{"monthYear":"02/2007","workdate":"1|2|3|....|31","workhours":"8|8|8....|8"}]}我必须从这个json数据中获取工作日期和工作时间。我正在使用Spark2.1.1我试过这样的:valspark=SparkSession.bu

Dataframe scala 34 code work hadoop apache-spark

scala - 如何删除以 Apache Spark 中的某个单词开头的多个 hdfs 目录

我使用dstream.saveAsObjectFiles("/temObj")方法在sparkstreaming中保存了对象文件，它在hdfs中显示了多个文件。temObj-1506338844000temObj-1506338848000temObj-1506338852000temObj-1506338856000temObj-1506338860000我想在全部读取后删除所有temObj文件。在spark.js中做这件事的最佳方式是什么？我试过了valhdfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI("hdfs://

除以单词 code section temObj scala hadoop apache-spark hdfs spark-streaming

scala - 在 Spark/Hadoop 中保存为自定义输出格式

我有一个包含多个数据结构的RDD，而这些数据结构之一是Map[String,Int]。为了便于可视化，我在map转换后得到以下内容:valdata=...//ThisisaRDD[Map[String,Int]]在这个RDD的一个元素中，Map包含以下内容:*keyvalue*map_id->7753Oscar->39Jaden->13Thomas->1Chris->52然后在RDD的其他元素中包含其他名称和数字，每个map包含一个特定的map_id。无论如何，如果我简单地执行data.saveAsTextFile(path)，我将在我的文件中获得以下输出:Map(map_id->77

自定 Hadoop code map map_id scala apache-spark rdd

scala - Spark 标度 : select column name from other dataframe

有两个json，第一个json有更多的列，并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作，但是df1有10列，而df2只有8列。如果手动从df1中删除2列，则except将起作用。但是我有50多个表/json，需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3？所以df3将拥有来自df1的有限列的数据，并且它将与df2列匹配。最佳答案

dataframe column section strong df scala apache-spark hadoop apache-spark-sql

apache-spark - HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同？

我正在学习ApacheSpark和HDFS。尽管我对一件事感到困惑，但我大部分都理解它们。我的问题是:HDFS中的数据节点是否与spark集群中的执行程序节点相同？换句话说，HDFS中的节点是在对它们包含的数据进行操作，还是来自HDFS中的数据节点的数据被发送到对数据进行操作的spark集群中的执行程序节点？如果您想让我澄清任何事情，请告诉我!任何帮助将非常感激!谢谢，泰勒最佳答案我总是先从独立的角度思考这些概念，然后再从集群的角度考虑。考虑到单台机器(并且您还将在本地模式下运行Spark)，DataNode和NameNode只

apache-spark apache code strong section hadoop mapreduce hdfs

scala - Spark 中的 FileNotFound 错误

我在集群上运行一个简单的spark程序:vallogFile="/home/hduser/README.md"//Shouldbesomefileonyoursystemvalconf=newSparkConf().setAppName("SimpleApplication")valsc=newSparkContext(conf)vallogData=sc.textFile(logFile).cache()valnumAs=logData.filter(line=>line.contains("a")).count()valnumBs=logData.filter(line=>line

FileNotFound scala apache spark hadoop apache-spark hdfs

hadoop - 无法在 EMR 中运行 Spark 步骤

如果你能给我一些启发，我将不胜感激。我在AmazonEMR中作为Spark步骤运行字数统计map缩减时遇到问题。但是我设法通过ssh连接到主节点并在spark-shell中运行字数统计逻辑没有问题。它提示说__spark_conf_xx.zip在主HDFS上不存在，虽然复制时没有错误16/04/0507:20:21INFOyarn.Client:Uploadingresourcefile:/mnt/tmp/spark-1d701ab0-7990-4ca2-bee2-099aed8e8e6b/__spark_conf__9006968814682693730.zip->hdfs://ip

中运 hadoop application 1459839685827 Client apache-spark emr

hadoop - 重命名在 hadoop - Spark 中创建的文件

这个问题在这里已经有了答案:HDFS:movemultiplefilesusingJava/ScalaAPI(1个回答)关闭5年前。在HDFS中通过write创建的文件有自己的命名约定。要将其更改为自定义名称，可以使用hadoopfs-mvoldnamenewname通过脚本进行选择Spark/Hadoop中是否有任何其他选项可以为创建的文件提供自定义名称。

中创 hadoop section 自定 notice apache-spark spark-dataframe

apache-spark - parquet支持哪些压缩类型

我正在使用spark以parquet格式在Hadoop和hive上写入数据。我想启用压缩，但我只能找到2种压缩类型-大多数时候都使用snappy和Gzip。Parquet是否也支持任何其他压缩，如Deflate和lzo？最佳答案 ApacheParquet支持的压缩类型在parquet-format存储库中指定:/***Supportedcompressionalgorithms.**Codecsaddedin2.4canbereadbyreadersbasedon2.4andlater.*Codecsupportmayvaryb

apache-spark parquet section parquet-format hadoop hive compression

205 206 207208209 210 211