草庐IT

spark-submit

全部标签

database - 将 Spark 与 Cassandra 结合使用的优势

我看到结合使用Spark和Cassandra比较流行。我知道Cassandra是一种大数据解决方案,提供可靠性而不是一致性,因此适合实时系统。它还为查询提供类似SQL的语法,但在底层管理其数据的方式与普通数据库截然不同。另一方面,Hadoop提供的一致性优于可靠性,因此适合分析系统。它的接口(interface)是MapReduce,对于现在来说速度很慢而且级别太低。所以这就是Sparks的用武之地。Sparks使用Hadoop的HDFS并用更好的架构取代旧的MapReduce,该架构更多地利用内存而不是硬盘,并公开更好的接口(interface),例如RDD和数据帧。所以我的问题是:

scala - Spark Dataframe - 如何访问 json 结构

我有一个像这样的json文件:{"employeeDetails":{"name":"xxxx","num":"415"},"work":[{"monthYear":"01/2007","workdate":"1|2|3|....|31","workhours":"8|8|8....|8"},{"monthYear":"02/2007","workdate":"1|2|3|....|31","workhours":"8|8|8....|8"}]}我必须从这个json数据中获取工作日期和工作时间。我正在使用Spark2.1.1我试过这样的:valspark=SparkSession.bu

scala - 如何删除以 Apache Spark 中的某个单词开头的多个 hdfs 目录

我使用dstream.saveAsObjectFiles("/temObj")方法在sparkstreaming中保存了对象文件,它在hdfs中显示了多个文件。temObj-1506338844000temObj-1506338848000temObj-1506338852000temObj-1506338856000temObj-1506338860000我想在全部读取后删除所有temObj文件。在spark.js中做这件事的最佳方式是什么?我试过了valhdfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI("hdfs://

scala - 在 Spark/Hadoop 中保存为自定义输出格式

我有一个包含多个数据结构的RDD,而这些数据结构之一是Map[String,Int]。为了便于可视化,我在map转换后得到以下内容:valdata=...//ThisisaRDD[Map[String,Int]]在这个RDD的一个元素中,Map包含以下内容:*keyvalue*map_id->7753Oscar->39Jaden->13Thomas->1Chris->52然后在RDD的其他元素中包含其他名称和数字,每个map包含一个特定的map_id。无论如何,如果我简单地执行data.saveAsTextFile(path),我将在我的文件中获得以下输出:Map(map_id->77

scala - Spark 标度 : select column name from other dataframe

有两个json,第一个json有更多的列,并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作,但是df1有10列,而df2只有8列。如果手动从df1中删除2列,则except将起作用。但是我有50多个表/json,需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3?所以df3将拥有来自df1的有限列的数据,并且它将与df2列匹配。 最佳答案

apache-spark - HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同?

我正在学习ApacheSpark和HDFS。尽管我对一件事感到困惑,但我大部分都理解它们。我的问题是:HDFS中的数据节点是否与spark集群中的执行程序节点相同?换句话说,HDFS中的节点是在对它们包含的数据进行操作,还是来自HDFS中的数据节点的数据被发送到对数据进行操作的spark集群中的执行程序节点?如果您想让我澄清任何事情,请告诉我!任何帮助将非常感激!谢谢,泰勒 最佳答案 我总是先从独立的角度思考这些概念,然后再从集群的角度考虑。考虑到单台机器(并且您还将在本地模式下运行Spark),DataNode和NameNode只

scala - Spark 中的 FileNotFound 错误

我在集群上运行一个简单的spark程序:vallogFile="/home/hduser/README.md"//Shouldbesomefileonyoursystemvalconf=newSparkConf().setAppName("SimpleApplication")valsc=newSparkContext(conf)vallogData=sc.textFile(logFile).cache()valnumAs=logData.filter(line=>line.contains("a")).count()valnumBs=logData.filter(line=>line

hadoop - 无法在 EMR 中运行 Spark 步骤

如果你能给我一些启发,我将不胜感激。我在AmazonEMR中作为Spark步骤运行字数统计map缩减时遇到问题。但是我设法通过ssh连接到主节点并在spark-shell中运行字数统计逻辑没有问题。它提示说__spark_conf_xx.zip在主HDFS上不存在,虽然复制时没有错误16/04/0507:20:21INFOyarn.Client:Uploadingresourcefile:/mnt/tmp/spark-1d701ab0-7990-4ca2-bee2-099aed8e8e6b/__spark_conf__9006968814682693730.zip->hdfs://ip

hadoop - 重命名在 hadoop - Spark 中创建的文件

这个问题在这里已经有了答案:HDFS:movemultiplefilesusingJava/ScalaAPI(1个回答)关闭5年前。在HDFS中通过write创建的文件有自己的命名约定。要将其更改为自定义名称,可以使用hadoopfs-mvoldnamenewname通过脚本进行选择Spark/Hadoop中是否有任何其他选项可以为创建的文件提供自定义名称。

apache-spark - parquet支持哪些压缩类型

我正在使用spark以parquet格式在Hadoop和hive上写入数据。我想启用压缩,但我只能找到2种压缩类型-大多数时候都使用snappy和Gzip。Parquet是否也支持任何其他压缩,如Deflate和lzo? 最佳答案 ApacheParquet支持的压缩类型在parquet-format存储库中指定:/***Supportedcompressionalgorithms.**Codecsaddedin2.4canbereadbyreadersbasedon2.4andlater.*Codecsupportmayvaryb