spark-ml

hadoop - Spark/Hadoop/Yarn集群通信需要外部ip？

我使用bdutil在Hadoop(2.6)集群上部署了带有yarn-client的Spark(1.3.1)，默认情况下，实例是使用临时外部ips创建的，到目前为止spark工作正常。考虑到一些安全问题，并假设集群只能在内部访问，我从实例中删除了外部ips；在那之后，spark-shell甚至不会运行，并且似乎无法与Yarn/Hadoop通信，并且会无限期地卡住。只有在我重新添加外部ips之后，spark-shell才开始正常工作。我的问题是，运行sparkoveryarn是否需要节点的外部ips，为什么？如果是，是否会有关于安全等方面的担忧？谢谢! 最佳答案

hadoop - 加入 Spark 输出错误的结果，而 map-side join 是正确的

我的spark版本是1.2.0，场景是这样的:有两个RDD，分别是RDD_A和RDD_B，其数据结构都是RDD[(spid,the_same_spid)]。RDD_A有20,000行，而RDD_B有3,000,000,000行。我打算计算其“spid”存在于RDD_A中的RDD_B的行数。我的第一个实现相当主流，在RDD_A上应用RDD_B的join方法:valcurrentDay=args(0)valconf=newSparkConf().setAppName("Spark-MonitorPlus-LogStatistic")valsc=newSparkContext(conf)//

map-side hadoop spid 34 RDD join apache-spark

hadoop - 使用 Apache Spark Streaming 和 Dataframes 交互式搜索 Parquet 存储的数据

我有大量数据作为Parquet文件存储在我的HadoopHDFS上我正在使用Spark流以交互方式接收来自Web服务器的查询，并将接收到的查询转换为SQL，以便使用SparkSQL在我的数据上运行。在此过程中，我需要运行多个SQL查询，然后通过合并或减去各个查询的结果来返回一些聚合结果。有没有什么方法可以优化和提高流程速度，例如，对已收到的数据帧而不是整个数据库运行查询？有没有更好的方式来交互查询Parquet存储的数据并给出结果？谢谢! 最佳答案如果您在同一个RDD上运行多个查询，您可以通过在查询之前使用.cache()缓存RD

Dataframes Streaming section noreferrer noopener hadoop apache-spark apache-spark-sql spark-streaming parquet

scala - 使用 Spark 将 csv.gz 文件转换为 Parquet

我需要使用Spark(首选Scala)将AWSS3和HDFS中文件夹中的csv.gz文件转换为Parquet文件。数据的一列是时间戳，我只有一周的数据集。时间戳格式为:'yyyy-MM-ddhh:mm:ss'我想要的输出是，对于每一天，都有一个文件夹(或分区)，其中包含该特定日期的Parquet文件。所以会有7个输出文件夹或分区。我对如何执行此操作只有一个模糊的想法，我脑子里只有sc.textFile。Spark中是否有可以转换为Parquet的函数？我如何在S3和HDFS中实现它？谢谢你的帮助。最佳答案如果您查看SparkDa

Parquet scala section Spark hadoop amazon-s3 apache-spark

scala - 使用 Spark 分析推特数据

其他任何人都可以帮助我了解如何根据我写的“键”分析推特数据。我找到了这段代码，但这给我一个错误。importjava.io.Fileimportcom.google.gson.Gsonimportorg.apache.spark.streaming.twitter.TwitterUtilsimportorg.apache.spark.streaming.{Seconds,StreamingContext}importorg.apache.spark.{SparkConf,SparkContext}/***Collectatleastthespecifiednumberoftweetsi

scala Spark 34 section hadoop apache-spark spark-streaming

scala - Spark 斯卡拉 : JniBasedUnixGroupsMapping: Error getting groups for XXX: The user name could not be found

我一直在使用scalaIDE中的spark从我的本地系统连接到Hive(在集群中)，最后将我的hive-site.xml正确地放置在Spark/conf文件夹和类路径中并且能够连接到Metastore但是无法访问配置单元表。如何更改HiveContext的用户15/12/2210:28:42INFOParseDriver:解析命令:显示表15/12/2210:28:43信息ParseDriver:解析已完成15/12/2210:28:45信息Metastore:尝试使用URIthrift://Server.com:9083连接到Metastore22年12月15日10:28:46信息J

斯卡拉斯卡 HiveContext scala apache maven hadoop apache-spark

hadoop - 当 spark 处于本地模式时，是否有任何守护进程运行？

当我们在本地模式下运行Spark[通过设置-Dspark.master=local[n]]时，这意味着将运行N个线程来完成作业。但是它会在本地jvm中启动任何守护进程(驱动程序或执行程序)吗？最佳答案在本地模式下，它启动单个JVM进程，其中包括单个驱动程序(每个spark应用程序始终有一个驱动程序)和只有一个执行程序并置在驱动程序的JVM进程中关于hadoop-当spark处于本地模式时，是否有任何守护进程运行？，我们在StackOverflow上找到一个类似的问题：

处于 hadoop section 驱动 strong apache-spark daemon bigdata

hadoop - 对于 Cloudera 5.4 hadoop 集群，Spark 独立调度程序或 Yarn 调度程序更好吗？

关于能够使用Spark运行机器学习作业。Yarn调度器和SparkStandalone调度器哪个更好？最佳答案运行实际的spark作业时没有区别。如果您的集群中运行着不同的spark应用程序和/或其他组件(当然支持Yarn/Mesos)，Yarn/Mesos可以帮助您安排资源。Spark独立集群无法管理资源。也就是说，如果您启动一个Spark应用程序并且它使用了所有资源，那么第二个应用程序将找不到任何剩余资源。这意味着您必须自己执行此操作(例如相应地调整Spark配置) 关于hado

hadoop Cloudera section Spark 中运 apache-spark scheduler hadoop-yarn

hadoop - Spark 1.2 : Write single record into multiple files (blacklisted)

我尝试将RDD中的每条记录写入多个文件(每个黑名单一个，并按键分组)到HDFS，并在每个文件集上应用黑名单。首先，我将MultipleTextOutputFormat与keyBy结合使用，按记录中的字段对输出文件进行分组，效果很好。所以我的输出文件现在由一个键命名，来自记录，记录在这个文件中分组。但我现在的问题是，我需要在输出上应用黑名单并分别保存这些输出中的每一个。我使用一个简单的过滤器做到了这一点。现在发生的情况是，应用此文件管理器会导致作业针对x个不同的黑名单完成X次。对于大量记录，这是NotAcceptable。即使之前在Dataframe上调用缓存函数。为了弄清楚我想要什么，

blacklisted multiple 黑名 section strong hadoop apache-spark apache-spark-sql

java - Spark 1.6 DirectFileOutputCommitter

我在使用pyspark将文本文件保存到S3时遇到问题。我能够保存到S3，但它首先上传到S3上的_temporary，然后继续复制到预期位置。这会显着增加作业运行时间。我试图编译一个DirectFileOutputComitter，它应该直接写入预期的S3url，但我无法让Spark使用此类。示例:someRDD.saveAsTextFile("s3a://somebucket/savefolder")这创建了一个s3a://somebucket/savefolder/_temporary/随后写入的目录，之后S3复制操作将文件移回s3a://somebucket/savefolder我

DirectFileOutputCommitter Spark section https blockquote java hadoop amazon-s3 apache-spark pyspark

177 178 179180181 182 183