sparks

hadoop - Spark 1.2 : Write single record into multiple files (blacklisted)

我尝试将RDD中的每条记录写入多个文件(每个黑名单一个，并按键分组)到HDFS，并在每个文件集上应用黑名单。首先，我将MultipleTextOutputFormat与keyBy结合使用，按记录中的字段对输出文件进行分组，效果很好。所以我的输出文件现在由一个键命名，来自记录，记录在这个文件中分组。但我现在的问题是，我需要在输出上应用黑名单并分别保存这些输出中的每一个。我使用一个简单的过滤器做到了这一点。现在发生的情况是，应用此文件管理器会导致作业针对x个不同的黑名单完成X次。对于大量记录，这是NotAcceptable。即使之前在Dataframe上调用缓存函数。为了弄清楚我想要什么，

blacklisted multiple 黑名 section strong hadoop apache-spark apache-spark-sql

java - Spark 1.6 DirectFileOutputCommitter

我在使用pyspark将文本文件保存到S3时遇到问题。我能够保存到S3，但它首先上传到S3上的_temporary，然后继续复制到预期位置。这会显着增加作业运行时间。我试图编译一个DirectFileOutputComitter，它应该直接写入预期的S3url，但我无法让Spark使用此类。示例:someRDD.saveAsTextFile("s3a://somebucket/savefolder")这创建了一个s3a://somebucket/savefolder/_temporary/随后写入的目录，之后S3复制操作将文件移回s3a://somebucket/savefolder我

DirectFileOutputCommitter Spark section https blockquote java hadoop amazon-s3 apache-spark pyspark

performance - Apache Spark 分布式环境调优

我会在分布式环境中最大限度地提高Hadoop性能(使用ApacheSpark和Yarn)并且我正在遵循blogpostofCloudera上的提示使用此配置:6nodes,16core/node,ram64G/node建议的解决方案是:--num-executors17--executor-cores5--executor-memory19G但我不明白为什么他们使用17个num执行器(换句话说每个节点3个执行器)。我们的配置是:8nodes,8core/node,ram8G/node什么是最好的解决方案？最佳答案你的内存很低。我

performance Apache section code executor hadoop apache-spark hadoop-yarn

hadoop - 当 spark-shell 启动时，它有 SimpleUserGroupsMapping 的 RuntimeException

我通过Ambari安装HDFS、YARN并尝试在yarn上部署spark。但是当我执行follow脚本时，Spark出现错误如何在yarn上部署spark。您介意解释一下如何逐步在yarn上部署spark吗？我在spark-env.sh中设置了HADOOP_CONF_DIR、YARN_CONF_DIR，在spark-defaults.conf中设置了spark.master。执行脚本./bin/spark-shell--masteryarn-client错误Exceptioninthread"main"java.lang.RuntimeException:java.lang.Runti

SimpleUserGroupsMapping RuntimeException apache spark org hadoop apache-spark hadoop-yarn

hadoop - 如何在 Cloudera 中安装自定义 Spark 版本

我是Spark、Hadoop和Cloudera的新手。我们需要使用特定版本(1.5.2)的Spark，并且还需要使用Cloudera进行集群管理，也需要使用Spark。但是，CDH5.5是随Spark1.5.0一起提供的，不能轻易更改。人们提到“只需手动下载”自定义版本的spark。但是如何通过Cloudera管理这个“自定义”spark版本，以便我可以在集群中分发它？或者，它是否需要完全独立于Cloudera进行操作和配置？感谢您的帮助和解释。最佳答案是的，可以运行任何ApacheSpark版本。!!在做之前我们需要确定的步骤

自定中安 section Spark hadoop apache-spark cloudera

scala - 使用 Apache Spark 写入 HDFS 时的输出序列

我正在使用apacheSpark开发一个项目，要求将经过处理的spark输出写入特定格式，例如Header->Data->Trailer。为了写入HDFS，我使用.saveAsHadoopFile方法并使用key作为文件名将数据写入多个文件。但问题是数据的顺序未维护，文件写入Data->Header->Trailer或三者的不同组合。RDD转换有什么我遗漏的吗？最佳答案好的，在阅读了来自Google的StackOverflow问题、博客和邮件存档之后。我发现了.union()和其他转换的工作原理以及分区的管理方式。当我们使用.u

Apache scala code String RDD hadoop apache-spark

hadoop - 用于分布式数据存储的 Hadoop 或 Spark 连接器如何运作？

Spark具有用于各种数据库和数据存储的连接器。但是，为您自己的自定义分布式数据库创建连接器需要什么。据我了解，Spark使用Hadoop连接器从分布式数据存储中获取数据。我找不到很好的资源来了解Hadoop连接器的工作原理和制作方法。我想了解Hadoop连接器的语义，以便能够为我的自定义数据库创建一个连接器。最佳答案您必须使用带有HadoopAPI的Java实现记录读取器然后Spark就可以使用了我的建议是从阅读TomWhite的书开始关于hadoop-用于分布式数据存储的Had

运作 hadoop section 自定 apache-spark distributed-computing

java - 从目录中读取 HTML 文件并分别发送每个文件的内容以在 java spark 中的方法中进行处理

我是spark的新手，我试图将所有HTML文件放在一个目录中，然后将每个文件的内容分别(如果可能的话还有确切的路径)传递给另一个将处理HTML的方法(我们将使用这从该HTML中提取信息)将只能在Java中执行此操作。提前致谢。最佳答案您可以使用sc.wholeTextFiles方法创建您的RDD，并在RDD上使用映射转换应用您的处理逻辑。示例代码在这里>JavaSparkContextjsc=newJavaSparkContext(sc);>JavaPairRDDrdd=jsc.wholeTextFiles(path);>for

中进 java section println System hadoop apache-spark

hadoop - Spark 1.6.1 横幅显示

Spark版本:1.6.1forhadoop2.6当我启动pysparkREPL(bin/pyspark)时，会显示SPARKLogo，我看到版本1.6.0而不是1.6.1。我想不通。请注意，spark主文件夹中的RELEASE文件确实显示版本为1.6.1，因此我没有意外下载1.6.0版本。最佳答案那里打印的版本似乎来自Java方面。您确定Java库是最新的而不仅仅是PySpark？这是打印横幅的地方:https://github.com/apache/spark/blob/v1.6.1/python/pyspark/shell

hadoop Spark section pyspark https apache-spark

Hadoop 容量调度程序和 Spark

如果我按照此处的说明在yarn中定义CapacityScheduler队列http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html如何让spark使用它？我想运行spark作业...但它们不应占用所有集群，而是在分配了一组固定资源的CapacityScheduler上执行。这可能......特别是在cloudera平台上(考虑到cloudera上的Spark在yarn上运行？)。最佳答案您应该根据需要通过编辑

Hadoop Spark CapacityScheduler section apache-spark cloudera

168 169 170171172 173 174