sparking_草庐IT

linux -/usr/bin/time 使用 SPARK 时针对 TOP 的 CPU 利用率

我使用Spark中的MLIB库对大小为8G和700万行的数据运行了SVM算法。我在单个节点上以独立模式运行Spark。我使用/usr/bin/time-v来捕获有关作业的数据。我得到了峰值内存利用率和%CPU时间等等。我得到的CPU使用率百分比仅为6%。我在程序运行的同时监视TOP一段时间，我可以看到超过100%几乎始终如一地被使用。我现在很困惑，为什么/usr/bin/time只显示了6%？更多细节-我的机器是16G，我运行的程序消耗了13.88G。程序执行时间为2.1小时。任何见解，任何人？最佳答案我发现了问题。因此，usr

时针 linux section time stackoverflow hadoop apache-spark linux-kernel apache-spark-mllib

hadoop - 无法使用 oozie 运行示例 spark 作业

我正在尝试在CDH5.7集群上设置oozie。我已经按照cloudera文档中的步骤安装和配置了所有内容。最后，我提取了oozie-examples.tar.gz，将其放入hdfs并尝试运行一些示例。MR示例运行良好，但sparkone失败并出现以下错误:Resourcehdfs://cluster/user/hdfs/.sparkStaging/application_1462195303197_0009/oozie-examples.jarchangedonsrcfilesystem(expected1462196523983,was1462196524951我用来运行示例的命令是

hadoop oozie gt lt apache-spark cloudera-cdh

hadoop - 我们需要在所有数据节点上安装 spark worker 节点吗？

我正在计划一个新的Spark集群。我的问题是我需要在所有数据节点上安装sparkworker节点吗？比如我有50个数据节点，我只安装了10个sparkworker节点，合理吗？谢谢! 最佳答案是的，您需要在所有节点上安装sparkworker，因为默认情况下您无法预测将使用哪个节点。请找thislink用于多节点spark安装关于hadoop-我们需要在所有数据节点上安装sparkworker节点吗？，我们在StackOverflow上找到一个类似的问题：

hadoop worker section spark apache-spark

maven - 无法使用 spark-1.6.1-bin-hadoop1 运行 spark-terasort

我正在尝试运行spark-terasort使用spark-1.6.1-bin-hadoop1(hadoop1.X的预构建包)。当我尝试运行spark时:./bin/spark-submit--classcom.github.ehiggs.spark.terasort.TeraGen~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar100Ghdfs:///input_terasort我得到错误:Exceptioninthread"main"java.lang.IncompatibleClassChang

spark spark-terasort terasort maven hadoop apache-spark

hadoop - 有Spark、hadoop、hive的兼容映射吗

理解不同版本的Spark和hadoop之间的版本兼容性令人困惑。Hadoop和Hive也是如此。是否有任何表格可以根据它知道哪个版本与另一个版本兼容？最佳答案 @cricket_007分享的兼容性图表http://hortonworks.com/wp-content/uploads/2016/03/asparagus-chart-hdp24.png 关于hadoop-有Spark、hadoop、hive的兼容映射吗，我们在StackOverflow上找到一个类似的问题：

hadoop Spark section asparagus-chart-hdp apache-spark hive

scala - Spark (Scala) 中的 K-means - 当模型由标准化数据制成时如何将集群编号映射回客户 ID

以下代码用于获取模型。我面临的问题是将集群编号映射回客户ID。这是因为，我的模型是在标准化数据上训练的，但带有客户ID的数据包含未标准化的数据。我不知道如何映射回去。importorg.apache.spark.SparkContext._importorg.apache.spark.mllib.clustering.{KMeans,KMeansModel}importorg.apache.spark.mllib.linalg.Vectorsimportscala.collection.mutable.ArrayBufferimportorg.apache.spark.mllib.fe

制成 K-means section val import scala hadoop apache-spark

hadoop - 基于硬件的 apache spark 的最佳设置

是否有硬件系统、cpu内核及其相关内存的数量到spark-submit可调参数的映射/转换:执行器内存执行器核心执行者数该应用程序肯定与这些可调参数有关，但我正在寻找“基本经验法则”Apachespark以集群模式在带有hdfs的yarn上运行。并非spark/hadoopyarn集群中的所有硬件系统都具有相同数量的cpu内核或RAM。最佳答案没有经验法则，但经过考虑堆外内存正在运行的应用程序和其他hadoop守护进程的数量资源经理需求HDFS接口(interface)等等您可以导出合适的配置。请检查这个url

hadoop apache section 可调 spark apache-spark

hadoop - 在 Spark 中保存中间结果

我正在使用SparkSQL1.6.0创建处理管道。该管道由步骤/转换组成，一个步骤的输出转发到下一个步骤。在最后一步之后，结果DataFrame保存在HDFS中。我还需要在一些中间步骤中保存结果。这样做的代码如下:saveDataFrame(flushPath,flushFormat,isCoalesce,flushMode,previousDataFrame,sqlContext)previousDataFrame这里，previousDataFrame是最后一步的结果，saveDataFrame只是将DataFrame保存到给定的位置，然后previousDataFrame将被下一

hadoop Spark format section saveDataFrame apache-spark spark-dataframe

hadoop - Spark 1.6.2 启动 Windows 7 32 位失败

我正在尝试以独立模式在Windows732位上运行spark1.6.2。我将环境变量设置为:SPARK_HOME=c:\sparkHADOOP_HOME=C:\Hadoop我的winutils.exe版本很好对于这个Windows版本。我这样设置主机文件:127.0.0.1localhost所以它认为我做了我在互联网上可以找到的关于这个主题的所有内容，但它仍然抛出这两个异常:(有趣的是我在另一台PC上尝试使用此设置并且它像魅力一样工作..:()可以有人帮我我该怎么做？谢谢!C:\spark\bin>spark-shelllog4j:WARNNoappenderscouldbefound

Windows hadoop scala apache spark apache-spark

hadoop - 在具有高可用性的 Hadoop 集群上运行 Spark-submit 时出现异常

我在具有高可用性的Hadoop集群上运行Spark-submit命令时遇到异常。以下命令在未启用HA的其他集群上运行良好。spark-submit--masteryarn-client--executor-memory4g--executor-cores2--classcom.domain.app.module.mainclasstarget/SNAPSHOT-jar-with-dependencies.jar同一命令在启用HA的集群上不起作用并抛出以下异常。Exceptioninthread"main"java.lang.AbstractMethodError:org.apache.

时出 Spark-submit hadoop section namenode apache-spark