草庐IT

spark_libs

全部标签

hadoop - 为具有多个 spark 客户端的 yarn 集群计算 yarn.nodemanager.resource.cpu-vcores

如果我有3个spark应用程序都使用同一个yarncluster,我应该如何设置yarn.nodemanager.resource.cpu-vcores在3个yarn-site.xml中的每一个?(每个spark应用程序都需要在类路径上有自己的yarn-site.xml)这个值在客户端yarn-site.xml中是否重要?如果是:假设集群有16个核心。每个yarn-site.xml中的值是否应该为5(总共15,为系统进程留下1个核心)?或者我应该将每个设置为15吗?(注意:Cloudera表示此处应为系统进程保留一个核心:http://blog.cloudera.com/blog/20

hadoop - 我可以使用 spark 数据帧创建序列文件吗?

我有一个要求,我需要在其中创建一个序列文件。现在我们已经在hadoopapi之上编写了自定义api,但是由于我们在spark中移动,我们必须使用spark来实现相同的目标。这可以实现吗使用spark数据帧? 最佳答案 据我所知,DataFrame中没有直接可用的nativeapi除了下面的方法请在下面的示例中尝试/思考类似的东西(这是DataFrame样式的RDD,受SequenceFileRDDFunctions.scala和方法saveAsSequenceFile启发):ExtrafunctionsavailableonRDDs

hadoop - "Delegation Token can be issued only with kerberos or web authentication"空闲后重启 spark context

我尝试将spark应用程序部署到由YARN控制的kerberizedhadoop集群。Spark版本为1.5.0-cdh5.5.2。在超过10秒的空闲时间后停止SparkContext并初始化一个新的时,我遇到了一个奇怪的异常。我尝试做一些类似于this的事情开发人员,并明确指定了hdfs名称节点地址,但没有帮助。更令人困惑的是,如果我根本不重置SparkContext或在此spark上下文中执行最后一个命令后不到10秒内重置它,一切都会正常工作。我该如何解决?这是遇到问题的最小化情况:packagedemo;importorg.apache.spark.SparkConf;impor

java - 在 spark 提交中覆盖 spark 的库

我们应用程序的hadoop集群安装了spark1.5。但由于特定要求,我们开发了2.0.2版的spark作业。当我将作业提交到yarn时,我使用--jars命令覆盖集群中的spark库。但它仍然没有选择scala库jar。它抛出一个错误说ApplicationMaster:Userclassthrewexception:java.lang.NoSuchMethodError:scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object;java.lang.NoSuchMethodError:scala.Predef$.Arr

python - Spark 簇错误: ClassNotFoundException

我使用spark框架处理大数据、hadoop文件系统和集群管理器YARN。当我尝试使用命令spark-submit--deploy-modecluster--masteryarnstreaming.py运行我的python应用程序时我收到一个错误:16/12/1915:42:44WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableExceptioninthread"main"java.lang.RuntimeE

hadoop - 在 docker 容器上的 zeppelin 中运行 spark 时找不到 lzo

我正在尝试将spark代码运行到zeppelin中,我得到了这个:java.lang.ClassNotFoundException:找不到类com.hadoop.compression.lzo.LzoCodeczeppelinembeddedspark和我自己安装的sparkshell(1.6.3)存在同样的问题session:来自debian:jessie的docker容器zeppelin版本:0.6.2(从tar安装而不是从源代码构建)cdh版本:5.9.0容器上安装了liblzo2-dev和hadoop-lzoSPARK_HOME和HADOOP_HOME被设置为环境变量,也在co

java - 在 map 调用中获取 Spark 上的行

我尝试从HDFS中的文件聚合数据。我需要从那些对hbase中的特定表具有值(value)的数据中添加一些详细信息。但我有异常(exception):org.apache.spark.SparkException:Tasknotserializableatorg.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166)atorg.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158)atorg.apache.spa

hadoop - 在正在运行的 spark/hadoop 集群中添加一个 hdfs datanode

我有一个带有1个主节点和2个节点(工作节点+数据节点)的spark集群。我想添加另一个数据节点。问题是,当我执行hdfsdfs-setrep-R-w2时,结果是:1stdatanode->DFSUsed%:75.61%2nddatanode->DFSUsed%:66.78%3rddatanode->DFSUsed%:8.83%您知道如何平衡hdfs中的block,以便每个block大约为30->33%吗?谢谢 最佳答案 运行balancer,集群平衡实用程序。这将重新平衡数据节点之间的数据。hdfsbalancer-threshol

json - spark.RDD take(n) 返回元素n的数组,n次

我正在使用来自https://github.com/alexholmes/json-mapreduce的代码将多行json文件读入RDD。vardata=sc.newAPIHadoopFile(filepath,classOf[MultiLineJsonInputFormat],classOf[LongWritable],classOf[Text],conf)我打印出前n个元素来检查它是否正常工作。data.take(n).foreach{p=>val(line,json)=pprintlnprintln(newJSONObject(json.toString).toString(4)

hadoop - MapReduce 在哪些类型的用例中优于 Spark?

我刚刚参加了一个关于Spark的入门类(class),并询问演讲者Spark是否可以完全替代MapReduce,并被告知Spark可以在任何用例中替代MapReduce,但在某些特定用例中,MapReduce实际上更快比Spark。MapReduce可以比Spark更快解决的用例有哪些特点? 最佳答案 请原谅我quotingmyselffromQuora,但是:对于MapReduce设计的数据并行、一次性、类似ETL的作业,MapReduce比Spark等价物更轻量级Spark相当成熟,YARN现在也是如此,但Spark-on-YA