草庐IT

docker-spark

全部标签

hadoop - "Delegation Token can be issued only with kerberos or web authentication"空闲后重启 spark context

我尝试将spark应用程序部署到由YARN控制的kerberizedhadoop集群。Spark版本为1.5.0-cdh5.5.2。在超过10秒的空闲时间后停止SparkContext并初始化一个新的时,我遇到了一个奇怪的异常。我尝试做一些类似于this的事情开发人员,并明确指定了hdfs名称节点地址,但没有帮助。更令人困惑的是,如果我根本不重置SparkContext或在此spark上下文中执行最后一个命令后不到10秒内重置它,一切都会正常工作。我该如何解决?这是遇到问题的最小化情况:packagedemo;importorg.apache.spark.SparkConf;impor

java - 在 spark 提交中覆盖 spark 的库

我们应用程序的hadoop集群安装了spark1.5。但由于特定要求,我们开发了2.0.2版的spark作业。当我将作业提交到yarn时,我使用--jars命令覆盖集群中的spark库。但它仍然没有选择scala库jar。它抛出一个错误说ApplicationMaster:Userclassthrewexception:java.lang.NoSuchMethodError:scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object;java.lang.NoSuchMethodError:scala.Predef$.Arr

python - Spark 簇错误: ClassNotFoundException

我使用spark框架处理大数据、hadoop文件系统和集群管理器YARN。当我尝试使用命令spark-submit--deploy-modecluster--masteryarnstreaming.py运行我的python应用程序时我收到一个错误:16/12/1915:42:44WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableExceptioninthread"main"java.lang.RuntimeE

hadoop - 在 docker 容器上的 zeppelin 中运行 spark 时找不到 lzo

我正在尝试将spark代码运行到zeppelin中,我得到了这个:java.lang.ClassNotFoundException:找不到类com.hadoop.compression.lzo.LzoCodeczeppelinembeddedspark和我自己安装的sparkshell(1.6.3)存在同样的问题session:来自debian:jessie的docker容器zeppelin版本:0.6.2(从tar安装而不是从源代码构建)cdh版本:5.9.0容器上安装了liblzo2-dev和hadoop-lzoSPARK_HOME和HADOOP_HOME被设置为环境变量,也在co

java - 在 map 调用中获取 Spark 上的行

我尝试从HDFS中的文件聚合数据。我需要从那些对hbase中的特定表具有值(value)的数据中添加一些详细信息。但我有异常(exception):org.apache.spark.SparkException:Tasknotserializableatorg.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166)atorg.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158)atorg.apache.spa

hadoop - 在正在运行的 spark/hadoop 集群中添加一个 hdfs datanode

我有一个带有1个主节点和2个节点(工作节点+数据节点)的spark集群。我想添加另一个数据节点。问题是,当我执行hdfsdfs-setrep-R-w2时,结果是:1stdatanode->DFSUsed%:75.61%2nddatanode->DFSUsed%:66.78%3rddatanode->DFSUsed%:8.83%您知道如何平衡hdfs中的block,以便每个block大约为30->33%吗?谢谢 最佳答案 运行balancer,集群平衡实用程序。这将重新平衡数据节点之间的数据。hdfsbalancer-threshol

json - spark.RDD take(n) 返回元素n的数组,n次

我正在使用来自https://github.com/alexholmes/json-mapreduce的代码将多行json文件读入RDD。vardata=sc.newAPIHadoopFile(filepath,classOf[MultiLineJsonInputFormat],classOf[LongWritable],classOf[Text],conf)我打印出前n个元素来检查它是否正常工作。data.take(n).foreach{p=>val(line,json)=pprintlnprintln(newJSONObject(json.toString).toString(4)

hadoop - MapReduce 在哪些类型的用例中优于 Spark?

我刚刚参加了一个关于Spark的入门类(class),并询问演讲者Spark是否可以完全替代MapReduce,并被告知Spark可以在任何用例中替代MapReduce,但在某些特定用例中,MapReduce实际上更快比Spark。MapReduce可以比Spark更快解决的用例有哪些特点? 最佳答案 请原谅我quotingmyselffromQuora,但是:对于MapReduce设计的数据并行、一次性、类似ETL的作业,MapReduce比Spark等价物更轻量级Spark相当成熟,YARN现在也是如此,但Spark-on-YA

【Docker】从零开始:9.Docker命令:Push推送仓库(Docker Hub,阿里云)

【Docker】从零开始:9.Docker命令:Push推送仓库知识点1.DockerPush有什么作用?2.Docker仓库有哪几种2.1公有仓库2.2第三方仓库2.3私有仓库2.4搭建私有仓库的方法有哪几种3.Docker公有仓库与私有仓库的优缺点对比DockerPush命令标准语法操作参数推送DockerHub(公有仓库)1.注册DockerHub账号并登录登录(免费)2.按图示操作找到仓库按钮3.创建自己的仓库4.创建成功并查看自己的仓库5.用命令登录仓库6.找到要推送的镜像。并重命名7.推送到DockerHub仓库8.验证的Docker镜像是否推送成功9.退出远程仓库推送到阿里云仓库

Docker 中的 Hadoop 配置 - Datanode 无法连接

我正在尝试构建一个dockerizedhadoop系统。我目前遇到数据节点无法连接到名称节点的问题。对于某些背景:每个docker镜像都在运行其hadoop角色和一个免费的ipa客户端,并且都在使用免费的ipa作为dns。所有的hdfs服务都在hdfs用户uid:6001gid:6001group:hadoop下运行。这是我在名称节点上看到的错误:2014-10-1615:52:28,066WARN[IPCServerhandler4on8020]blockmanagement.DatanodeManager(DatanodeManager.java:registerDatanode(