草庐IT

docker-spark

全部标签

Docker镜像之Docker Compose讲解

文章目录1docker-compose1.1compose编排工具简介1.2安装docker-compose1.3编排启动镜像1.4haproxy代理后端docker容器1.5安装socat直接操作socket控制haproxy1.6compose中yml配置指令参考1.6.1简单命令1.6.2build1.6.3depends_on1.6.4deploy1.6.5logging1.6.6network_mode1.6.7secrets1docker-compose1.1compose编排工具简介Compose是用于定义和运行多容器Docker应用程序的工具。通过Compose,可以使用YML

【docker login报错】x509: cannot validate certificate for IP地址 because it does not contain any IP SANs

原因如果服务器名称是IP地址,还会检查证书的SubjectAlternativeName(SAN),因此需要创建一个包含此名称的证书。否则,dockerlogin时会报如下错误:Errorresponsefromdaemon:Gethttps://x.x.x.x/v2/:x509:cannotvalidatecertificateforx.x.x.xbecauseitdoesn'tcontainanyIPSANs解决方法在证书中生成x509v3Extensions。要将 extensions 添加到证书中,需要在签署证书时使用“-extensions”选项。例:#opensslca-polic

hadoop - Cloudera Docker 镜像......一切都出错了

我正在运行16GB的Macbookpro和ElCapitan操作系统。我使用安装了clouderadocker镜像dockerpullcloudera/quickstart:latestdockerrun--privileged=true--hostname=quickstart.cloudera-t-i9f3ab06c7554/usr/bin/docker-quickstart图像启动正常,我可以看到大多数服务正在启动StartedHadoophistoryserver:[OK]startingnodemanager,loggingto/var/log/hadoop-yarn/yar

hadoop - 上传资源文件时 createBlockOutputStream 中的 Spark HDFS 异常

我正在尝试使用yarn-cluster在集群中运行我的JAR,但一段时间后出现异常。失败前的最后一个INFO是Uploadingresource。我检查了所有安全组,成功执行了hsdfls但仍然出现错误。./bin/spark-submit--classMyMainClass--masteryarn-cluster/tmp/myjar-1.0.jarmyjarparameter16/01/2116:13:51WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-j

hadoop - 在整个集群中使用 spark-submit 运行 Spark 作业

我最近在AmazonEMR上设置了一个Spark集群,其中有1个主节点和2个从节点。我可以运行pyspark,并使用spark-submit提交作业。但是,当我创建一个独立作业时,例如job.py,我创建了一个SparkContext,如下所示:sc=SparkContext("local","AppName")这看起来不对,但我不确定该放什么。当我提交作业时,我确定它没有使用整个集群。如果我想在我的整个集群上运行一个作业,比如每个从属4个进程,我必须做什么a.)作为参数传递给spark-submitb.)在脚本本身中作为参数传递给SparkContext()。

scala - 用于 Spark 集成测试的 Hive 配置

我正在寻找一种方法来配置Hive以进行SparkSQL集成测试,以便将表写入临时目录或测试根目录下的某个位置。我的调查表明这需要同时设置fs.defaultFS和hive.metastore.warehouse.dir之前HiveContext被build。只需设置后者,如本answer中所述不适用于Spark1.6.1。valsqlc=newHiveContext(sparkContext)sqlc.setConf("hive.metastore.warehouse.dir",hiveWarehouseDir)表元数据位于正确的位置,但写入的文件位于/user/hive/wareho

hadoop - Spark Streaming StreamingContext 事件计数

sparkdocs状态:OnlyoneStreamingContextcanbeactiveinaJVMatthesametime.想象一下我计划从两个Kafka主题读取/处理数据的情况,其中一个作业从一个Kafka主题获取数据,另一个从另一个Kafka主题获取数据。我可以在同一个hadoop集群上同时触发这两个作业吗?它还指出,Onceacontexthasbeenstopped,itcannotberestarted.因此,如果由于某种原因我必须停止spark作业,有什么方法可以重新启动它?我是否通过oozie或其他方式触发它? 最佳答案

hadoop - 我可以使用 Kerberos 在 Yarn 上运行 DCE(Docker 容器执行器)吗?

hadoop文档指出DCE不支持具有安全模式(Kerberos)的集群:https://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/DockerContainerExecutor.html有人在研究这个吗?有办法绕过这个限制吗? 最佳答案 好的。当前没有关于DCE的工作(YARN-2466)。努力已经转向支持LinuxContainerExecutor中的Docker容器(YARN-3611)。这将支持Kerberos。目前还没有文档(YARN-5258),其

scala - Spark Hadoop 广播失败

运行spark-submit作业并收到“无法获取broadcast_58_piece0...”错误。我真的不确定我做错了什么。我是否过度使用了UDF?功能太复杂?作为我的目标的总结,我正在解析pdf中的文本,这些文本作为base64编码的字符串存储在JSON对象中。我正在使用ApacheTika获取文本,并尝试大量使用数据帧来简化操作。我写了一段代码,通过tika将文本提取作为“主”之外的一个函数在数据上作为RDD运行,并且运行完美。但是,当我尝试将提取作为数据帧上的UDF引入main时,它会以各种不同的方式出现问题。在我到达这里之前,我实际上是在尝试将最终数据框编写为:valid.t

scala - Spark(Scala)从驱动程序写入(和读取)本地文件系统

第一个问题:我有一个带有hadoop的2节点虚拟集群。我有一个运行Spark作业的jar。此jar接受作为cli参数:commands.txt文件的路径,该文件告诉jar运行哪些命令。我使用spark-submit运行作业,我注意到我的从节点没有运行,因为它找不到主节点本地的commands.txt文件。这是我用来运行它的命令:./spark-1.6.1-bin-hadoop2.6/bin/spark-submit--classuniv.bigdata.course.MainRunner--masteryarn\--deploy-modecluster--executor-memory