草庐IT

docker-spark

全部标签

Spark避坑系列一(基础知识)

大家想了解更多大数据相关内容请移驾我的课堂:大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理:剖析及实践数据建模剖析及实践数据资产运营平台Spark作为大数据领域离线计算的王者,在分布式数据处理计算领域有着极高的处理效率,而Python作为Spark支持的开发的重要语言之一,特别对各类机器学习算法的支持,使得有着极高的使用率,本系列文章将通过介绍Spark的基础使用,带大伙入坑Spark一、什么是SparkApacheSpark是用于大规模数据(large-scaladata)处理的统一(unified)分析引擎。1.1框架模块

Docker 安装 CentOS

Docker安装CentOSCentOS(CommunityEnterpriseOperatingSystem)是Linux发行版之一,它是来自于RedHatEnterpriseLinux(RHEL)依照开放源代码规定发布的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定性的服务器以CentOS替代商业版的RedHatEnterpriseLinux使用。1、查看可用的CentOS版本访问CentOS镜像库地址:https://hub.docker.com/_/centos?tab=tags&page=1。可以通过Sortby查看其他版本的CentOS。默认是最新版本centos:l

Spark 运行架构

        Spark框架的核心是一个计算引擎,整体来说,它采用了标准master-slave的结构。如下图所示,它展示了一个Spark执行时的基本结构。图形中的Driver表示master,负责管理整个集群中的作业任务调度。图形中的Executor则是slave,负责实际执行任务。计算核心组件Driver        Spark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:➢将用户程序转化为作业(job);➢在Executor之间调度任务(task);➢跟踪Executor的执行情况;➢通过UI展示查询运行情况;

Spark原理——逻辑执行图

逻辑执行图明确逻辑计划的边界在Action调用之前,会生成一系列的RDD,这些RDD之间的关系,其实就是整个逻辑计划valconf=newSparkConf().setMaster("local[6]").setAppName("wordCount_source")valsc=newSparkContext(conf)valtextRDD=sc.parallelize(Seq("HadoopSpark","HadoopFlume","SparkSqoop"))valsplitRDD=textRDD.flatMap(_.split(""))valtupleRDD=splitRDD.map((_,

Spark与Kafka的集成与流数据处理

ApacheSpark和ApacheKafka是大数据领域中非常流行的工具,用于数据处理和流数据处理。本文将深入探讨如何在Spark中集成Kafka,并演示如何进行流数据处理。将提供丰富的示例代码,以帮助大家更好地理解这一集成过程。Spark与Kafka的基本概念在开始集成之前,首先了解一下Spark和Kafka的基本概念。ApacheSpark:Spark是一个快速、通用的分布式计算引擎,具有内存计算能力。它提供了高级API,用于大规模数据处理、机器学习、图形处理等任务。Spark的核心概念包括弹性分布式数据集(RDD)、DataFrame和Dataset等。ApacheKafka:Kafk

【史上最细教程】CentOS7 下载安装 RabbitMQ(两种方式:手动安装 / Docker安装)

文章目录【史上最细教程】CentOS7下载安装RabbitMQ方式一:手动安装1.下载安装Erlang、RabbitMQ2.防火墙、安全组端口放行3.启动RabbitMQ服务4.浏览器用户登录5.配置文件查看(可略)方式二:Docker安装1.安装Docker2.获取RabbitMQ镜像、创建容器3.浏览器访问扩展内容【史上最细教程】CentOS7下载安装RabbitMQ官网地址:https://www.rabbitmq.com/download.html两种下载安装方式自选。方式一:手动安装1.下载安装Erlang、RabbitMQ#查看系统版本号(centos7)root@songdanm

4-Docker命令之docker update

1.dockerupdate介绍dockerupdate命令是用于更新一个或多个docker容器的配置2.dockerupdate用法dockerupdate[参数]container[container......][root@centos79~]#dockerupdate--helpUsage:dockerupdate[OPTIONS]CONTAINER[CONTAINER...]UpdateconfigurationofoneormorecontainersAliases:dockercontainerupdate,dockerupdateOptions:--blkio-weightui

Docker 数据卷容器

docker在容器中管理数据主要有两种方式:数据卷(Volumes)挂载主机目录(Bindmounts)        而每个容器的数据都是独立的,数据跟随着容器的生命周期。如mysql容器,如果容器被删除了所有的数据都会丢失。所以容器的数据不能放在容器里面,数据卷就用来管理容器中的数据的。数据卷         为了很好的实现数据保存和数据共享,Docker提出了Volume这个概念,简单的说就是绕过默认的联合文件系统,而以正常的文件或者目录的形式存在于宿主机上。又被称作数据卷。         数据卷是一个可供一个或多个容器使用的特殊目录,它将主机操作系统目录直接映射进容器,它可以提供很多

docker build命令详解

dockerbuild命令详解明天要讲dockerfile的公开课,正好借此机会,整理下docker命令的专题语法dockerbuild[OPTIONS]PATH|URL|-作用通过dockerfile构建一个镜像示例用的最多的一种方式dockerbuild-t镜像名:tag.参数用的比较多的就是-t:给镜像打标签-f:指定某个文件来构建镜像,不指定的话那必须是默认的Dockerfile,名字可以通过-f来更改–target:指定阶段构建,对应多阶段构建的场景其他示例dockerbuildhttp://server/context.tar.gzdockerbuild-Dockerfiledoc

docker 镜像压缩 docker-squash

dockerbuild通过Dockerfile制作镜像会根据命令形成一层层layer,这样造成文件重复,镜像体积比较大;为了缩小层的数量及其大小,能够像压缩gitcommit一样压缩layer层,docker-squash能够执行此操作。Dockersquash将压缩多个镜像layer层,以便删除存储在两头步骤中的所有数据,即删除掉重复数据。本文就docker-squash使用效果展开讨论。一、docker-squash安装pipinstalldocker-squashdocker-squash--helpusage:docker-squash[-h][-v][--version][-d][-