目录1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆)2、Spark为什么比MapReduce块?(☆☆☆☆☆)3、简单说一下hadoop和spark的shuffle相同和差异?(☆☆☆☆☆)4、Spark工作机制(☆☆☆☆☆)5、Spark的优化怎么做?(☆☆☆☆☆)6、数据本地性是在哪个环节确定的?(☆☆☆☆☆)7、RDD的弹性表现在哪几点?(☆☆☆☆☆)8、RDD有哪些缺陷?(☆☆☆☆☆)9、Spark的Shuffle过程(☆☆☆☆☆)10、Spark的数据本地性有哪几种?(☆☆☆☆☆)11、Spark为什么要持久化,一般什么场景下要进行persist操作?(☆☆☆)12、介绍
一.docker介绍1.docker是什么? Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux或Windows操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何影响。Docker的优势包括快速部署、跨平台兼容、资源隔离、易于管理和扩展等。Docker由三个主要组件组成:Docker引擎、Docker镜像和Docker容器。Docker引擎是运行和管理容器的核心组件,Docker镜像是应用程序和其依赖项的打包格式,Docker容器是基于镜像运行的实例。2.Docker容器:-容器是一种轻量级
1.dockerpush介绍dockerpush命令是用来将本地docker镜像上传到docker镜像仓库2.dockerpush用法dockerpush[参数]NAME[:TAG][root@centos79harbor]#dockerpush--helpUsage:dockerpush[OPTIONS]NAME[:TAG]UploadanimagetoaregistryAliases:dockerimagepush,dockerpushOptions:-a,--all-tagsPushalltagsofanimagetotherepository--disable-content-trus
docker核心原理docker的核心原理其实就是cgroup+namespace+unionfs组合实现的隔离机制,资源控制等。隔离机制在容器进程启动之前重新挂载它的整个根⽬录“/”,⽤来为容器提供隔离后的执⾏环境⽂件系统通过LinuxNamespace创建隔离,决定进程能够看到和使⽤哪些东⻄。通过controlgroups技术来约束进程对资源的使⽤unionfs首先看rootfs,rootfs是Docker容器在启动时内部进程可⻅的⽂件系统,即Docker容器的根⽬录。rootfs通常包含⼀个操作系统运⾏所需的⽂件系统,例如可能包含经典的类Unix操作系统中的⽬录系统,如/dev、/pro
1.cast()更改数据类型cast(column_nameastype)2.get_dt_date()自定义日期操作函数(返回不带横线的日期)selectget_dt_date();–获取当前日期,返回20170209selectget_dt_date(get_date(-2));–获取当前日期偏移,转为不带横杆的格式selectget_dt_date(‘2017-02-02’,-2);–201701313.ROW_NUMBER(),它为结果集的分区中的每一行分配一个连续的整数。行号以每个分区中第一行的行号开头。ROW_NUMBER()OVER([PARTITIONBYpartition_e
0前言部署运维博客系列一共有三篇:拥抱开源,将工作中的经验分享出来,尽量避免新手踩坑。【部署运维】docker:入门到进阶【部署运维】kubernetes:容器集群管理掌握这些就够了【部署运维】python+redis+celery+docker:实时异步访问的深度学习应用实战 1docker的原理和优势1.1docker的原理招聘要求中的提到的容器化技术指的就是docker相关的东西。确切地说,容器是一种对进程进行隔离的运行环境;进程的隔离,主要是通过Namespace和Cgroup两大机制实现的。在生产环境中,容器基本都是运行在linux上的。1.2docker的优势更高效的利用系统资源
1、前文概要通过物理机部署Jenkins前文已经讲过(地址:[Jenkins]物理机安装Jenkins),也已经公司内部平稳运行若干年,考虑到容器化的使用场景,部分项目都采用容器运行,开始考虑部署容器化的Jenkins,殊不知,这也是入坑的开始;以下提供下最近今日几次调试遇到的错误及思路,各种命令均可在Jenkins容器内适用,目前支持:go、git、node、docker等命令友情提示:容器化部署的Jenkins所有的操作命令都是在容器内生效;至今没解决的事:在Jenkins中将容器内的文件拷贝到宿主机,尝试dockercpxx,基本都是通过容器的Jenkinshome,拷贝到容器的某个地址
...........................................................................................................................................................在idea中用scala编写spark的WordCount的案例时,老是报错,scala能运行其他程序scala没有问题,依赖按照视频教程也成功下载,Maven仓库也下载的巴巴适适,报的错误太多了,我节选有价值的错误信息:..................................
一.Docker部署Nginx以及端口映射Docker部署Nginx,首先需要下载nginx镜像,然后启动这个镜像,就运行了一个nginx的容器了1.下载nginx镜像并启动容器#查看是否存在nginx镜像:发现没有nginx镜像[root@localhostzph]#dockerimages|grepnginx#下载nginx镜像[root@localhostzph]#dockerpullnginxUsingdefaulttag:latestlatest:Pullingfromlibrary/nginxa378f10b3218:Pullcomplete5b5e4b85559a:Pullcom
目录1.Spark概念2.Hadoop和Spark的对比3.Spark特点3.1 运行速度快3.2简单易用3.3 通用性强3.4 可以允许运行在很多地方4.Spark框架模块4.1SparkCore4.2 SparkSQL4.3 SparkStreaming4.4 MLlib4.5 GraphX5.Spark的运行模式5.1本地模式(单机)Local运行模式5.2Standalone模式(集群)5.3HadoopYARN模式(集群)5.4Kubernetes模式(容器集群)5.5 云服务模式(运行在云平台上)6.Spark架构6.1在Spark中任务运行层面6.2在Spark中资源层面1.Sp