草庐IT

docker-hadoop-spark

全部标签

大数据开发(Hadoop面试真题-卷七)

大数据开发(Hadoop面试真题)1、Map的分片有多大?2、MapReduce的map进程和reducer进程的ivm垃圾回收器怎么选择可以提高吞吐量?3、MapReduce作业执行的过程中,中间的数据会存在什么地方?不会存在内存中吗?4、Mapper端进行combiner之后,除了速度会提升,那从Mapper端到Reduce端的数据量会怎么变?5、MapReducemap输出的数据超出它的文件内存之后,是落地到磁盘还是落地到HDFS中?6、MapReduceMap到Reduce默认的分区机制是什么?7、MapReduceMapJoin为什么能解决数据倾斜?、8、MapReduce运行过程中

Spark 基础

1.Hadoop生态圈1.Hadoop概念Hadoop是一个分布式系统基础架构,主要是为了解决海量数据的存储和海量数据的分析计算问题。2.Hadoop特性三点: 高扩展性  高效性  高容错性2.认识Spark1.Spark故事Spark支持多种运行方式,包括在Hadoop和Mesos上,也支持Standalone的独立运行模式,同时也可以运行在云Kubernets(Spark2.3开始支持)上对于数据源而言,Spark支持从HDFS、HBase、Cassandra及Kafka等多种途径获取和数据2.Spark生态圈 ##(具有可靠、高效、可伸缩的特点)3.Spark概述  Spark在201

docker 服务的启动命令

Docker服务的启动命令主要涉及DockerDaemon的启动和管理。DockerDaemon是在后台运行的服务进程,负责管理Docker容器的创建、运行、停止等操作。根据你使用的操作系统,启动Docker服务的命令可能有所不同。对于Linux系统使用systemctl(适用于大多数基于systemd的系统,如Ubuntu16.04+,CentOS7+,Debian8+等):sudosystemctlstartdocker这个命令会启动Docker服务。开机自启动Docker服务:sudosystemctlenabledocker这个命令会设置Docker服务在系统启动时自动运行。查看Doc

spark基础

文章目录spark框架概述什么是spark起源sparkVShadoop(mapreduce)spark特点spark框架模块spark运行模式spark架构角色yarn角色saprk角色小结:解决问题模块特点运行模式运行角色spark环境搭建-local实验服务器环境基本原理本质角色分布搭建安装anaconda安装spark、hadoop、spark配置环境变量启动sparklocal模式小结运行原理bin/pyspark是什么程序spark的4040端口spark环境搭建-standalonestandalone架构主要3类进程standalone部署测试pysparkspark-subm

Hadoop性能调优建议

一、服务器配置1.BIOS配置:  关闭smmu/关闭cpu预取/performance策略2. 硬盘优化   raid0 打卡cache /jbod    scheduler/sector_size/read_ahead_kb3. 网卡优化   rx_buff/ring_buffer/lro/中断绑核/驱动升级4. 内存插法:要用均衡插法,内存配对插。5. 占用通道:先把每个通道都插满,再去插对应通道。(内存通道分布请查看机箱背板示意图)6. Rank数:内存条硬件参数,1R和2R的区别,得用2R的7. 频率:内存条主频,要选择主频高的。 8.Scheduler策略:ssd硬盘得用noop策

java - Apache Spark : akka version error by build jar with all dependencies

我已经使用maven(mvncleancompileassembly:single)和以下pom文件从我的spark应用程序构建了一个jar文件:4.0.0mgm.tp.bigdatama-spark0.0.1-SNAPSHOTjarma-sparkhttp://maven.apache.orgUTF-8clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/junitjunit3.8.1testorg.apache.sparkspark-core_2.101.1.0-cdh5.2.5mgm.tp.bigda

《Docker极简教程》--Docker镜像--Docker镜像的管理

一、镜像标签与版本管理1.1标签的作用与命名规范标签在Docker镜像中具有标识和版本控制的作用,可以帮助用户识别和管理不同版本的镜像。以下是一些关于Docker镜像标签的常见作用和命名规范:标识不同版本:标签通常用于区分不同版本的镜像。例如,可以使用标签来区分主要版本、次要版本和修订版本,或者使用日期、gitcommitID等来标识不同的构建版本。提供语义化版本号:标签可以遵循语义化版本规范(SemanticVersioning),使用户能够清楚地了解镜像的功能更新、修复或向后不兼容的变化。指定特定用途或环境:可以使用标签来指定镜像适用的特定用途或环境,例如"dev"、“test”、"pro

Docker快速搭建SkyWalking[ OAP & UI[登录] & Elasticsearch]

文章目录[前置]:搭建ELasticsearch相关[零]:虚拟机开放SkyingWalking和ES相关端口[一]:拉取SkyWalking-oap和SkyWalking-ui镜像[二]:运行SkyWalking的oap和ui容器2.1-运行Skywalking-oap容器----注意oap运行参数异常noproviderfoundformodulestorage2.2-运行SkyWalking-UI容器>2.2.1注意如果异常-eSW_OAP_ADDRESS=192.168.56.101:12800改为-eSW_OAP_ADDRESS=http://192.168.56.101:12800

Centos7系统下Docker-compose部署多节点Elk及Windows,Linux日志过滤收集全过程(Elasticsearch*2+Logstash+Kibana)

本文将详细介绍如何在Centos7系统下使用docker-compose部署ELK(Elasticsearch、Logstash、Kibana)的过程。其实部署很简单,重要的是要学会怎么使用,用在哪里,学习是一种过程,如果你看到这篇文章,请耐心的跟着我操作步骤一起做下去,这样你就能大概的入门到了ELK,当然我也是刚学习ELK,有什么不对的请多多指教~本篇文章从实际使用角度出发,先部署,后应用,再收集,再分析(这一块后面我做出来了再完善进去)先对ELK三剑客进行一个用途简介:ELK三剑客是指Elasticsearch、Logstash和Kibana。它们是一组广泛使用的开源工具,主要用于处理和分

Docker实战——网络通信

目录一、Docker容器网络通信的基本原理1、查看Docker容器网络(1)新建一个Dockerfile文件,内容如下:(2)使用以下命令创建镜像(3)基于debian的镜像创建一个容器,并进入该容器中。(4)在宿主机上打开一个命令窗口,执行以下命令查看宿主机的docker0网桥信息。(5)在容器内执行以下命令查看容器网络信息。如图所示:2、宿主机与Docker容器建立网络通信的过程二、使用命令查看Docker的网络配置信息1、利用以下命令查看Docker的网络通信模式,如图所示:2、查看bridge模式的额详细信息,如图所示:三、Docker的4种网络通信模式1、bridge模式(1)使用b