草庐IT

hdfs_clusters

全部标签

《Hadoop篇》------HDFS与MapReduce

目录一、HDFS角色职责总结二、CheckPoint机制三、Mapreduce序列化四、Mapper4.1、官方介绍4.2、Split计算4.3、Split和block对应关系4.4、启发式算法五、MapTask整体的流程六、压缩算法6.1、压缩算法适用场景6.2、压缩算法选择 6.2.1、Gzip压缩6.2.2、Bzips压缩6.2.3、Lzo压缩七、ResourceManager八、Yarn角色九、任务调度策略9.1、FIFOScheduler(先进先出调度器)9.2、CapacityScheduler(容量调度器)9.3、FairScheduler(公平调度器)一、HDFS角色职责总结N

Hadoop官网翻译 (HDFS命令)

HDFS命令行用户命令dfsenvvars获取hadoop环境变量fsck-delete-files-blocks-replicaDetails-list-corruptfileblocks-move:删除坏块到/lost+found-openforwrite-storagepolicies存储策略-replicate满足副本策略getconf基本上都可以在配置中看到,支持-confkey[key]groups获取groups用户httpfshttpfs和wehdfs的区别在于httpfs相当于一个网关,只需要访问该节点。webhdfs需要访问所有的节点。IsSnapshottableDir返

Hadoop官网翻译 (HDFS命令)

HDFS命令行用户命令dfsenvvars获取hadoop环境变量fsck-delete-files-blocks-replicaDetails-list-corruptfileblocks-move:删除坏块到/lost+found-openforwrite-storagepolicies存储策略-replicate满足副本策略getconf基本上都可以在配置中看到,支持-confkey[key]groups获取groups用户httpfshttpfs和wehdfs的区别在于httpfs相当于一个网关,只需要访问该节点。webhdfs需要访问所有的节点。IsSnapshottableDir返

hadoop之hdfs生产数据块损坏修复方法

1、手动修复检查数据块丢失情况hdfsfsck/修复指定路径的hdfs文件,尝试多次hdfsdebugrecoverLease-path文件位置-retries重复次数删除所有损坏的块的数据文件hdfsfsck/-delete2、自动修复hdfs会自动修复损坏的数据块,当数据块损坏后,DN节点执行directoryscan(datanode进行内村和磁盘数据集块校验)操作之前,都不会发现损坏directoryscan操作校验是间隔6hdfs.datanode.directoryscan.interval:21600在DN向NN进⾏blockreport前,都不会恢复数据块;也就是blockre

hadoop之hdfs生产数据块损坏修复方法

1、手动修复检查数据块丢失情况hdfsfsck/修复指定路径的hdfs文件,尝试多次hdfsdebugrecoverLease-path文件位置-retries重复次数删除所有损坏的块的数据文件hdfsfsck/-delete2、自动修复hdfs会自动修复损坏的数据块,当数据块损坏后,DN节点执行directoryscan(datanode进行内村和磁盘数据集块校验)操作之前,都不会发现损坏directoryscan操作校验是间隔6hdfs.datanode.directoryscan.interval:21600在DN向NN进⾏blockreport前,都不会恢复数据块;也就是blockre

【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档

目录Grafana简介下载软件包安装部署修改配置文件创建用户创建Systemd服务启动GrafanaSpark应用监控Graphite_exporterHDFS监控YARN监控HBase监控Grafana简介Grafana是一款开源的数据可视化工具,使用Grafana可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。下载软件包wgethttps://dl.grafana.com/enterprise/release/grafana-enterprise-9.1.6.linux-amd64.tar.gz安装部署解压tar-xvzfgrafana-enterprise-9

【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档

目录Grafana简介下载软件包安装部署修改配置文件创建用户创建Systemd服务启动GrafanaSpark应用监控Graphite_exporterHDFS监控YARN监控HBase监控Grafana简介Grafana是一款开源的数据可视化工具,使用Grafana可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。下载软件包wgethttps://dl.grafana.com/enterprise/release/grafana-enterprise-9.1.6.linux-amd64.tar.gz安装部署解压tar-xvzfgrafana-enterprise-9

k8s集群添加master节点提示control plane instance a cluster that doesn‘t have a stable controlPlaneEndpoint ad

k8s集群添加master节点提示unabletoaddanewcontrolplaneinstanceaclusterthatdoesn'thaveastablecontrolPlaneEndpointaddress 检查kube-config.yaml文件#kubeadmconfigview>kube-config.yaml或者是直接查询#kubectlgetcmkubeadm-config-nkube-system#kubectldescribecmkubeadm-config-nkube-system  发现没有controlPlaneEndpoint这个参数或者从kubeadmcon

k8s集群添加master节点提示control plane instance a cluster that doesn‘t have a stable controlPlaneEndpoint ad

k8s集群添加master节点提示unabletoaddanewcontrolplaneinstanceaclusterthatdoesn'thaveastablecontrolPlaneEndpointaddress 检查kube-config.yaml文件#kubeadmconfigview>kube-config.yaml或者是直接查询#kubectlgetcmkubeadm-config-nkube-system#kubectldescribecmkubeadm-config-nkube-system  发现没有controlPlaneEndpoint这个参数或者从kubeadmcon

HDFS的文件存储格式以及HDFS异构存储和存储策略

HDFS文件存储格式丰富的存储格式行式存储优点:写入是一次性完成的,消耗的时间比列式存储少,并且能够保证数据的完整性缺点:数据读取过程中会产生冗余数据,如果只有少量数据,此影响可以忽略,数量较大可能会影响到数据的处理效率。行式存储适合插入不适合查询列式存储优点:在读取过程中不会产生冗余数据,这对数据完整性要求不高的大数据领域极其重要。缺点:写入效率、保证数据的完整性上都不如行式存储列式存储适合查询不适合插入TextFile文本格式是Hadoop生态系统内部和外部的最常见的格式,通常按照行存储,以回车换行符区分不同的行数据优点:易读性好。至少是人能读懂的缺点:解析开销一般比二进制格式的开销大,特