目录标题1、ApacheHadoop2、HDFS2.1设计目标:2.2特性:2.3架构2.4注意点2.5HDFS基本操作2.5.1shell命令选项2.5.2shell常用命令介绍3、HDFS基本原理3.1NameNode概述3.2Datanode概述1、ApacheHadoopHadoop:允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。核心组件有:HDFS(分布式文件系统):解决海量数据存储YARN(作业调度和集群资源管理的框架):解决资源任务调度MAPREDUCE(分布式运算编程框架):解决海量数据计算特点:扩容能力(Scalable)成本低(Economical)高
当HDFS的DataNode节点挂载多个磁盘时,往往会出现两种数据不均衡的情况:1.不同DataNode节点间数据不均衡;2.挂载数据盘的磁盘间数据不均衡。特别是这种情况:当DataNode原来是挂载了几个数据盘,当磁盘占用率很高之后,再挂载新的数据盘。由于Hadoop2.x版本并不支持HDFS的磁盘间数据均衡,因此,会造成老数据磁盘占用率很高,新挂载的数据盘几乎很空。在这种情况下,挂载新的数据盘就失去了扩容HDFS数据盘的意义。如果想要解决节点内多块磁盘数据不均衡的现象,就要借助DiskBalancer。Hadoop3,默认就支持磁盘间数据均衡,本文档主要介绍在CDP中如何进行HDFS磁盘扩
HDFS上的数据均衡简介文章目录HDFS上的数据均衡简介重新平衡多DN之间的数据相关命令重新平衡单DN内磁盘间的数据相关命令PlanExecuteQueryCancelReport相关配置调试HDFS上的balance目前有两类:Balancer:多数据节点之间的balanceDiskBalancer:单数据节点内磁盘之间的balanceNN增加新块时的默认策略(默认3副本)将块的一份副本存储在接收写入请求的DN节点上;在第一份副本所在DN的机架中寻找另一个DN,存放一份新副本。在不同机架的DN上写入第三份副本。重新平衡多DN之间的数据入口IssueHADOOP1652当一个新的数据节点加入h
前言本节内容我们介绍一下hadoop在手动模式下如何实现HDFS的高可用,HDFS的高可用功能是通过配置多个NameNodes(Active/Standby)实现在集群中对NameNode的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将NameNode很快的切换到另外一台机器,并通过JournalNode实现主备节点的数据同步。正文集群规划HDFS高可用集群规划hadoop101hadoop02hadoop03NameNodeNameNodeNameNodeJournalNodeJournalNodeJournalNodeDataNodeDataNodeD
集群创建启动MiniDFSCluster可以用这个类创建一个单进程的DFS集群用来进行单元测试。一般是采用MiniDFSCluster$Builder去建造出一个MiniDFSCluster对象。builder可以指定很多参数获取cluster里的某个DataNode对象【HDFS】单测中MiniDFSCluster获取某个DataNode对象MiniRouterDFSCluster用来模拟一个有多台Router的HDFS联邦集群。写一个测试文件副本文件EC文件GenericTestUtils等待某个条件为true。【HDFS】GenericTestUtils#waitFor的使用
HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M。如果一个文件文件小于128M,该文件会占用128M的空间吗?不是的,它只占用文件本身大小的空间,其它空间别的文件也可以用,所以这128M的含义是HDFS数据块的大小,和每个文件的大小没有关系。把下图的流程过一下 思考:为什么块的大小不能设置太小,也不能设置太大?HDFS的块设置太小,会增加寻址时间。例如,块的大小是1KB,文件大小是100KB,这时候要分100个块来存储文件,读取文件时要找到100个块的地址,
HDFS之Java客户端操作文章目录HDFS之Java客户端操作写在前面准备Windows关于Hadoop的开发环境下载依赖配置HADOOP_HOME环境变量配置Path环境变量创建Maven工程XML文件创建新的Package创建HdfsClient类执行程序HDFS的API操作写在前面Hadoop版本:Hadoop-3.1.3Linux版本:CentOS7.5IDE工具:IntelliJIDEA(Windows环境下)HDFS的Java客户端操作也是入门Hadoop开发的学习重点准备Windows关于Hadoop的开发环境下载依赖https://github.com/steveloughr
HDFS(HadoopDistributedFileSystem)是Hadoop分布式文件系统,以下是一些HDFS常用命令:以下命令中的hadoopfs在高版本的Hadoop中可以使用hdfsdfs替换其它参数不变hadoopfs-ls:列出HDFS中的文件和目录。hadoopfs-mkdir:创建一个新目录。hadoopfs-rm:删除文件或目录。hadoopfs-copyFromLocal:从本地文件系统复制文件到HDFS。hadoopfs-copyToLocal:从HDFS复制文件到本地文件系统。hadoopfs-mv:移动文件或目录,也可用于重命名文件或目录。hadoopfs-cat:
大数据技术基础实验四:HDFS实验——读写HDFS文件文章目录大数据技术基础实验四:HDFS实验——读写HDFS文件一、前言二、实验目的三、实验原理1、JavaClasspath2、EclipseHadoop插件下载四、实验步骤1、配置master服务器classpath2、在master服务器编写HDFS写程序3、编译并打包HDFS写程序4、执行HDFS写程序5、在master服务器编写HDFS读程序6、编译并打包HDFS读程序7、执行HDFS读程序8、安装与配置EclipseHadoop插件9、使用Eclipse开发并打包HDFS写文件程序10、上传HDFS写文件程序jar包并执行11、使
大数据技术基础实验四:HDFS实验——读写HDFS文件文章目录大数据技术基础实验四:HDFS实验——读写HDFS文件一、前言二、实验目的三、实验原理1、JavaClasspath2、EclipseHadoop插件下载四、实验步骤1、配置master服务器classpath2、在master服务器编写HDFS写程序3、编译并打包HDFS写程序4、执行HDFS写程序5、在master服务器编写HDFS读程序6、编译并打包HDFS读程序7、执行HDFS读程序8、安装与配置EclipseHadoop插件9、使用Eclipse开发并打包HDFS写文件程序10、上传HDFS写文件程序jar包并执行11、使