1、创建目录创建单层目录执行命令:hdfsdfs-mkdir/ied利用HadoopWebUI查看创建的目录 创建多层目录,执行命令:hdfsdfs-mkdir/luzhou/lzy,会报错,因为/luzhou目录不存在 可以先创建/luzhou目录,然后在里面再创建lzy子目录,但是也可以一步到位,需要一个-p参数执行命令:hdfsdfs-mkdir-p/luzhou/lzy 利用HadoopWebUI查看创建的多层目录 2、查看目录执行命令:hdfsdfs-ls/,查看根目录 执行命令:hdfsdfs-ls/luzhou 查看根目录里全部的资源,要用到地柜参数-R(必须大写),执行命令:
1.分析原因:可能出错的原因及解决方法:多次初始化这个问题一般是由于两次或两次以上的格式化NameNode(hadoopnamenode-format)造成的,2.想要重新格式化,删掉hadoop-2.10.1目录下的tmp文件夹:执行命令:rm-rftmp (注意在执行格式化命令时一定要关闭hadoop集群后操作)3.执行完成后便可以看到namenode节点
引言:通过Java本地把windows里的文件资源上传到centOs环境下的hdfs文件系统里,中间遇到了很多问题,不过最终还是把文件上传到了hdfs里了环境:centos-7.0,hadoop.2.8.5.gz,jdk1.8,eclipse1、下载hadoop.2.8.5.tar.gz和jdk1.8的linux版本安装包,上传到linux的根目录下并配置环境变量,useraddhadoop一个用户,这点就不再详细说了,自己百度一下,随便把hadoop.tar.gz解压到一目录里,比如/opt/hadoop/hadoop.2.8.5,配置好以后可以看到版本。2、我们进入到/opt/hadoop
引言:通过Java本地把windows里的文件资源上传到centOs环境下的hdfs文件系统里,中间遇到了很多问题,不过最终还是把文件上传到了hdfs里了环境:centos-7.0,hadoop.2.8.5.gz,jdk1.8,eclipse1、下载hadoop.2.8.5.tar.gz和jdk1.8的linux版本安装包,上传到linux的根目录下并配置环境变量,useraddhadoop一个用户,这点就不再详细说了,自己百度一下,随便把hadoop.tar.gz解压到一目录里,比如/opt/hadoop/hadoop.2.8.5,配置好以后可以看到版本。2、我们进入到/opt/hadoop
查看文件系统的文件,执行:hdfsdfs-ls/文件路径2.创建目录,执行:hdfs-dfs-mkdir/文件名3.删除目录,执行:hdfs-rm-r/文件名
DFSClient和DN在一个节点——localreads,远程阅读Remotereads。处理方式是一样的DN读数据通过RPC(TCP协议)把数据给DFSClient。DN在中间会做中转,处理简单但是性能收影响(Localread的情况下,会希望绕过DN直接读取Data,这就是短路短路本地读取DFSClient自行打开文件读取数据,需要配置白名单定义可读取数据的User——安全漏洞,不建议使用两个进程socket方式通讯,普通数据甚至是文件描述符传递给B,B读取文件内容({即使B没有权限)3.A为DN,B为DFSClient,读取文件安全性稍微好点负载平衡器Balancer让block放信息
一、HDFS常用命令1.创建创建指定路径文件夹hdfsdfs-mkdir/user/zhaojuanjuan/syuchen_files2.查看查看指定目录下的文件hdfsdfs-ls/path查看指定文件夹总大小hdfsdfs-du-s-h/path查看指定目录下每一个文件夹的大小hdfsdfs-du-h/path直接查看gz文件内容hadoopfs-cat/xxxx/xxx.gz|gzip-d查看gz文件内容前几行hadoopfs-cat/xxxx/xxx.gz|gzip-d|head-103.移动与删除移动文件hdfsdfs-mv源文件路径目标路径删除hdfs文件夹hdfsdfs-rm-
#需要有superuser权限才能执行hadoopdfsadmin-report#Remaining是剩余的容量也可以通过浏览器访问50070端口查看
现象:解决:1.看Hadoop的日志:查看namenode日志:tail-n200hadoop-xinjie-namenode-VM-0-9-centos.log(文件目录所在位置:hadoop安装位置logs文件) 2.发现是端口占用3.命令查看端口占用情况:netstat-anp|grep9866 4.杀死进程:kill-998665.把所有占用的端口全部杀完之后重启集群,问题解决
一、分区的定义分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过where子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多,所以我们需要把常常用在where语句中的字段指定为表的分区字段。而分区又分为静态分区、动态分区两种。二、静态分区、动态分区对比静态分区与动态分区的主要区别在于静态分区是手动指定,是编译时进行分区。支持load和insert两种插入方式。适合于分区数少、分区名可以明确的数据而动态分区是通过数据来进行判断,是在SQL执行时进行分区。只支持inset这一种插入方式。需